§ B8·AI 实践3 prompts

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」,这就是这一节的目的。

先读这部分
§ B8

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」,这就是这一节的目的。

推理成本由什么决定
  • 显存(VRAM)。模型权重 + KV cache + activation。决定能不能装下
  • 显存带宽。决定生成 token 的速度(ITL, inter-token latency)。
  • 计算(FLOPs)。决定首 token 延迟(TTFT, time to first token)。

GPU 主流:NVIDIA H100 / H200 / B200(数据中心)、A100(老款但仍主流)、RTX 4090 / 5090(消费级旗舰)。

量化 + KV cache
  • FP8。H100 原生支持,速度几乎不掉,显存省 50%。
  • INT4 / GPTQ / AWQ。显存省 75%,精度损失一般 <2%。
  • INT2 / 三元 / 二元。实验性,极省显存但精度损失大。
  • KV cache 优化。FP8 KV cache(vLLM)、TurboQuant 4-bit KV cache(SGLang, 3.88x 压缩)、PagedAttention(vLLM)、RadixAttention(SGLang)。
推理框架 + 何时本地部署
  • vLLM。默认起点,PagedAttention、HuggingFace 兼容最广、硬件支持最全。
  • SGLang。RadixAttention 对 prefix-reuse 场景极强(multi-turn chatbot、RAG)、结构化输出快。2026 年由 RadixArk 团队独立,融了 4 亿美元。
  • TensorRT-LLM。NVIDIA 自家、极致 throughput、编译复杂。
  • TGI / llama.cpp / Ollama / LMStudio。轻量、本地、跑小模型。
  • 本地部署的场景。数据隐私 / 法规要求;用量很大、单次成本高;想要最新开源模型。否则用 API:$0.14-$2 / 百万 token,1 个工程师 1 小时就能上线。
动手做 · 提示词卡

把这段知识变成一段可执行的练习

以下 3 张卡,每张都是一段可复制的提示词。打开 Claude Code(或任何 LLM 终端),把卡里的提示词粘进去,AI 会陪你完成这一步。遇到不会的概念,把 AI 的回答贴回 卡里继续问下一步。可以一次做完,也可以分几次。

3 操作
Prompt 01操作★★

Ollama 跑本地模型

为什么要学本地跑模型 = 0 token 成本 + 数据不出公司, 用量大时这是质变。
打个比方像公司自建水井, 短期挖井贵, 长期喝水不要钱。
VibeCoder 场景你每天 100 次 prompt 调 API, 1 月 50 美金; 换 Ollama 本地跑 27B, 电费几毛。

装 Ollama → 拉 Qwen3.6-27B INT4 量化版(或同尺寸开源模型)→ 用 API 让它写一个简单 Python 排序函数 → 测速度(token/s)。

前置消费级 GPU 或 Apple Silicon 32GB+ · 会装桌面应用
  1. 01装 Ollama(macOS / Linux 一行命令)
  2. 02拉模型(按需选 7B / 14B / 27B)
  3. 03用命令行 / curl 调 API 跑 1 个简单 prompt
  4. 04测速度:1 个 200 token 回答花几秒
  5. 05关掉 Ollama,确认 token 成本归零
粘贴到 Claude Code(或任何 LLM 终端)Ollama 默认端口 11434;模型用 Qwen3.6-27B INT4 量化版
请写一个 Python 排序函数:\n- 处理空列表、单元素、全相同、已排序、逆序\n- 复杂度稳定\n- 返回 (sorted_list, swaps_count)
✓ 完成判据模型在你的消费级 GPU / Mac 上以 ≥10 token/s 跑通简单任务。
Apple Silicon 和 NVIDIA 量化版不同;M1 / M2 / M3 跑 27B 需要 ≥32GB 内存;NVIDIA 选 GPTQ 或 AWQ 量化版本。
参考B8 § 量化 + KV cache
Prompt 02操作★★★

vLLM vs SGLang

为什么要学选错推理框架 = 同样硬件慢 3 倍, 选对 = 同样的卡多 3 倍吞吐。
打个比方像同样 1 辆卡车, 装货方式不同——码整齐装 100 箱, 乱扔装 60 箱。
VibeCoder 场景你公司用 1 张 H100 跑客服, 1 秒答 5 人; 换 SGLang 同样卡答 12 人。

在 1 张 H100 / A100 上分别用 vLLM 和 SGLang 部署同一个模型,跑相同吞吐测试(multi-turn chatbot + 重复 system prompt),对比 token/s 和 P99 延迟。

前置有 1 张 H100 / A100 可用 · 会装 Python 包 + Docker
  1. 01选 1 个开源模型(如 Qwen3.6-27B)
  2. 02用 vllm serve 部署,跑 benchmark
  3. 03用 sglang serve 部署,跑同样 benchmark
  4. 04出 2 框架对比表(吞吐 / TTFT / ITL / 显存)
  5. 05判断哪种框架在 prefix-reuse 场景下更优
粘贴到 Claude Code(或任何 LLM 终端)
跑 multi-turn chatbot benchmark:\n- 50 个并发用户\n- 每用户 10 轮对话\n- 每轮 system prompt 1000 token + 用户消息 200 token\n- 测 token/s、TTFT P99、ITL P99
✓ 完成判据2 框架在同一硬件上吞吐差距量化(一般 SGLang 在 prefix-reuse 上快 2-4x)。
不同模型 / 不同 batch / 不同 prefix 复用率会反转胜负——单跑一次不能下结论;至少跑 3 种 prefix 复用率(0% / 50% / 90%)。
参考B8 § 推理框架
Prompt 03操作★★

算 token 成本

为什么要学不算成本 = 看到月底账单吓哭; 算清楚 = 知道什么时候该上自托管。
打个比方算 token 成本像算水电费, 不用每笔都记, 但月底对账不能省。
VibeCoder 场景你 1 月花 200 美金调 API, 算下自托管 1 张 H100 半年回本, 拍板买卡。

算 3 个场景的真实月成本:(a) 个人 vibe coding,每天 100 次 prompt,每次平均 5K input + 1K output (b) 小公司客服 1K 客户/天 (c) Agent 每小时跑 1 次 50K 文档检索。

前置知道 1-2 个模型的 API 单价
  1. 013 个场景,估月调用量
  2. 02算每月总 input token 和 output token
  3. 03套 2 家单价(闭源 + 便宜开源)
  4. 04对比闭源 / 开源 方案的月成本差距
  5. 05判断'用 API vs 自托管'的临界点
粘贴到 Claude Code(或任何 LLM 终端)
请按以下 3 场景算月成本:\nA) 个人 vibe coding:100 次/天 × 5K input + 1K output\nB) 客服 1K 客户/天 × 平均 2K input + 500 output\nC) Agent 1 次/小时 × 50K input + 2K output\n\n用 Claude Opus 4.7 ($3/$15) 和 DeepSeek V4 Flash ($0.14/$0.28) 各算一遍。
✓ 完成判据3 场景都有具体月成本数字;至少识别出 1 个'用 API 比自托管便宜'的临界点。
忽略 cache 后的实际成本(启用 prompt caching 后 input 成本可降 50-80%);忽略 output token 一般比 input 贵 3-5x。
参考B8 § 推理成本