§ B8·AI 实践3 prompts

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」，这就是这一节的目的。

← AI 划重点·← Prev · 评估、能力边界与失败模式·Next · 多模态与 AI 生态地图 →

先读这部分

§ B8

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」，这就是这一节的目的。

推理成本由什么决定

显存（VRAM）。模型权重 + KV cache + activation。决定能不能装下。
显存带宽。决定生成 token 的速度（ITL, inter-token latency）。
计算（FLOPs）。决定首 token 延迟（TTFT, time to first token）。

GPU 主流：NVIDIA H100 / H200 / B200（数据中心）、A100（老款但仍主流）、RTX 4090 / 5090（消费级旗舰）。

量化 + KV cache

FP8。H100 原生支持，速度几乎不掉，显存省 50%。
INT4 / GPTQ / AWQ。显存省 75%，精度损失一般 <2%。
INT2 / 三元 / 二元。实验性，极省显存但精度损失大。
KV cache 优化。FP8 KV cache（vLLM）、TurboQuant 4-bit KV cache（SGLang, 3.88x 压缩）、PagedAttention（vLLM）、RadixAttention（SGLang）。

推理框架 + 何时本地部署

vLLM。默认起点，PagedAttention、HuggingFace 兼容最广、硬件支持最全。
SGLang。RadixAttention 对 prefix-reuse 场景极强（multi-turn chatbot、RAG）、结构化输出快。2026 年由 RadixArk 团队独立，融了 4 亿美元。
TensorRT-LLM。NVIDIA 自家、极致 throughput、编译复杂。
TGI / llama.cpp / Ollama / LMStudio。轻量、本地、跑小模型。
本地部署的场景。数据隐私 / 法规要求；用量很大、单次成本高；想要最新开源模型。否则用 API：$0.14-$2 / 百万 token，1 个工程师 1 小时就能上线。

Ollama 跑本地模型

为什么要学本地跑模型 = 0 token 成本 + 数据不出公司, 用量大时这是质变。

打个比方像公司自建水井, 短期挖井贵, 长期喝水不要钱。

VibeCoder 场景你每天 100 次 prompt 调 API, 1 月 50 美金; 换 Ollama 本地跑 27B, 电费几毛。

装 Ollama → 拉 Qwen3.6-27B INT4 量化版（或同尺寸开源模型）→ 用 API 让它写一个简单 Python 排序函数 → 测速度（token/s）。

前置消费级 GPU 或 Apple Silicon 32GB+ · 会装桌面应用

01装 Ollama（macOS / Linux 一行命令）
02拉模型（按需选 7B / 14B / 27B）
03用命令行 / curl 调 API 跑 1 个简单 prompt
04测速度：1 个 200 token 回答花几秒
05关掉 Ollama，确认 token 成本归零

粘贴到 Claude Code（或任何 LLM 终端）Ollama 默认端口 11434；模型用 Qwen3.6-27B INT4 量化版

请写一个 Python 排序函数：\n- 处理空列表、单元素、全相同、已排序、逆序\n- 复杂度稳定\n- 返回 (sorted_list, swaps_count)

✓ 完成判据模型在你的消费级 GPU / Mac 上以 ≥10 token/s 跑通简单任务。

坑Apple Silicon 和 NVIDIA 量化版不同；M1 / M2 / M3 跑 27B 需要 ≥32GB 内存；NVIDIA 选 GPTQ 或 AWQ 量化版本。

参考B8 § 量化 + KV cache

vLLM vs SGLang

为什么要学选错推理框架 = 同样硬件慢 3 倍, 选对 = 同样的卡多 3 倍吞吐。

打个比方像同样 1 辆卡车, 装货方式不同——码整齐装 100 箱, 乱扔装 60 箱。

VibeCoder 场景你公司用 1 张 H100 跑客服, 1 秒答 5 人; 换 SGLang 同样卡答 12 人。

在 1 张 H100 / A100 上分别用 vLLM 和 SGLang 部署同一个模型，跑相同吞吐测试（multi-turn chatbot + 重复 system prompt），对比 token/s 和 P99 延迟。

前置有 1 张 H100 / A100 可用 · 会装 Python 包 + Docker

01选 1 个开源模型（如 Qwen3.6-27B）
02用 vllm serve 部署，跑 benchmark
03用 sglang serve 部署，跑同样 benchmark
04出 2 框架对比表（吞吐 / TTFT / ITL / 显存）
05判断哪种框架在 prefix-reuse 场景下更优

粘贴到 Claude Code（或任何 LLM 终端）

跑 multi-turn chatbot benchmark：\n- 50 个并发用户\n- 每用户 10 轮对话\n- 每轮 system prompt 1000 token + 用户消息 200 token\n- 测 token/s、TTFT P99、ITL P99

✓ 完成判据2 框架在同一硬件上吞吐差距量化（一般 SGLang 在 prefix-reuse 上快 2-4x）。

坑不同模型 / 不同 batch / 不同 prefix 复用率会反转胜负——单跑一次不能下结论；至少跑 3 种 prefix 复用率（0% / 50% / 90%）。

参考B8 § 推理框架

算 token 成本

为什么要学不算成本 = 看到月底账单吓哭; 算清楚 = 知道什么时候该上自托管。

打个比方算 token 成本像算水电费, 不用每笔都记, 但月底对账不能省。

VibeCoder 场景你 1 月花 200 美金调 API, 算下自托管 1 张 H100 半年回本, 拍板买卡。

算 3 个场景的真实月成本：(a) 个人 vibe coding，每天 100 次 prompt，每次平均 5K input + 1K output (b) 小公司客服 1K 客户/天 (c) Agent 每小时跑 1 次 50K 文档检索。

前置知道 1-2 个模型的 API 单价

013 个场景，估月调用量
02算每月总 input token 和 output token
03套 2 家单价（闭源 + 便宜开源）
04对比闭源 / 开源方案的月成本差距
05判断'用 API vs 自托管'的临界点

粘贴到 Claude Code（或任何 LLM 终端）

请按以下 3 场景算月成本：\nA) 个人 vibe coding：100 次/天 × 5K input + 1K output\nB) 客服 1K 客户/天 × 平均 2K input + 500 output\nC) Agent 1 次/小时 × 50K input + 2K output\n\n用 Claude Opus 4.7 ($3/$15) 和 DeepSeek V4 Flash ($0.14/$0.28) 各算一遍。

✓ 完成判据3 场景都有具体月成本数字；至少识别出 1 个'用 API 比自托管便宜'的临界点。

坑忽略 cache 后的实际成本（启用 prompt caching 后 input 成本可降 50-80%）；忽略 output token 一般比 input 贵 3-5x。

参考B8 § 推理成本

← 返回 AI 划重点回到首页 →