Chapter IIAI 划重点9 topics

AI 划重点

9 个主题,从 Prompt 到 Agent。把 LLM 当协作者——会写提示词、会接上下文、会评估输出、会排错。

§ B1

大模型是什么:一张认知地图

B1 是整个补丁的认知地图。读完这一节,你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

LLM(Large Language Model)是一个把「前文 token」映射到「下一个 token 概率分布」的函数。模型「一个字一个字往下写」,本质就是自回归采样

  • token。模型看到的最小单位。一个汉字常是 1-2 token,一个英文单词常是 1-3 token。
  • 上下文窗口。模型一次能「看到」的最大 token 数。2026 年主流水平:闭源 200K-2M、开源 128K-1M、Llama 4 Scout 10M。上下文窗口 ≠ 永久记忆,每次新对话模型对你一无所知。
训练 vs 推理(新人最容易混的)
  • 训练。用海量文本+算力让模型学会「下一个 token 怎么猜」。一次训练几周到几个月,烧几百万到几亿美元。
  • 推理。模型已经训练好,用户问一个问题,模型吐一个回答。每次几秒到几分钟,1 美分到几美元。
  • AI 99% 的时间在花钱推理,跟训练无关。
模型 vs 应用 vs MoE
  • 模型。纯文本 → 文本的盒子,本身不会上网搜、调数据库、记住上次对话。
  • 应用(ChatGPT、Claude、Cursor、Codex、Coding Agent), 在模型外面包了一层,让它能搜、调、发邮件、改文件。这个区分能解释 90% 的「AI 怎么做到的」问题。
  • MoE(Mixture of Experts)。2026 年主流大模型几乎都是 MoE。总参数量大(如 1.6T),但每次只激活其中一小部分(如 49B)。类比:一所 1.6 万人的大学,每次只派 49 个老师来回答你的问题。部署成本按 active params 算
  • Reasoning Model。OpenAI o 系列、DeepSeek-R1、GLM-5 Reasoning 是「先想再说」的模型。慢一点、贵一点,但数学/编程/复杂推理明显强。
进阶:你想做 LLM 工程师再看
  • Transformer 架构细节:Q/K/V、注意力公式、layer norm、RoPE。
  • 训练 pipeline:预训练 → SFT → RLHF/DPO → RLVR。
  • 推理引擎(vLLM、SGLang)的调度与 KV cache 管理。
建议
跟体系结构、操作系统类似,写个本地小模型推理,跟着 AI 一起 debug,看 Q/K/V tensor 实际长什么样、KV cache 怎么分配。比纯看论文有用。
§ B2

Prompt Engineering:与 AI 说话的硬功夫

提示词 = *给模型的「任务说明书」*,不是咒语。三种角色:System / User / Assistant。

必须会的几条原则
  • 说清楚任务。要做什么、做到什么标准、输出格式是什么。
  • 给上下文。背景、约束、用户已经知道的、用户不知道的。
  • 给例子(few-shot), 1-3 个输入→输出样例比描述规则更有效。
  • 指定输出格式。要 JSON 就明说,要 markdown 表格就明说。
几个有用技巧
  • Chain of Thought(CoT,思维链)。让模型「一步步想」。最简单的写法:句末加一句「让我们一步步思考」。Reasoning Model(o 系列 / R1 / GLM-5 Reasoning)就是内置 CoT,你不用提示它也会想。
  • 结构化输出。JSON Schema / grammar / function calling,让模型输出可被程序解析。用途:调用工具、写入数据库、自动化工作流。
  • Self-Critique。让模型先生成答案,再让它检查自己的答案。常用于质量要求高的场景。
  • Decomposition(任务分解)。复杂任务拆成 3-5 步,每步单独 prompt。一次给 10 件事不如分 10 次问。
进阶:你要做 AI 产品再看

Anthropic 的《Effective context engineering for AI agents》、OpenAI 的《Prompt engineering guide》两份官方文档值得通读。Prompt caching 的成本收益分析见 B3。

§ B3

上下文工程:填满窗口的工程学

2026 年 AI 工程师最被低估、回报率最高的一项技能。Andrej Karpathy 在 2026 年 2 月把它单列为「Agentic Engineering」的核心:*上下文工程 > 提示工程*。

上下文工程(Context Engineering)= 决定每次推理时,哪些信息进、怎么进、什么顺序进、用什么缓存策略。提示词是「一句话怎么说」,上下文工程是「给模型准备一整桌菜」,选什么、怎么摆、哪些可以复用、哪些必须新鲜。

几个关键概念
  • Prompt Caching。把稳定的 system prompt / 工具定义 / 长文档缓存起来,下次只算变化的部分。效果:API 成本下降 41-80%、TTFT 下降 13-31%(Anthropic / OpenAI / Google 三家实测)。
  • RAG(Retrieval-Augmented Generation)。模型回答前先从知识库里搜相关文档,塞进上下文。解决「模型知识过时」和「模型不知道你的私域数据」两大问题。
  • Function Calling / Tool Use。让模型决定什么时候调用外部工具(搜索、查数据库、读文件、跑代码)。模型不再只是「说话」,而是「做事」。
  • MCP(Model Context Protocol)。2025-2026 出现的开放标准,让模型和工具之间的接口统一。类比 USB-C:以前每个工具一套 API,现在都按 MCP 协议接。Claude Code、Cursor、Codex 都支持,一个 MCP server 在三家里都能用。
  • Memory。把对话历史之外的信息(用户偏好、项目背景、过往决策)存到上下文之外、用时再拉。三档:session / project / user。
  • Compaction。当对话快到窗口上限时,把历史摘要后重启上下文。Anthropic Claude Code 用五层 compaction pipeline 处理这件事。
12-point checklist(SurePrompts 2026)
  1. 给每条请求设 token 预算(input + output + reserve)
  2. 稳定内容放最前面
  3. 用 provider 的 cache breakpoint
  4. 检索选择性而非穷尽(k=3-8 即可)
  5. 上下文分层(system / session / retrieval / user)
  6. 控制历史长度(compaction、摘要)
  7. 写清楚 groundedness:「如果材料里没有,就说不确定」
  8. 显式引用:让模型回答时引用它看过的哪条材料
  9. 处理长上下文的「rot」和「needle」,做 needle-in-a-haystack 评测
  10. 监控:每个 call 的 prompt hash、cache hit 率、token 数、延迟
  11. 跨 call 的状态设计(memory、session、project)
  12. 任何改动配 eval,没 eval 的「最佳实践」只是假设

读 Anthropic 2025/09 那篇《Effective context engineering for AI agents》,它把以上全讲了。

§ B4

Agent 与 Coding Agent

Agent = 一个能「感知 → 决策 → 行动 → 观察 → 再决策」的循环系统。*不是*一个会聊天的模型,而是*会调用工具完成任务*的系统。

核心循环与主流范式

每个 Agent 的核心循环都一样:拼上下文 → 调模型 → 模型说要调工具 → 执行工具 → 结果回填 → 再调模型 → 重复。

  • ReAct(Reason + Act), 模型生成「思考 + 工具调用 + 观察」循环往复。绝大多数 Coding Agent 的底座。
  • Plan-Execute。先让模型出完整计划,用户确认后再分步执行。Cline、Claude Code 的 Plan Mode 是这种。
  • Multi-Agent。主 Agent 把子任务派给子 Agent,每个子 Agent 有独立上下文,最后汇总。Claude Code 的 Task tool 是这种。
  • Reflection。Agent 跑完自己审一遍,发现问题再修。
主流 Coding Agent 工具(2026)
  • Claude Code(Anthropic), 终端原生、AGENTS.md/CLAUDE.md 配置、MCP 全套支持、Subagents + Routines。
  • Codex CLI(OpenAI), 终端原生、kernel 级 sandbox(Seatbelt / Landlock / seccomp)、Apache 2.0 开源。
  • Cursor(Anytsphere), VS Code 改的桌面应用、Background Agents、Composer 多模型编排。
  • Cline / Aider / Continue。开源 VS Code / 终端 / IDE 扩展的代表。

选哪个:solo 偏终端 → Claude Code;偏 IDE → Cursor;安全/审计导向 → Codex CLI。

工具调用的工程
  • 工具描述(tool schema)= 模型的「用户手册」,写得越清楚模型用得越准。
  • 工具结果(tool result)要 token-efficient。, 只返回模型做下一步决定需要的信息,别把 1MB 的日志塞回去。
  • 错误处理:工具调用失败时让模型能看到错误并重试,不要把错误吞掉。
想做 Agent 系统工程师再看
Claude Code 内部架构(queryLoop、5 层 compaction、27 种 hook event、permission system 7 种模式)值得读一遍源码。关键论文:ReAct、Reflexion、AutoGPT、BabyAGI、Anthropic 的《Building effective agents》。
§ B5

Embedding 与 RAG 原理

Embedding = 把一段文本映射成一个高维向量(768-4096 维浮点数)。语义相近的文本,向量也相近(用*余弦相似度*衡量)。

RAG 的工作流
  1. 把你的文档切块(chunking),每块用 embedding 模型转成向量,存到向量数据库(Chroma / Weaviate / Qdrant / pgvector)。
  2. 用户提问 → 同样的 embedding 模型转成向量。
  3. 在向量库里找最像的 k 个块(k=3-8)。
  4. 把这些块塞进 prompt,让模型基于这些块回答。
为什么 RAG 重要 + 几个常见坑
  • 模型权重是几月前的,RAG 可以用你今天的知识。
  • 模型的上下文是有限的,RAG 把 100 万文档里相关的 5 篇找出来。
  • 模型的回答可以被引用,RAG 让答案可追溯到原文。
  • Chunk 切太大:上下文塞不下、检索粒度太粗。切太小:语义被切碎、检索不准。一般 200-500 token。
  • 只做向量检索:纯相似度匹配对精确匹配(人名、ID、版本号)很差。要 hybrid:BM25(关键词)+ 向量。
  • 不评估:上线后用户感觉「答得不准」,往往是因为从来没量过 retrieval recall / groundedness。
进阶:你要设计 RAG 系统再看
  • 评估指标:retrieval recall@K、groundedness、answer faithfulness、context precision/recall。
  • 高级技巧:query rewriting、HyDE、re-ranking(bge-reranker、cohere rerank)、self-RAG。
  • 读 Anthropic 2025 出的《Contextual Retrieval》,把 chunk 的上下文预先 LLM 一次再 embed,能显著提升 recall。
§ B6

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调,是 AI 时代的常识。

训练的几个阶段
  1. 预训练(Pre-training)。用几万亿 token 的网络文本训一个 base model。成本千万到亿美金级。
  2. SFT(Supervised Fine-Tuning)。用人写的「好问答对」微调 base model,让它从「续写」变成「对话」。成本低很多。
  3. RLHF(Reinforcement Learning from Human Feedback)。用人类对模型回答的排序训练一个 reward model,再用 RL 让模型对齐人类偏好。
  4. DPO / KTO / ORPO。RLHF 的替代品,不需要训 reward model,效果接近。
  5. RLVR(RL from Verifiable Reward)。用可验证的奖励(如代码能否跑通、数学是否做对)做 RL。DeepSeek-R1、OpenAI o 系列都用这个。
  6. Distillation(蒸馏)。用一个大的 teacher model 教一个小的 student model,让小模型也变聪明。
微调:什么时候该用 / 不该用
  • 该用。你的领域术语、输出格式、风格,prompt 写不出来;你需要降低延迟/成本(用小一点的模型微调)。
  • 不该用。你只是想让模型「知道」一些事实。用 RAG。微调教不会新事实。
  • LoRA / QLoRA。低显存微调技术,一张消费级 GPU 就能微调几十 B 的模型。

知道「微调 ≠ 教模型新知识,微调 = 让模型用你的方式做事」。

进阶:你要 fine-tune 自己的模型再看

一个最小可跑的微调 pipeline:选 base model(HuggingFace)→ 准备数据(ShareGPT 格式)→ 用 LLaMA-Factory / Unsloth / Axolotl → 训练 → 评估 → 部署。

评估:lm-eval-harness、OpenCompass、HELM。课程:HuggingFace 的 Smol Course、Karpathy 的 Let's reproduce GPT-2。

§ B7

评估、能力边界与失败模式

知道模型会怎么翻车,比知道它有多强重要。这是 *AI 边界*真正的清单。

怎么读 benchmark(2026 主流)
  • 通用知识。MMLU、MMLU-Pro、GPQA Diamond、SimpleQA。
  • 数学。AIME 2025/2026、HMMT、Math500。
  • 代码。HumanEval(已饱和)、LiveCodeBench、SWE-bench Verified、SWE-bench Pro、Terminal-Bench。
  • Agent。GDPval-AA、DeepResearch Bench、τ-bench。
  • 多模态。MMMU、MMMU-Pro、MathVista。

看 benchmark 永远先看任务描述,不要只看分数。HumanEval 90+ 已经不能区分前沿模型。

失败模式(2026 大致共识)
  • Hallucination(幻觉)。模型自信地说不存在的事实。缓解:RAG、要求引用、限定「如果不知道就说不」。
  • Jailbreak / Prompt Injection。用户/输入文档里藏指令让模型违背 system prompt。缓解:把用户输入当数据不是指令
  • Reasoning Failure。简单任务过度推理、复杂任务推理不足。
  • Tool Use Failure。长上下文里忘了之前调过什么工具、重复调、调错参数。
  • Verbosity / Sycophancy。废话太多、附和用户。
能力边界
  • 很强。写中等规模代码、读懂代码、文档/邮件写作、翻译、总结、模式识别、数学(AIME 95+)、单步工具调用。
  • 可用但不完美。跨文件大型 refactor、调试分布式系统、长文档的精确 recall、多步 Agent(>50 步时常常跑偏)、生成可执行 UI 截图。
  • 做不到。实时信息(除非接 RAG/搜索)、精确计数(「图里有几个苹果」)、自我验证、长程规划(>数小时独立任务常常卡住)、私有事实(除非 RAG/微调)。
§ B8

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」,这就是这一节的目的。

推理成本由什么决定
  • 显存(VRAM)。模型权重 + KV cache + activation。决定能不能装下
  • 显存带宽。决定生成 token 的速度(ITL, inter-token latency)。
  • 计算(FLOPs)。决定首 token 延迟(TTFT, time to first token)。

GPU 主流:NVIDIA H100 / H200 / B200(数据中心)、A100(老款但仍主流)、RTX 4090 / 5090(消费级旗舰)。

量化 + KV cache
  • FP8。H100 原生支持,速度几乎不掉,显存省 50%。
  • INT4 / GPTQ / AWQ。显存省 75%,精度损失一般 <2%。
  • INT2 / 三元 / 二元。实验性,极省显存但精度损失大。
  • KV cache 优化。FP8 KV cache(vLLM)、TurboQuant 4-bit KV cache(SGLang, 3.88x 压缩)、PagedAttention(vLLM)、RadixAttention(SGLang)。
推理框架 + 何时本地部署
  • vLLM。默认起点,PagedAttention、HuggingFace 兼容最广、硬件支持最全。
  • SGLang。RadixAttention 对 prefix-reuse 场景极强(multi-turn chatbot、RAG)、结构化输出快。2026 年由 RadixArk 团队独立,融了 4 亿美元。
  • TensorRT-LLM。NVIDIA 自家、极致 throughput、编译复杂。
  • TGI / llama.cpp / Ollama / LMStudio。轻量、本地、跑小模型。
  • 本地部署的场景。数据隐私 / 法规要求;用量很大、单次成本高;想要最新开源模型。否则用 API:$0.14-$2 / 百万 token,1 个工程师 1 小时就能上线。
§ B9

多模态与 AI 生态地图

2026 年的模型生态,知道主流玩家、知道 License 差异、能按场景选模型。

模态(Modality)
  • 图像理解。GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Qwen3-VL、Llama 4 全支持。
  • 图像生成。FLUX.2、DALL·E 3、Imagen 3、Midjourney、Stable Diffusion(开源)、GPT-Image-1、Qwen-Image。
  • 视频理解 / 生成。Sora 2、Veo 3、Kling 2.5、Runway Gen-4、Wan 2.1(开源)。
  • 音频(ASR/TTS)。Whisper、ElevenLabs、Cartesia、Seed-ASR、MeloTTS。
  • 音乐。Suno 4.5、Udio 1.5。
  • 3D / 世界模型。Genie 3、Marble、Wan 2.1 3D、Tripo 3.0。
闭源 vs 开源(2026 主流)
  • 闭源第一梯队。Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro。
  • 开源第一梯队。DeepSeek V4 Pro (MIT)、Kimi K2.6 (Modified MIT)、GLM-5.1 (MIT)、Qwen3.6-27B (Apache 2.0)、Llama 4 Scout (Meta license, 700M MAU 限制)、Mistral Small 4 (Apache 2.0)、Gemma 4 (Apache 2.0)。
  • 代码专项。DeepSeek V4 Pro(GDPval-AA 第一)、Kimi K2.6(HumanEval 99%)、Qwen3-Coder-Next(80B/3B active 跑消费卡)、GLM-5.1(SWE-bench Pro 第一)。
  • 极小 / 端侧。Gemma 4 E2B/E4B(手机/笔记本)、Qwen3 系列小尺寸、Llama 3.2 1B/3B。
License + 选模型决策树
  • MIT。随便用、商用、改、再发布,只保留版权声明。最自由。
  • Apache 2.0。随便用、商用、改,需要保留版权声明 + 专利授权。几乎一样自由。
  • Meta Llama License。700M MAU 以下随便用,超过要单独谈
  • DeepSeek V4 / V3 自定义 License。商用可用,有一些 use-case 限制
  • 「开源」的争议:OSI 严格定义认为 只有 MIT / Apache 2.0 / BSD 等才算「真开源」,Meta / DeepSeek License 都是 open-weight 而不是 open-source
选模型决策树(VibeCoder 视角)
写代码优先:DeepSeek V4 Pro > Kimi K2.6 > Qwen3.6-27B(单卡)> Claude Opus 4.7 > GPT-5.4。长文档/代码库分析:Llama 4 Scout(10M)> DeepSeek V4(1M)> Qwen3.6 Plus(1M)。极致便宜:DeepSeek V4 Flash ($0.14/$0.28 每 1M token)、Qwen3.6 Plus 限时免费。手机/端侧/离线:Gemma 4 E2B/E4B。