长上下文幻觉实验
为什么要学不信'长上下文'营销词, 你才知道 AI 什么时候在骗你——花大钱传文档, 它说没看到。
打个比方上下文窗口 ≈ 考试开卷但课本太厚——翻不到那页就是没看到, 不是它不用功。
VibeCoder 场景你让 AI 读完 80 页产品手册, 它说'产品 X 没有'——它真没看到, 不是文档没传。
找一个 200K+ 上下文模型,喂一份 80K 字的产品手册原文。在文档大约 60% 位置偷偷插一句'修改通知:产品 X 改名为 Y',然后问 AI「产品 X 现在叫什么名字、主要功能是什么」。观察模型答的是旧名 X(被旧记忆盖住)、新名 Y(看到了)、还是'我没看到这条信息'(最稳)。
前置有可调用 API(Claude / GPT / Gemini 任一)
- 01准备一份 80K 字的产品手册(虚构或你公司内部均可)
- 02在第 60% 位置插一句明显的改名通知,前后留上下文让它合理
- 03把整篇塞进 prompt,先让 AI 总结文档主旨,再问产品 X 的名字
- 04对比:如果答 X → 失败;如果答 Y 但不引用 → 弱通过;如果答 Y 且引用了正确段 → 通过
粘贴到 Claude Code(或任何 LLM 终端)闭源长上下文模型(Claude Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro)
请严格按以下结构回答。\n\n[DOC]\n(这里贴 80K 文档原文,包含 60% 位置的改名通知)\n[END]\n\n问题:1) 产品 X 现在叫什么名字?2) 它的主要功能有哪些?请引用文档原文回答。✓ 完成判据模型在 3 次提问中至少有 1 次答出新名 Y,且 0 次直接答错为 X。
坑必须确认文档真的塞进了 context(看平台返回的 input tokens),不是被自动截断(truncation)丢了;截断后改不了什么,是平台问题。
参考B1 § 上下文窗口