Cache 位置成本对照
同一组 10 个问题,分别用 3 种 layout 跑:(a) system 每次都改 → (b) system 不变 + cache breakpoint 在变化处前 → (c) 长文档放最前 vs 放最后。对比 input token、cache hit 率、cost、TTFT。
- 01准备 50K 文档作为 system 内容
- 02layout A:system 每次轮换不同内容 → 0% 命中
- 03layout B:system 固定,cache breakpoint 正确 → 高命中
- 04layout C:长文档放最前 / 放最后 2 种
- 05跑 10 轮,记 cost + cache hit + TTFT
System prompt:\n[放这里,确保 50K 文档内容]\n\nUser 1:[Q1]\nUser 2:[Q2]\n...\nUser 10:[Q10]\n\n请用 cache_control 标记 system prompt 的末尾为 breakpoint,确保多轮中 system 块可被 cache。