§ B9·AI 实践2 prompts

多模态与 AI 生态地图

2026 年的模型生态,知道主流玩家、知道 License 差异、能按场景选模型。

先读这部分
§ B9

多模态与 AI 生态地图

2026 年的模型生态,知道主流玩家、知道 License 差异、能按场景选模型。

模态(Modality)
  • 图像理解。GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Qwen3-VL、Llama 4 全支持。
  • 图像生成。FLUX.2、DALL·E 3、Imagen 3、Midjourney、Stable Diffusion(开源)、GPT-Image-1、Qwen-Image。
  • 视频理解 / 生成。Sora 2、Veo 3、Kling 2.5、Runway Gen-4、Wan 2.1(开源)。
  • 音频(ASR/TTS)。Whisper、ElevenLabs、Cartesia、Seed-ASR、MeloTTS。
  • 音乐。Suno 4.5、Udio 1.5。
  • 3D / 世界模型。Genie 3、Marble、Wan 2.1 3D、Tripo 3.0。
闭源 vs 开源(2026 主流)
  • 闭源第一梯队。Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro。
  • 开源第一梯队。DeepSeek V4 Pro (MIT)、Kimi K2.6 (Modified MIT)、GLM-5.1 (MIT)、Qwen3.6-27B (Apache 2.0)、Llama 4 Scout (Meta license, 700M MAU 限制)、Mistral Small 4 (Apache 2.0)、Gemma 4 (Apache 2.0)。
  • 代码专项。DeepSeek V4 Pro(GDPval-AA 第一)、Kimi K2.6(HumanEval 99%)、Qwen3-Coder-Next(80B/3B active 跑消费卡)、GLM-5.1(SWE-bench Pro 第一)。
  • 极小 / 端侧。Gemma 4 E2B/E4B(手机/笔记本)、Qwen3 系列小尺寸、Llama 3.2 1B/3B。
License + 选模型决策树
  • MIT。随便用、商用、改、再发布,只保留版权声明。最自由。
  • Apache 2.0。随便用、商用、改,需要保留版权声明 + 专利授权。几乎一样自由。
  • Meta Llama License。700M MAU 以下随便用,超过要单独谈
  • DeepSeek V4 / V3 自定义 License。商用可用,有一些 use-case 限制
  • 「开源」的争议:OSI 严格定义认为 只有 MIT / Apache 2.0 / BSD 等才算「真开源」,Meta / DeepSeek License 都是 open-weight 而不是 open-source
选模型决策树(VibeCoder 视角)
写代码优先:DeepSeek V4 Pro > Kimi K2.6 > Qwen3.6-27B(单卡)> Claude Opus 4.7 > GPT-5.4。长文档/代码库分析:Llama 4 Scout(10M)> DeepSeek V4(1M)> Qwen3.6 Plus(1M)。极致便宜:DeepSeek V4 Flash ($0.14/$0.28 每 1M token)、Qwen3.6 Plus 限时免费。手机/端侧/离线:Gemma 4 E2B/E4B。
动手做 · 提示词卡

把这段知识变成一段可执行的练习

以下 2 张卡,每张都是一段可复制的提示词。打开 Claude Code(或任何 LLM 终端),把卡里的提示词粘进去,AI 会陪你完成这一步。遇到不会的概念,把 AI 的回答贴回 卡里继续问下一步。可以一次做完,也可以分几次。

1 操作1 决策
Prompt 01决策★★

3 场景选模型

为什么要学2026 年 50+ 模型, 选错 = 多花钱办小事, 选对 = 少花钱办大事。
打个比方像超市选食用油, 炒菜用花生油, 凉拌用橄榄油, 选错味道就怪。
VibeCoder 场景你做客服 bot 直上 GPT-5.4, 朋友说 DeepSeek V4 Flash 1/20 价格够用, 1 年省 10 万。

给 3 个真实场景:(a) 写代码 (b) 长文档分析 (c) 极致便宜。让你先选模型,再让 AI 给你 3 个备选 + 取舍,对照后形成自己的'选模型 checklist'。

前置读过 B9 § 选模型决策树
  1. 013 场景自选 1 个首选
  2. 02让 AI 给 3 个备选 + 取舍
  3. 03对比你的首选 vs AI 备选
  4. 04形成自己的'选模型 checklist'(License / 上下文 / 成本 / 任务)
  5. 05下次选模型时按 checklist 走
粘贴到 Claude Code(或任何 LLM 终端)
我有 3 个场景,请给每场景 3 个候选模型 + 取舍:\nA) 写代码优先(不在乎成本)\nB) 长文档分析(10M context)\nC) 极致便宜(10 万次/天)\n\n每个候选请说明:1) License 2) 上下文大小 3) 1 个明确优势 4) 1 个明确劣势。
✓ 完成判据3 场景都有 1 个首选 + 1 个备选,理由站得住脚;形成可复用的选模型 checklist。
不要盲信 vendor benchmark;看自己任务的真实样本(拿 10 个真实 case 跑一遍)。
参考B9 § 选模型决策树
Prompt 02操作★★

LMArena 多模态盲测

为什么要学公开 benchmark 和你真实偏好经常不一致, 自己盲测才知道哪个真合适。
打个比方像试吃, 看菜单描述再好吃, 不如自己咬一口。
VibeCoder 场景你让 5 个模型看同一张产品图写文案, 盲选 reveal 后发现, 国产模型更对胃口。

去 LMArena 多模态 arena 盲测 5 轮同一类多模态问题(看图问答 / OCR / chart 读数),看你倾向选哪个模型,再对答案看你的偏好是否和 benchmark 一致。

前置能访问 lmarena.ai
  1. 01注册 lmarena.ai 账号
  2. 02进多模态 arena
  3. 03跑 5 轮,每轮盲选
  4. 04reveal 后看 5 轮你偏好哪个模型
  5. 05对照 Artificial Analysis / 公开 benchmark,看是否一致
粘贴到 Claude Code(或任何 LLM 终端)LMArena 多模态榜
请按以下流程盲测 5 轮:\n1) 选 1 类多模态题(OCR / 看图 / chart)\n2) 每轮 LMArena 给你 2 个匿名模型回答,你选更好的\n3) 5 轮后看 reveal:你自己偏好和 benchmark 一致吗?
✓ 完成判据形成自己'哪类任务哪个模型'的偏好;与 benchmark 对照,能讲出差异。
LMArena 是'人类偏好',不是任务质量;某些任务(数学 / 代码)benchmark 更准;偏好和 benchmark 不一致时想想为什么。
参考B9 § LMArena