§ B9·AI 实践2 prompts

多模态与 AI 生态地图

2026 年的模型生态，知道主流玩家、知道 License 差异、能按场景选模型。

← AI 划重点·← Prev · 算力、推理优化与本地部署

先读这部分

§ B9

多模态与 AI 生态地图

2026 年的模型生态，知道主流玩家、知道 License 差异、能按场景选模型。

模态（Modality）

图像理解。GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Qwen3-VL、Llama 4 全支持。
图像生成。FLUX.2、DALL·E 3、Imagen 3、Midjourney、Stable Diffusion（开源）、GPT-Image-1、Qwen-Image。
视频理解 / 生成。Sora 2、Veo 3、Kling 2.5、Runway Gen-4、Wan 2.1（开源）。
音频（ASR/TTS）。Whisper、ElevenLabs、Cartesia、Seed-ASR、MeloTTS。
音乐。Suno 4.5、Udio 1.5。
3D / 世界模型。Genie 3、Marble、Wan 2.1 3D、Tripo 3.0。

闭源 vs 开源（2026 主流）

闭源第一梯队。Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro。
开源第一梯队。DeepSeek V4 Pro (MIT)、Kimi K2.6 (Modified MIT)、GLM-5.1 (MIT)、Qwen3.6-27B (Apache 2.0)、Llama 4 Scout (Meta license, 700M MAU 限制)、Mistral Small 4 (Apache 2.0)、Gemma 4 (Apache 2.0)。
代码专项。DeepSeek V4 Pro（GDPval-AA 第一）、Kimi K2.6（HumanEval 99%）、Qwen3-Coder-Next（80B/3B active 跑消费卡）、GLM-5.1（SWE-bench Pro 第一）。
极小 / 端侧。Gemma 4 E2B/E4B（手机/笔记本）、Qwen3 系列小尺寸、Llama 3.2 1B/3B。

License + 选模型决策树

MIT。随便用、商用、改、再发布，只保留版权声明。最自由。
Apache 2.0。随便用、商用、改，需要保留版权声明 + 专利授权。几乎一样自由。
Meta Llama License。700M MAU 以下随便用，超过要单独谈。
DeepSeek V4 / V3 自定义 License。商用可用，有一些 use-case 限制。
「开源」的争议：OSI 严格定义认为 只有 MIT / Apache 2.0 / BSD 等才算「真开源」，Meta / DeepSeek License 都是 open-weight 而不是 open-source。

选模型决策树（VibeCoder 视角）

写代码优先：DeepSeek V4 Pro > Kimi K2.6 > Qwen3.6-27B（单卡）> Claude Opus 4.7 > GPT-5.4。长文档/代码库分析：Llama 4 Scout（10M）> DeepSeek V4（1M）> Qwen3.6 Plus（1M）。极致便宜：DeepSeek V4 Flash ($0.14/$0.28 每 1M token)、Qwen3.6 Plus 限时免费。手机/端侧/离线：Gemma 4 E2B/E4B。

3 场景选模型

为什么要学2026 年 50+ 模型, 选错 = 多花钱办小事, 选对 = 少花钱办大事。

打个比方像超市选食用油, 炒菜用花生油, 凉拌用橄榄油, 选错味道就怪。

VibeCoder 场景你做客服 bot 直上 GPT-5.4, 朋友说 DeepSeek V4 Flash 1/20 价格够用, 1 年省 10 万。

给 3 个真实场景：(a) 写代码 (b) 长文档分析 (c) 极致便宜。让你先选模型，再让 AI 给你 3 个备选 + 取舍，对照后形成自己的'选模型 checklist'。

前置读过 B9 § 选模型决策树

013 场景自选 1 个首选
02让 AI 给 3 个备选 + 取舍
03对比你的首选 vs AI 备选
04形成自己的'选模型 checklist'（License / 上下文 / 成本 / 任务）
05下次选模型时按 checklist 走

粘贴到 Claude Code（或任何 LLM 终端）

我有 3 个场景，请给每场景 3 个候选模型 + 取舍：\nA) 写代码优先（不在乎成本）\nB) 长文档分析（10M context）\nC) 极致便宜（10 万次/天）\n\n每个候选请说明：1) License 2) 上下文大小 3) 1 个明确优势 4) 1 个明确劣势。

✓ 完成判据3 场景都有 1 个首选 + 1 个备选，理由站得住脚；形成可复用的选模型 checklist。

坑不要盲信 vendor benchmark；看自己任务的真实样本（拿 10 个真实 case 跑一遍）。

参考B9 § 选模型决策树

LMArena 多模态盲测

为什么要学公开 benchmark 和你真实偏好经常不一致, 自己盲测才知道哪个真合适。

打个比方像试吃, 看菜单描述再好吃, 不如自己咬一口。

VibeCoder 场景你让 5 个模型看同一张产品图写文案, 盲选 reveal 后发现, 国产模型更对胃口。

去 LMArena 多模态 arena 盲测 5 轮同一类多模态问题（看图问答 / OCR / chart 读数），看你倾向选哪个模型，再对答案看你的偏好是否和 benchmark 一致。

前置能访问 lmarena.ai

01注册 lmarena.ai 账号
02进多模态 arena
03跑 5 轮，每轮盲选
04reveal 后看 5 轮你偏好哪个模型
05对照 Artificial Analysis / 公开 benchmark，看是否一致

粘贴到 Claude Code（或任何 LLM 终端）LMArena 多模态榜

请按以下流程盲测 5 轮：\n1) 选 1 类多模态题（OCR / 看图 / chart）\n2) 每轮 LMArena 给你 2 个匿名模型回答，你选更好的\n3) 5 轮后看 reveal：你自己偏好和 benchmark 一致吗？

✓ 完成判据形成自己'哪类任务哪个模型'的偏好；与 benchmark 对照，能讲出差异。

坑LMArena 是'人类偏好'，不是任务质量；某些任务（数学 / 代码）benchmark 更准；偏好和 benchmark 不一致时想想为什么。

参考B9 § LMArena

← 返回 AI 划重点回到首页 →