首页 / CC成长营 / Claude Code 实战 · 第 3 讲

模型选型：没有最好，只有最合适

市面上几十个大模型，新手总想找"最强的那个"。但造产品的人都知道：选型是一道权衡题，不是排名题。这一讲给你一套能落地的选型框架。

回到我们的练习项目：这个翻译应用里，其实有两类活——给用户看的正式译文（质量第一），和内部用来判断语言、做初筛的辅助判断（量大、要快要便宜）。如果两类都用最贵最强的模型，成本爆炸还慢；都用最便宜的，质量又不够。对的做法是：不同环节，配不同模型。

选型的四个核心维度

维度	看什么	什么时候重要
能力（聪明程度）	能不能把这个任务做对、做好	复杂推理、高质量产出、容错低的场景
速度（延迟）	多久返回结果	用户实时等待、要跑海量条目
成本（单价）	每百万 token 多少钱	调用量大、要长期跑
上下文（容量）	一次能读进多长的内容	长文档、长对话、喂大量资料

一个好用的心智模型：大、均衡、快省三档

同一家厂商，通常会有三个档位。记住这个分层，比记具体型号更耐用（型号会更新，分层逻辑不变）：

旗舰档（如 Opus 级）：最聪明，处理难任务最稳，但更贵更慢。用在质量关键、复杂推理的环节。
均衡档（如 Sonnet 级）：能力、速度、价格平衡，日常主力，大多数任务的默认选择。
快省档（如 Haiku 级）：又快又便宜，能力够用于简单活。用在大批量、简单判断、初筛。

选型黄金法则：从便宜的试起，不够再往上换 新手爱默认用最强的——浪费钱。专业做法反过来：先用快省/均衡档试，能达到质量要求就用它；达不到，再升一档。用"刚好够用"的模型，是控成本的核心功夫。怎么判断"够不够用"？靠第 6–8 讲的评测，而不是凭感觉。

组合使用：一个产品里用多个模型

成熟产品很少"一个模型用到底"。翻译应用的典型分工：

环节	配哪档	为什么
判断输入是什么语言	快省档	简单、量大、要便宜
正式翻译（给用户）	均衡或旗舰档	质量直接影响体验
译文质量自检/润色	均衡档	平衡效果与成本
疑难长文/专业领域	旗舰档	难，值得花钱保质量

这种"分环节配模型"的思路，就引出了下一个大概念——pipeline（第 5 讲）。

还要考虑的几点

闭源 vs 开源：闭源（调 API）省心、能力强、按量付费；开源（自己部署）数据自主、长期量大可能更省，但要运维。多数人从闭源 API 起步。
数据合规：涉及敏感/隐私数据，要看模型服务的数据政策、是否符合你所在地区法规。
别被单一评分榜带跑：榜单分数高 ≠ 在你这个具体任务上好。以你自己的评测结果为准（第 6–8 讲）。

真实案例：专业团队到底怎么做选型

讲了框架，来看真刀真枪的。下面三个是来自真实生产环境的选型决策（我们自己运营的一款语音输入 App）。你不用了解这个产品——看决策逻辑就行，这正是别处学不到的实战经验。

案例一（完整复盘）：一次实时翻译／润色的模型评测，从头到尾怎么做

这是最值得细看的一个——它把"选型"从拍脑袋变成了一套可复现的工程流程。下面按问题 → 候选 → 数据集 → 评测机制 → 得分 → 结论六步还原。

① 问题与场景

一个实时语音 App，有两个核心功能：translate（把语音转成的文字翻成目标语言）和 polish（把口述稿润色成书面文字）。原本两者都用 Gemini Flash-Lite。某天为了修"印尼语翻译的几个具体错误"，临时把两个功能的主力模型都换成了 GPT-4.1 Nano。换完上线后，体感"润色不如以前了"——但"变差"到底是真的，还是错觉？谁也说不清。不能靠感觉拍板，得拉一场正式评测来裁决。（注意：实时产品，用户在等结果，所以速度也是评判项，不只是质量。）

② 测哪几个模型，为什么是这几个

候选模型	为什么进候选
Gemini Flash-Lite	原主力，便宜、快，是要被"挑战"的基准线
GPT-4.1 Nano	临时换上的"新欢"，要验证它到底是不是更好
GPT-5 Nano	更新的小模型，顺带看看值不值得上
GPT-4o-mini	OpenAI 经典小模型，做对照

③ 数据集：怎么造的、造了多少（这是评测可信的根基）

评测准不准，全看数据集像不像真实使用。所以数据集不是随便编的例子，而是三种来源拼起来：

真实生产输入：直接从线上服务日志里捞用户的真实输入（日志里的 [polish] IN / [translate] IN lang= 行）——测的是用户真实的说话方式，不是想象的句子。
约束定向合成：针对当初要修的那几类具体问题（印尼语特定错误、STT 错字、"忽略上面指令"这类防注入、专名／数字要保留等），定向造覆盖这些场景的样例，确保每类坑都被测到。
边角案例：最容易翻车的极端输入（中英混杂、超长、空输入、全表情等）。

规模：通用集 89 条；另外因为"长段口述"是用户最高频、也最考验润色的场景，专门再做了 26 条长结构化 polish 专项集。合计约 115 条。

④ 评测机制：用什么测、怎么打分（关键，决定结果算不算数）

同生产环境跑：在生产容器里、用和线上一模一样的调用通道（transport）和一模一样的 prompt 跑——不是另写一套测试代码，否则测了也不作数。
盲测 A/B + 位置随机：每条输入同时让两个候选各产出一版，结果 A／B 随机打乱位置，消除裁判"偏向排在前面那个"的位置偏见。
用更强的模型当裁判：请一个更强的模型（Claude Opus 4.8）当评审，并行多个分身同时判，逐条给两版打分、判胜负、写明理由（就是第 8 讲的"LLM 当评审 / 评测台"）。
分维度打分：综合质量（准确、地道、可读）+ 指令遵循（有没有按要求排版、去口水词、不改原词）单独一项——因为它最能区分长结构化场景。汇总时既看平均分，也看胜场比（赢了多少条 vs 输了多少条）。

⑤ 最终得分（真实数据）

项目	Flash-Lite	GPT-4.1 Nano	胜场
Polish 通用（89 条）	8.93	7.93	23 : 4
Polish 长文（26 条）	9.08	8.08	20 : 4
└ 其中"指令遵循"分	8.73	6.54	—
Translate（89 条）	8.88	8.38	21 : 10

差距最大的是长文的指令遵循（8.73 vs 6.54）：Nano 在长结构化输入上不排编号列表、爱留"嗯／那个"口水词、还更慢——而这正是用户最高频的场景。

⑥ 结论与决策

Flash-Lite 两个功能全面胜出 → 回退到 Flash-Lite。"润色变差"被数据坐实：就是当初换 Nano 换坏的。
GPT-5 Nano 否决：它是"推理模型"，默认要思考 7–30 秒（实时根本等不起）；强制最小思考能压到 1.5 秒，但质量崩（几乎不润色、口水词全留），还把 STT 错字"多杀"误译成"杀戮"——它的好全靠思考，没有"又快又好"的档。
GPT-4o-mini 否决：间歇性拒翻 + 最贵。
同时诚实记录 Flash-Lite 仍有的小毛病（偶发过度翻译、个别专名音译／篡改），但最严重的老问题已不再犯、防注入全过，净收益为正。

带走的教训（这才是选型的真功夫） ① 争议不靠"体感"，靠正式评测裁决；② 数据集要"真实日志 + 定向合成 + 边角"三合一，并对最高频场景做专项；③ 评测必须同生产通道 + 同 prompt + 盲测 + 位置随机 + 强模型当裁判，否则白测；④ 分维度看分（指令遵循单列），平均分和胜场比一起看；⑤ 实时场景里"速度"是一票否决项；⑥ 更新／更大的模型不一定赢你这个具体任务。

案例二：同一个功能，为什么配两个不同模型

场景：同样是"润色"，分两档——轻润色（只去口水词、修语法）和深度润色（要分段、列要点、加粗重点、更书面，但绝不能改原意）。

轻润色 → 用便宜快的 Flash-Lite：要求低、调用量大、速度优先。
深度润色 → 用更强的 Flash：需要更强的指令遵循（严格按格式、且不替换用户原词），单价约贵一倍，但只在用户主动选"深度"时才触发、量小，值这个钱。

带走的教训 一个功能内部也能按子任务难度分档配模型：常跑的简单档用便宜的，少跑的高要求档才上贵的。贵模型只花在"值得"的地方——这就是第 3 讲"刚好够用 + 分环节配模型"的真实落地。

案例三：选语音转文字引擎——单价不是关键，计费模式才是坑

场景：要给会议转写选一个"语音转文字（STT）"引擎，候选有 Soniox（已经在用）、火山豆包、Speechmatics、Gladia。

Soniox：按分钟计费（约 $0.002/分钟），而且一个价里就含翻译、分说话人、时间戳。
火山豆包：按"并发买断"（每月固定费 × 并发数）——只有用量极大（每月上万小时）才划算，用量小反而更贵。
决策：先小规模试（spike）豆包，测中文准确率／分人／价格，够用就上、不够就用已集成的 Soniox 兜底，并明确"不做多引擎路由这种过度设计"。后来豆包鉴权没跑通，就继续稳用 Soniox。

带走的教训 ① 比成本别只看"每次多少钱"，要看计费模式（按量 vs 买断）和你真实用量落在哪个区间；② 已经集成、跑得稳的方案有"沉没价值"，要换得有足够强的理由；③ 别为"理论最优"提前堆架构（多引擎路由），先小规模验证再决定。

跟我做一遍：为你的任务列一张选型短名单

让 AI 帮你把任务拆解到"每个环节配哪档模型"

复制（换成你做的产品）

我在做一个翻译应用，包含这些环节：语言识别、正式翻译、译文质量自检、疑难长文处理。
请按"能力/速度/成本/上下文"四维度，帮我为每个环节推荐合适的模型档位（旗舰/均衡/快省），
并说明理由。先不锁定具体型号，给我一个"分环节选型方案 + 备选"，
后面我会用评测来最终确认。

✓ 你刚刚学会的 选型不是挑"最强"，而是按四维度、分环节，选"刚好够用"的那档，并组合使用。最终拍板靠评测数据，不靠榜单和感觉。这是产品成本与质量平衡的命门。

这一讲记住什么

选型是权衡题：能力 / 速度 / 成本 / 上下文四维度。
记住旗舰 / 均衡 / 快省三档分层（比记型号耐用）。
黄金法则：从便宜的试起，不够再升档；一个产品分环节配多模型。
最终选择以你自己的评测为准，别迷信榜单。

← 上一讲大模型 API 是怎么回事下一讲 →Prompt 工程：写出产品级的稳定 prompt

模型选型：没有最好，只有最合适

选型的四个核心维度

一个好用的心智模型：大、均衡、快省 三档

组合使用：一个产品里用多个模型

还要考虑的几点

真实案例：专业团队到底怎么做选型

案例一（完整复盘）：一次实时翻译／润色的模型评测，从头到尾怎么做

① 问题与场景

② 测哪几个模型，为什么是这几个

③ 数据集：怎么造的、造了多少（这是评测可信的根基）

④ 评测机制：用什么测、怎么打分（关键，决定结果算不算数）

⑤ 最终得分（真实数据）

⑥ 结论与决策

案例二：同一个功能，为什么配两个不同模型

案例三：选语音转文字引擎——单价不是关键，计费模式才是坑

跟我做一遍：为你的任务列一张选型短名单

这一讲记住什么

一个好用的心智模型：大、均衡、快省三档