模型选型:没有最好,只有最合适
市面上几十个大模型,新手总想找"最强的那个"。但造产品的人都知道:选型是一道权衡题,不是排名题。这一讲给你一套能落地的选型框架。
接翻译案例:你的翻译应用里,其实有两类活——给用户看的正式译文(质量第一),和内部用来判断语言、做初筛的辅助判断(量大、要快要便宜)。如果两类都用最贵最强的模型,成本爆炸还慢;都用最便宜的,质量又不够。对的做法是:不同环节,配不同模型。
选型的四个核心维度
| 维度 | 看什么 | 什么时候重要 |
|---|---|---|
| 能力(聪明程度) | 能不能把这个任务做对、做好 | 复杂推理、高质量产出、容错低的场景 |
| 速度(延迟) | 多久返回结果 | 用户实时等待、要跑海量条目 |
| 成本(单价) | 每百万 token 多少钱 | 调用量大、要长期跑 |
| 上下文(容量) | 一次能读进多长的内容 | 长文档、长对话、喂大量资料 |
一个好用的心智模型:大、均衡、快省 三档
同一家厂商,通常会有三个档位。记住这个分层,比记具体型号更耐用(型号会更新,分层逻辑不变):
- 旗舰档(如 Opus 级):最聪明,处理难任务最稳,但更贵更慢。用在质量关键、复杂推理的环节。
- 均衡档(如 Sonnet 级):能力、速度、价格平衡,日常主力,大多数任务的默认选择。
- 快省档(如 Haiku 级):又快又便宜,能力够用于简单活。用在大批量、简单判断、初筛。
选型黄金法则:从便宜的试起,不够再往上换
新手爱默认用最强的——浪费钱。专业做法反过来:先用快省/均衡档试,能达到质量要求就用它;达不到,再升一档。用"刚好够用"的模型,是控成本的核心功夫。怎么判断"够不够用"?靠第 6–8 讲的评测,而不是凭感觉。
组合使用:一个产品里用多个模型
成熟产品很少"一个模型用到底"。翻译应用的典型分工:
| 环节 | 配哪档 | 为什么 |
|---|---|---|
| 判断输入是什么语言 | 快省档 | 简单、量大、要便宜 |
| 正式翻译(给用户) | 均衡或旗舰档 | 质量直接影响体验 |
| 译文质量自检/润色 | 均衡档 | 平衡效果与成本 |
| 疑难长文/专业领域 | 旗舰档 | 难,值得花钱保质量 |
这种"分环节配模型"的思路,就引出了下一个大概念——pipeline(第 5 讲)。
还要考虑的几点
- 闭源 vs 开源:闭源(调 API)省心、能力强、按量付费;开源(自己部署)数据自主、长期量大可能更省,但要运维。多数人从闭源 API 起步。
- 数据合规:涉及敏感/隐私数据,要看模型服务的数据政策、是否符合你所在地区法规。
- 别被单一评分榜带跑:榜单分数高 ≠ 在你这个具体任务上好。以你自己的评测结果为准(第 6–8 讲)。
跟我做一遍:为你的任务列一张选型短名单
让 AI 帮你把任务拆解到"每个环节配哪档模型"
复制(换成你的产品)
我在做一个翻译应用,包含这些环节:语言识别、正式翻译、译文质量自检、疑难长文处理。
请按"能力/速度/成本/上下文"四维度,帮我为每个环节推荐合适的模型档位(旗舰/均衡/快省),
并说明理由。先不锁定具体型号,给我一个"分环节选型方案 + 备选",
后面我会用评测来最终确认。
✓ 你刚刚学会的
选型不是挑"最强",而是按四维度、分环节,选"刚好够用"的那档,并组合使用。最终拍板靠评测数据,不靠榜单和感觉。这是产品成本与质量平衡的命门。
这一讲记住什么
- 选型是权衡题:能力 / 速度 / 成本 / 上下文 四维度。
- 记住旗舰 / 均衡 / 快省三档分层(比记型号耐用)。
- 黄金法则:从便宜的试起,不够再升档;一个产品分环节配多模型。
- 最终选择以你自己的评测为准,别迷信榜单。