首页 / CC成长营 / Claude Code 实战 · 第 6 讲

同一任务怎么调到最好:模型×Prompt 优化

同一个翻译任务,换个模型、改几句 prompt,效果可能天差地别。问题是——你怎么知道哪个组合更好?这一讲讲清产品调优的核心循环,并引出后面最关键的工具:评测。

接翻译案例:你手上有 3 个候选模型(快省/均衡/旗舰)和 2 版翻译 prompt,组合起来 6 种方案。到底用哪个?凭感觉各试两句就拍板,是新手;专业做法是——用一批代表性的测试数据,让 6 种方案都跑一遍,按统一标准打分,看数据说话。

核心信条:能衡量,才能优化

这是整个 AI 工程里最重要的一句话。没有衡量,你的"调优"只是瞎改——改完觉得"好像好点了",其实只是看了运气好的两个例子。专业的优化是一个闭环:

  1. 定标准:什么样的译文算好?(准确、流畅、术语对、不增删)
  2. 建测试集:准备一批有代表性的输入(覆盖各种情况)。
  3. 跑各方案:每个"模型×prompt"组合,把测试集全跑一遍。
  4. 打分对比:按标准给每个方案的输出打分,排出高下。
  5. 改进再测:针对失分点改 prompt 或换模型,重跑,看分有没有涨。
为什么"两句话试试"会骗你 大模型有随机性,单个例子的好坏是噪音。用 2 个例子下结论,跟用 20 条帖子判断市场一样不靠谱(第三部分讲过)。要看一批数据上的平均表现,才能分清"真的更好"和"恰好这次运气好"。

影响表现的几个可调旋钮

旋钮怎么影响
换模型能力上限不同(第 3 讲),最直接但也最贵的变量
改 prompt同一模型,prompt 写法不同,效果差很多(第 4 讲)
加 few-shot 例子给对例子,边界情况立刻变稳
调 temperature翻译这类求准的,调低更稳
改 pipeline 结构加一步质量自检,整体质量上一个台阶

关键:一次只动一个旋钮,否则分数变了你不知道是哪个起的作用(这是做实验的基本纪律)。

但手动跑 6 个方案 × 几十条数据,太累了

这正是问题所在:优化需要大量重复的"跑+打分"。一个个手动复制粘贴,跑几轮人就崩了,也没法持续做。所以这件事必须自动化、规模化。

✓ 承上启下 "能衡量才能优化"成立,但前提是衡量这件事本身要能自动、规模地做。怎么做?答案就是接下来三讲的主角——claude -p(无头模式):把 Claude Code 变成一个能被程序批量调用的"AI 函数",用它自动跑测试、自动打分。这是很多人不知道、却极其强大的一招。

这一讲记住什么