
同一个模型,同一套任务,从全部失败到全部通过,中间只差提示词和工作流。
这不是段子,是Anthropic两周前官方讲座《The Prompting Playbook》的实测结果。
一、小模型也能逆袭
Anthropic用Sonnet 4.6做了一组零售排班测试。
第一轮,最基础的提示词,推理能力明显不够,测试几乎全挂。
中间几轮不断优化提示词,部分开始通过,但token上限带来新问题。
第五轮,搭了一个"生成、评价、修复"的循环,所有测试全部通过,token反而更少,延迟更低。
同一个小模型,差距全在提示词。
二、四个关键原则
第一,靠系统化的评估来验证每次改动,凭感觉改不算数。
第二,保持提示词"卫生",清理冗余,用XML标签区分结构。
第三,别用纯指令弥补能力缺口,该上工具就上工具。
第四,复杂任务别堆一个超长提示词,搭多提示词协作的工作流,更高效也更便宜。
三、一个反直觉的真相
很多人觉得写提示词浪费时间,随手敲一句话就开干。
但现实是:一句短提示词省了几秒写的时间,后面却要追加四五轮补充,前后搭进去10分钟。
反过来,花1到2分钟写一个结构完整的提示词,生成结果5分钟,总时间反而更短。
四、有人把它做成了工具
有开发者看完这期讲座,用Codex做了一个全局提示词优化器。
在任意页面选中文本,按一个快捷键,10秒内自动优化成完整提示词框架。
包含任务背景、约束条件、输出格式,甚至让AI自己做质量复查。
开源在GitHub上,推荐用DeepSeek V4 Flash跑,便宜够快。
五、最核心的一句话
别迷信一个面面俱到的超强提示词。该让AI自己思考的就放手,该信任的地方信任,不该信任的地方让它老实承认哪些信息还不到位。
提示词不是模型弱时的拐杖,而是让任何模型发挥最大能力的杠杆。
你平时写提示词,是一句话硬刚,还是先花两分钟搭框架?
Bintrail为MySQL补齐时间旅行查询短板,无需改代码即可回溯历史数据!
SillyTavern角色卡:AI时代闷声发财的隐秘赛道,利润率超80%!
DeepSeek对标Claude Code组建Harness团队:模型之外,控制层决胜!
Waymo无人车再陷积水困境,特斯拉FSD却越开越像老司机!
微软叫停内部Claude Code:一场"用不起"背后的三重困境!
谷歌Gemma 4 12B炸场:16G笔记本就能跑,性能碾压26B巨兽!
GPT-5.5被实锤"降智":200美元买的旗舰模型,背后偷偷换成了mini!
哈佛最年轻教授尹希加盟OpenAI:AI几周干完我十年的活!
Oracle XStream CDC实测:37000 TPS下性能影响全面评估!
用了30个AI工具后,真正留下来的只有这6个|别再收藏了