第 7 章 — 把提示工程当成一门手艺
LLM Primer I: How Generative AI Works 章节走读的第七篇。整本书里最实用的一章 — 那些能让同一个模型聪明一倍的招,以及它们为什么管用。
prompt 不只是一个"问题"
"提示工程"听上去有点重。好像无非是把问题问得漂亮点。但我在书里坚持一个更严肃的看法:prompt 决定了模型预测每一个下一个 token 时所站立的那个上下文。这就不是小事了。
模型每次都把自己上下文里所有的东西看一遍,然后在这个基础上构造下一个 token 的分布。prompt 是这个上下文的核心部分。改语气、改结构、改示例、改角色 — 都是在一次性挪动后面所有 token 的分布。
这个视角下,提示工程是把模型已有能力榨出来的最便宜方式,也是不换模型就能彻底改变行为的最灵活方式。
四个真正扛得起活的模式
第 7 章里我挑出四个在实战里真正扛得起大半工作的模式。还有别的,但这四个是真正的主力。
System prompt.一开始就把模型的角色和边界定下来的那段指令。后面生成的所有内容都在这个底色里展开。改 system prompt 里一两行,常常意味着把整个助手的性格重写,而别的什么都不用动。
Few-shot.不去描述你想要什么样的回答,而是在 prompt 里直接给两到三个示例。模型会把这些示例当成"局部输出模板",把自己的分布往那边收。两个具体的示例,常常比一页抽象描述更管用。
思维链(chain of thought).请模型"别只给结论,把推理步骤写出来"。看上去小,效果大。模型把推理步骤写进自己的上下文,等于在为自己扩上下文 — 每一个新 token 都看到了刚刚那几个推理步骤。
角色.说一句"你是一个资深后端工程师",会把预训练分布里那种"资深后端工程师写的话"的色板拉出来。改的不只是语气,是模型站立的那块语义土壤。
这四个模式为什么管用
书里我把这四个模式归到同一句话上:模型吸收上下文,然后在它上面生成下一个 token。system prompt 定下大画框,few-shot 收窄输出形状,思维链让模型扩自己的上下文,角色把预训练里相应的色板拉出来。
这一句话进了脑子,看到任何新模式,你就能从机制上判断它大概率管不管用 — 而不是死记一堆食谱。这是从"背配方"走到"懂原理"的那一步。
什么真有用,什么被高估了
章末我老实地区分一下哪些有实打实的效果、哪些被名气抬过头。并不是所有 prompt 模式都同等强。有些是真能把模型抬高一个台阶,有些则花架子多于实效。
这张地图在心里有用,因为它能让你把时间花在真正有用的那些模式上。
第 7 章那条主线
这章留下的句子是:同一个模型,在不同的上下文里,就是不同的模型。学会驾驭上下文,是从模型身上拿到你想要的东西最便宜也常常最有效的路。换更贵的模型之前,先看看是不是改改上下文就解决了。
明天 — 第 8 章:当一个模型不够 — 工具调用与智能体。我们从"一个模型、一次回答"跳出去,进入模型长出手脚的那片地。函数调用、智能体,以及 §8.6 这节新加的智能体模式。