第10章 — 后训练与对齐的数学

LLM Primer II: Language Models Through Mathematics 章节走读的第十篇。一个聪明却野的"下一个 token 预测器",被一点点驯成你愿意当助手用的那个东西 — 而整整一套强化学习流水线,通过一个干净的推导,塌成一个你可以像普通分类器那样去训练的损失。

这一章为什么存在

第 8 章和第 9 章产出了一个预训练好的模型。它读过半个互联网,任何文本都能续得有模有样。它也完全没打算"帮"你。问它一个问题,它可能会再生几个问题给你 — 既聪明,又野。

第 10 章是这只生物和你每天在用的那个助手之间的那座桥。也是整本书数学上最漂亮的几章之一 — 对齐这件工程,踩在三个干净的想法上,而第三个干净得有点不讲道理。

一句话总结:后训练分三幕 — 监督微调教模型模仿好的回答,奖励模型学人的偏好,偏好优化把模型调到去满足这些偏好;再加一根 KL 缰绳,不让它跑得离原来那个模型太远。

10.1 监督微调

第一步,也是最温柔的一步。数学上没有新东西 — 攒(prompt,理想回答)的人工对,用第 1 章那个交叉熵损失训练。模仿几千个"好助手"的样本之后,模型就学着像那个助手一样回答,而不再像"互联网上平均的一个网页"。天花板也很清楚:模仿超不过示范者本身,而写一个完美回答,远比认出一个完美回答要难。

10.2 奖励模型与偏好的数学

既然"写出完美回答"难,而"在两个回答里挑一个更好的"容易,那就改成收集比较。从嘈杂的人工比较走到一个平滑评分函数的那座桥,是 Bradley–Terry 模型(统计学,1950 年代)。它给每个项目一个隐含的"强度",而 A 赢 B 的概率,由这两个强度的差,通过一个 logistic 函数决定。奖励模型被训练得让这个概率去对上人工标注。再读一遍就能认出来:这其实就是在"奖励之差"上做 logistic 回归。

10.3 RLHF 上的 KL 缰绳

朴素的 RL — 最大化期望奖励 — 是个陷阱。奖励模型只是一个代理,会有盲区。一个策略如果优化得足够狠,就会去钻那些盲区,产出在评分上高得离谱、在人看来却是胡言乱语的文本。奖励黑入(reward hacking)— 规范博弈最具体的那种形式。补救办法:加一个 KL 散度的惩罚,把策略往预训练那个参照模型上拉。火候就在这根缰绳上:松了,模型钻奖励的空子;紧了,它一辈子学不到东西。

10.4 DPO:当强化学习自己溶掉

最近 ML 里最好看的结果之一。RLHF 这个目标,看上去非得动整套家伙不可 — 奖励模型、RL 循环、采样。Direct Preference Optimization(DPO) 证明了:不用。带 KL 约束的"最大化奖励"问题,有一个闭式最优解:参照策略乘上一个"奖励的指数权重"。反着走:从这个最优策略里把奖励反解出来,代回 Bradley–Terry 那个偏好损失,看着奖励模型自己消掉。剩下的,是一个完全用"策略自己的 log 概率对参照模型"写出来的损失。没有单独的奖励模型,没有 RL 循环。就是在偏好对上做监督学习。

值得记住:DPO 是那种让人觉得"这个领域偶尔显得既小又优雅"的结果。原本一整动物园的零件,干净利落地折成一个监督损失。同一套数学,少一半的机械。

10.5 Best-of-n、对齐税、几句老实话

更简单的替代方案:拒绝采样 / best-of-n。生成 n 个候选,全部打分,留下最好的那一个。不训练策略,只是多花点推理。又简单又强,是个很难超过的基线。

两个老实的提醒。第一,对齐税:一个被往"有用、安全"上调得狠的模型,有时候原本的硬能力也跟着掉了。第二,更根本的一条 — 这一整套方法,优化的都是"人会不会喜欢这个回答",这和"真"或"好"并不是同一件事。一个模型可以学会被人喜欢,而没学会答对。

这一章还讲了 RLAIF(用一个模型的判断来对齐另一个模型)和 Constitutional AI(把价值观写成一段大白话)。两者都在指向同一个更深的问题:可扩展的监督到底怎么做。

第 10 章给后面铺的路

你走出这一章,手里有三幕戏,和两块很好看的统计学。从这里起,书转向一个同样数学化、又同样要紧的问题:既然我们把模型造出来又调对齐了,那怎么知道它到底好不好?

明天 — 第 11 章:评估、校准与推理。困惑度、校准、每一个 benchmark 分数背后该有的那条误差线,以及"测量幻觉"这件事的数学。

想看完整的全貌?书里给了完整的 Bradley–Terry 推导、DPO 闭式解和它的代入证明,还把 RLHF 那"三个模型一起跳的舞"用图画了出来。在亚马逊查看《LLM Primer II》→