第10章 — 后训练与对齐的数学

发布于: 2026-03-12 最后更新于: 2026-06-06 版本: 2

第10章 — 后训练与对齐的数学

LLM Primer II: Language Models Through Mathematics 章节走读的第十篇。一个聪明却野的"下一个 token 预测器",被一点点驯成你愿意当助手用的那个东西 — 而整整一套强化学习流水线,通过一个干净的推导,塌成一个你可以像普通分类器那样去训练的损失。


这一章为什么存在

第 8 章和第 9 章产出了一个预训练好的模型。它读过半个互联网,任何文本都能续得有模有样。它也完全没打算"帮"你。问它一个问题,它可能会再生几个问题给你 — 既聪明,又野。

第 10 章是这只生物和你每天在用的那个助手之间的那座桥。也是整本书数学上最漂亮的几章之一 — 对齐这件工程,踩在三个干净的想法上,而第三个干净得有点不讲道理。

一句话总结:后训练分三幕 — 监督微调教模型模仿好的回答,奖励模型学人的偏好,偏好优化把模型调到去满足这些偏好;再加一根 KL 缰绳,不让它跑得离原来那个模型太远。

10.1 监督微调

第一步,也是最温柔的一步。数学上没有新东西 — 攒(prompt,理想回答)的人工对,用第 1 章那个交叉熵损失训练。模仿几千个"好助手"的样本之后,模型就学着像那个助手一样回答,而不再像"互联网上平均的一个网页"。天花板也很清楚:模仿超不过示范者本身,而写一个完美回答,远比认出一个完美回答要难。

10.2 奖励模型与偏好的数学

既然"写出完美回答"难,而"在两个回答里挑一个更好的"容易,那就改成收集比较。从嘈杂的人工比较走到一个平滑评分函数的那座桥,是 Bradley–Terry 模型(统计学,1950 年代)。它给每个项目一个隐含的"强度",而 A 赢 B 的概率,由这两个强度的差,通过一个 logistic 函数决定。奖励模型被训练得让这个概率去对上人工标注。再读一遍就能认出来:这其实就是在"奖励之差"上做 logistic 回归。

10.3 RLHF 上的 KL 缰绳

朴素的 RL — 最大化期望奖励 — 是个陷阱。奖励模型只是一个代理,会有盲区。一个策略如果优化得足够狠,就会去钻那些盲区,产出在评分上高得离谱、在人看来却是胡言乱语的文本。奖励黑入(reward hacking)— 规范博弈最具体的那种形式。补救办法:加一个 KL 散度的惩罚,把策略往预训练那个参照模型上拉。火候就在这根缰绳上:松了,模型钻奖励的空子;紧了,它一辈子学不到东西。

10.4 DPO:当强化学习自己溶掉

最近 ML 里最好看的结果之一。RLHF 这个目标,看上去非得动整套家伙不可 — 奖励模型、RL 循环、采样。Direct Preference Optimization(DPO) 证明了:不用。带 KL 约束的"最大化奖励"问题,有一个闭式最优解:参照策略乘上一个"奖励的指数权重"。反着走:从这个最优策略里把奖励反解出来,代回 Bradley–Terry 那个偏好损失,看着奖励模型自己消掉。剩下的,是一个完全用"策略自己的 log 概率对参照模型"写出来的损失。没有单独的奖励模型,没有 RL 循环。就是在偏好对上做监督学习。

值得记住:DPO 是那种让人觉得"这个领域偶尔显得既小又优雅"的结果。原本一整动物园的零件,干净利落地折成一个监督损失。同一套数学,少一半的机械。

10.5 Best-of-n、对齐税、几句老实话

更简单的替代方案:拒绝采样 / best-of-n。生成 n 个候选,全部打分,留下最好的那一个。不训练策略,只是多花点推理。又简单又强,是个很难超过的基线。

两个老实的提醒。第一,对齐税:一个被往"有用、安全"上调得狠的模型,有时候原本的硬能力也跟着掉了。第二,更根本的一条 — 这一整套方法,优化的都是"人会不会喜欢这个回答",这和"真"或"好"并不是同一件事。一个模型可以学会被人喜欢,而没学会答对。

这一章还讲了 RLAIF(用一个模型的判断来对齐另一个模型)和 Constitutional AI(把价值观写成一段大白话)。两者都在指向同一个更深的问题:可扩展的监督到底怎么做。

第 10 章给后面铺的路

你走出这一章,手里有三幕戏,和两块很好看的统计学。从这里起,书转向一个同样数学化、又同样要紧的问题:既然我们把模型造出来又调对齐了,那怎么知道它到底好不好?


明天 — 第 11 章:评估、校准与推理困惑度、校准、每一个 benchmark 分数背后该有的那条误差线,以及"测量幻觉"这件事的数学。

想看完整的全貌?书里给了完整的 Bradley–Terry 推导、DPO 闭式解和它的代入证明,还把 RLHF 那"三个模型一起跳的舞"用图画了出来。在亚马逊查看《LLM Primer II》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。