第 6 章 — 安全、对齐,以及"有用"到底是什么意思

LLM Primer I: How Generative AI Works 章节走读的第六篇。这是 2026 版里我改动最大的一章 — 还专门新加了 §6.6,讲对齐研究里那些近一两年才长成形的方向。

"听上去通顺"和"真的有用"是两件事

第 6 章一上来就摆出一个表面看着小、其实分量很重的区分。模型给出一段流畅成形的句子,和那段回答对用户真的有用,完全不是同一件事。

流畅来自预训练。有用来自对齐。而这两件事之间的间距,比许多人以为的要大得多。有的流畅回答其实是危险的;有的看起来平平的回答反而是真正有用的。没有这个区分,任何对模型的评估从第一步就开始摇晃。

"对齐"这个词有点宽,每个人理解都不太一样。书里尽量给它一个具体的轮廓。一句话:对齐就是把模型留在人想让它待的那条路上,并让它一旦校准之后,即便时间推移、即便遇到新场景、即便面对略带歪曲的输入,也能继续待在那条路上。

实际操作上,这意味着同时照顾几个维度:真正有用、诚实(包括会说"我不知道")、无害(避免误导或有害的内容),以及在这三者冲突时,怎么把握那个微妙的平衡点。

一句话总结:对齐不是"做一次就归档"的活。每一种新的使用方式、每一个新的输入、每一个新的对抗性 prompt,都会重新考验它一次。

2026 版里我新开了 §6.6,讲宪法式 AI、基于辩论的模型,以及对齐领域里那些新研究方向。

宪法式 AI 的想法是,部分地把"人来评分"换成"模型按一套写明的原则自己评分"。模型按这套"宪法"重新看自己的答案,并据此自我调整。这不光是降低 RLHF 成本的招 — 更深一层的意思是,随着模型规模上去,纯靠人工评估那种对齐方式越来越扛不住。宪法式 AI 是对这件事的一种应对。

基于辩论的对齐换了个角度。让两个模型对同一个问题给出彼此对立的回答,把这种冲突显式地摆到面上来,然后把这个冲突当成信号 — 交给人工评审,或者另一个模型去定夺。背后的直觉是:一个单一评审者很容易漏掉的微妙之处,在两个回答正面相撞时,往往会自己跳出来。

书里我尽量不把安全只缩到"过滤有害内容"那么窄。这里有更多的事。什么样的互动能让用户长期愿意依赖?在模型其实不知道的时候,它怎么说出"我不知道"?怎么避免让用户对模型过度依赖、以至于自己的判断都开始钝掉?这些全部都是同一个安全议程的一部分。

这个谱系一旦进了视野,选模型和运营模型就有了一层深度。你开始把信任看成"这整套系统"的属性,而不只是"单独这个模型"的属性。

重要:对齐不是审查。它更像是在训练模型区分"什么是诚实的"和"什么是有用的" — 以及在两者分叉的细微地带,怎么走。

这一章留下的那句话是:对齐是模型变成"真的能用"的最后一步。预训练给了能力,微调画出了性格的大轮廓,对齐把这个性格再雕到 — 你能每天靠它,长时间靠它,不后悔靠它 — 的那个位置。

明天 — 第 7 章:把提示工程当成一门手艺。这是最实用的一章。真正扛事的四个 prompt 模式 — system prompt、few-shot、思维链、角色 — 以及为什么它们能行,从下一个 token 的机制里讲清。

想看完整的全貌?书里把对齐整张图配着图讲完,包括 2026 版里 §6.6 这节新内容。在亚马逊查看《LLM Primer I》→