第 6 章 — 安全、对齐,以及"有用"到底是什么意思

发布于: 2026-02-23 最后更新于: 2026-06-05 版本: 1

第 6 章 — 安全、对齐,以及"有用"到底是什么意思

LLM Primer I: How Generative AI Works 章节走读的第六篇。这是 2026 版里我改动最大的一章 — 还专门新加了 §6.6,讲对齐研究里那些近一两年才长成形的方向。


"听上去通顺"和"真的有用"是两件事

第 6 章一上来就摆出一个表面看着小、其实分量很重的区分。模型给出一段流畅成形的句子,和那段回答对用户真的有用,完全不是同一件事。

流畅来自预训练。有用来自对齐。而这两件事之间的间距,比许多人以为的要大得多。有的流畅回答其实是危险的;有的看起来平平的回答反而是真正有用的。没有这个区分,任何对模型的评估从第一步就开始摇晃。

对齐到底在调什么

"对齐"这个词有点宽,每个人理解都不太一样。书里尽量给它一个具体的轮廓。一句话:对齐就是把模型留在人想让它待的那条路上,并让它一旦校准之后,即便时间推移、即便遇到新场景、即便面对略带歪曲的输入,也能继续待在那条路上。

实际操作上,这意味着同时照顾几个维度:真正有用、诚实(包括会说"我不知道")、无害(避免误导或有害的内容),以及在这三者冲突时,怎么把握那个微妙的平衡点。

一句话总结:对齐不是"做一次就归档"的活。每一种新的使用方式、每一个新的输入、每一个新的对抗性 prompt,都会重新考验它一次。

§6.6 — 2026 版新加的那一节

2026 版里我新开了 §6.6,讲宪法式 AI、基于辩论的模型,以及对齐领域里那些新研究方向。

宪法式 AI 的想法是,部分地把"人来评分"换成"模型按一套写明的原则自己评分"。模型按这套"宪法"重新看自己的答案,并据此自我调整。这不光是降低 RLHF 成本的招 — 更深一层的意思是,随着模型规模上去,纯靠人工评估那种对齐方式越来越扛不住。宪法式 AI 是对这件事的一种应对。

基于辩论的对齐换了个角度。让两个模型对同一个问题给出彼此对立的回答,把这种冲突显式地摆到面上来,然后把这个冲突当成信号 — 交给人工评审,或者另一个模型去定夺。背后的直觉是:一个单一评审者很容易漏掉的微妙之处,在两个回答正面相撞时,往往会自己跳出来。

"安全"这个词比看上去宽

书里我尽量不把安全只缩到"过滤有害内容"那么窄。这里有更多的事。什么样的互动能让用户长期愿意依赖?在模型其实不知道的时候,它怎么说出"我不知道"?怎么避免让用户对模型过度依赖、以至于自己的判断都开始钝掉?这些全部都是同一个安全议程的一部分。

这个谱系一旦进了视野,选模型和运营模型就有了一层深度。你开始把信任看成"这整套系统"的属性,而不只是"单独这个模型"的属性。

重要:对齐不是审查。它更像是在训练模型区分"什么是诚实的"和"什么是有用的" — 以及在两者分叉的细微地带,怎么走。

第 6 章那条主线

这一章留下的那句话是:对齐是模型变成"真的能用"的最后一步。预训练给了能力,微调画出了性格的大轮廓,对齐把这个性格再雕到 — 你能每天靠它,长时间靠它,不后悔靠它 — 的那个位置。


明天 — 第 7 章:把提示工程当成一门手艺。这是最实用的一章。真正扛事的四个 prompt 模式 — system prompt、few-shot、思维链、角色 — 以及为什么它们能行,从下一个 token 的机制里讲清。

想看完整的全貌?书里把对齐整张图配着图讲完,包括 2026 版里 §6.6 这节新内容。在亚马逊查看《LLM Primer I》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。