第 4 章 — 模型是怎么学的

LLM Primer I: How Generative AI Works 章节走读的第四篇。你每天用的那个模型,是怎么一路走到今天这副样子的 — 这一章给你那张完整的图。

三段路 — 看清三段才看清这个模型

盯着一个现代 LLM,要把它走过的整条路一下子在脑子里摆开,不容易。预训练、微调、基于人工反馈的强化学习(RLHF)。书里的第 4 章就是讲这三段路 — 每一段做什么、出什么,以及为什么只有三段合起来才能得到我们每天信任的那位助手。

当你心里清楚每一段塑造模型的哪一部分,"为什么这个模型在 X 上行、在 Y 上不行"这类问题,你就能用自己的话回答。

预训练是 LLM 的起点。论代价,它是个大块头:整个项目里时间和算力的绝大头。从零开始预训练一个大模型,体量上和造一架飞机是一个量级。

这一段里,模型拿到的是海量文本 — 书、网页、代码、维基、论文 — 任务只有一个,我们已经熟悉的那个:预测下一个 token。在万亿级 token 上反复重复这个简单的目标,模型 — 几乎像是个副产品 — 把语法、事实、推理的脉络,以及一层一层叠在人类表达上的无数规律,全部吸进了自己的内部。

这里书里强调一句话:这一段决定模型"能力的天花板"。后面几段可以塑造性格,但要给一个没在预训练里出现过的能力 — 几乎不可能。

一句话总结:预训练决定能力,微调决定性格。这两件事经常被混在一起,其实做的是不同的活。

刚预训完的模型,很强,但用起来不顺手。它什么都能产,但很少正好长成你期待的那个样子。我常用的比喻:跟一个特别聪明、可是社交感欠点的人聊天。能力是有的,只是包装不太对劲。

这时候就轮到微调出场。在一个体量小得多、但被仔细挑过的数据集上 — 通常是人工写的"我们希望模型这样回答"的示例对话 — 模型再训一遍。权重只挪一丁点,但挪的方向会累积 — 模型从"干巴巴"挪向"友善",从"东一句西一句"挪向"有条理",从"只说一句"挪向"该展开就展开"。

同一个预训练模型,经过不同的微调,出来会变得很不一样:一个写代码的助手、一个有医学语气的顾问、一个走休闲风的聊天机器人。各家模型的差异,在这里开始分流。

三段里最细腻、同时也最具决定性的是 RLHF。用一句话讲:让模型对同一个问题给出两个不同的回答 → 让人工评估者标出哪个更好 → 用这个信号把模型往那边推一点。这件事重复几万、几十万次。

这里被打磨出来的那种细腻,体量惊人。什么算"真的帮上忙"、什么算"安全的回答"、什么时候该老老实实说"我不知道"、礼貌到什么程度才不显得僵硬 — 这种微妙是人在一条一条标的。把这些信号慢慢堆起来,塑造出我们叫做"助手"的那种人格。

值得记住:RLHF 不教新知识。它是把预训练里已经埋在模型内部的能力,挑出那些"和人类表达方式合拍"的部分,提到表面来。

这三段路一旦在心里立起来,接下来的问题也都各就各位。为什么 OpenAI 和 Anthropic 的模型对同一个问题给出不同口吻的回答?为什么尺寸相同的两个模型,代码能力差不多,但写文章风格差得明显?为什么有的模型乐意说"不知道",另一个却一定要硬给你一个答案?

大部分差异 — 在预训练数据差异这一层之上 — 就是微调和 RLHF 两段路的差异。这两段就是这一族模型的"风格",所以习惯一家模型,本质上就是习惯了那一家的训练哲学。

到第 4 章结束,"基础模型"和"助手模型"不是同一个东西、每段训练在塑造哪种行为 — 这两件事都该在你心里落定。这两件事一旦落定,你之后碰到任何一个新 LLM,大致能想到 — 应该期待什么、不该期待什么。

明天 — 第 5 章:还是有些小毛病。语气会稍微变一下,我们老实地看一眼那些就算训得很好的 LLM 还是会有的弱点 — 幻觉、对时间没概念、算术、一致性。我们会说为什么这些不是 bug,而是同一个机制的特性。

想看完整的全貌?书里把预训练、微调、RLHF 缝成一张图,展示这三段路怎么一起塑造出现在你屏幕上的那位助手。在亚马逊查看《LLM Primer I》→