第 4 章 — 模型是怎么学的

发布于: 2026-02-21 最后更新于: 2026-06-05 版本: 1

第 4 章 — 模型是怎么学的

LLM Primer I: How Generative AI Works 章节走读的第四篇。你每天用的那个模型,是怎么一路走到今天这副样子的 — 这一章给你那张完整的图。


三段路 — 看清三段才看清这个模型

盯着一个现代 LLM,要把它走过的整条路一下子在脑子里摆开,不容易。预训练、微调、基于人工反馈的强化学习(RLHF)。书里的第 4 章就是讲这三段路 — 每一段做什么、出什么,以及为什么只有三段合起来才能得到我们每天信任的那位助手。

当你心里清楚每一段塑造模型的哪一部分,"为什么这个模型在 X 上行、在 Y 上不行"这类问题,你就能用自己的话回答。

预训练 — 决定能力上限的那一段

预训练是 LLM 的起点。论代价,它是个大块头:整个项目里时间和算力的绝大头。从零开始预训练一个大模型,体量上和造一架飞机是一个量级。

这一段里,模型拿到的是海量文本 — 书、网页、代码、维基、论文 — 任务只有一个,我们已经熟悉的那个:预测下一个 token。在万亿级 token 上反复重复这个简单的目标,模型 — 几乎像是个副产品 — 把语法、事实、推理的脉络,以及一层一层叠在人类表达上的无数规律,全部吸进了自己的内部。

这里书里强调一句话:这一段决定模型"能力的天花板"。后面几段可以塑造性格,但要给一个没在预训练里出现过的能力 — 几乎不可能。

一句话总结:预训练决定能力,微调决定性格。这两件事经常被混在一起,其实做的是不同的活。

微调 — 把能力雕成可用的样子

刚预训完的模型,很强,但用起来不顺手。它什么都能产,但很少正好长成你期待的那个样子。我常用的比喻:跟一个特别聪明、可是社交感欠点的人聊天。能力是有的,只是包装不太对劲。

这时候就轮到微调出场。在一个体量小得多、但被仔细挑过的数据集上 — 通常是人工写的"我们希望模型这样回答"的示例对话 — 模型再训一遍。权重只挪一丁点,但挪的方向会累积 — 模型从"干巴巴"挪向"友善",从"东一句西一句"挪向"有条理",从"只说一句"挪向"该展开就展开"。

同一个预训练模型,经过不同的微调,出来会变得很不一样:一个写代码的助手、一个有医学语气的顾问、一个走休闲风的聊天机器人。各家模型的差异,在这里开始分流。

RLHF — 那个你喜欢的助手是怎么练出来的

三段里最细腻、同时也最具决定性的是 RLHF。用一句话讲:让模型对同一个问题给出两个不同的回答 → 让人工评估者标出哪个更好 → 用这个信号把模型往那边推一点。这件事重复几万、几十万次。

这里被打磨出来的那种细腻,体量惊人。什么算"真的帮上忙"、什么算"安全的回答"、什么时候该老老实实说"我不知道"、礼貌到什么程度才不显得僵硬 — 这种微妙是人在一条一条标的。把这些信号慢慢堆起来,塑造出我们叫做"助手"的那种人格。

值得记住:RLHF 不教新知识。它是把预训练里已经埋在模型内部的能力,挑出那些"和人类表达方式合拍"的部分,提到表面来。

为什么同一族的模型听起来不一样

这三段路一旦在心里立起来,接下来的问题也都各就各位。为什么 OpenAI 和 Anthropic 的模型对同一个问题给出不同口吻的回答?为什么尺寸相同的两个模型,代码能力差不多,但写文章风格差得明显?为什么有的模型乐意说"不知道",另一个却一定要硬给你一个答案?

大部分差异 — 在预训练数据差异这一层之上 — 就是微调和 RLHF 两段路的差异。这两段就是这一族模型的"风格",所以习惯一家模型,本质上就是习惯了那一家的训练哲学。

第 4 章给你的那张心智图

到第 4 章结束,"基础模型"和"助手模型"不是同一个东西、每段训练在塑造哪种行为 — 这两件事都该在你心里落定。这两件事一旦落定,你之后碰到任何一个新 LLM,大致能想到 — 应该期待什么、不该期待什么。


明天 — 第 5 章:还是有些小毛病。语气会稍微变一下,我们老实地看一眼那些就算训得很好的 LLM 还是会有的弱点 — 幻觉、对时间没概念、算术、一致性。我们会说为什么这些不是 bug,而是同一个机制的特性。

想看完整的全貌?书里把预训练、微调、RLHF 缝成一张图,展示这三段路怎么一起塑造出现在你屏幕上的那位助手。在亚马逊查看《LLM Primer I》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。