第 3 章 — 文本在模型里是怎么流动的

发布于: 2026-02-20 最后更新于: 2026-06-05 版本: 1

第 3 章 — 文本在模型里是怎么流动的

LLM Primer I: How Generative AI Works 章节走读的第三篇。整本书里我最喜欢的章节之一 — 我们进到里面去看,token 跨过门以后到底经历了什么。


"单词变成向量"是什么意思

真正有意思的地方从这里开始。token 进入模型的那一刻,它就不再是字符了。每个 token 变成一段几百个维度的数字序列 — 一个嵌入(embedding)。

为什么这么费事?因为这段数字以某种方式承载着这个 token 的"意义" — 至少是模型能操作的那种意义。在这个空间里,"国王"会落在"王后"的旁边,"巴黎"会落在"法国"的旁边。一个 token 的嵌入承载的信息,比那几个字符多得多 — 它通常和哪些词一起出现、在什么语境下出现、和哪些别的词在行为上相似。

第 3 章会讲嵌入是怎么形成的,更重要的是 — 这一点每次都让人耳目一新 — 它不是一本静态字典。它是被学出来的表示。

一句话总结:嵌入是 token 的身份证。同一个词在不同语境里意思会有微妙的不同,处理这种微妙的起点正是嵌入(再加上后面的注意力)。

注意力 — 改变了一切的那一步

嵌入之后,登场的是把整个领域翻了个底朝天的机制。注意力 — 更准确地说,自注意力(self-attention) — 是这样一个想法:处理某一个 token 的时候,模型可以扫一眼同一段序列里所有别的 token,然后给每一个判断:"为了理解我现在这个 token,你有多重要?"

在注意力出现之前,模型读文本要么一个词一个词地按顺序走。有了注意力以后,任何一个 token 都可以在一个步骤里和任何另一个 token 连起来。

为什么这件事这么重。想象一个句子:"他走进花园,花园已经空了。"要想搞清楚后半句的"它"指的是"他"还是"花园",模型得能在序列之间画一条线。注意力就是让画这条线变成可能的机制。

书里展示注意力的方式不会让你淹在矩阵里。一旦这副脑中画面立起来,后面所有关于 LLM 行为的事情,几乎都能用它来解释。

Transformer — 把同一个积木摞六十次

如果注意力这么管用,那把它简单地摞起来,会怎么样?Transformer 架构就是这么个答案。注意力加上一个简单的位置变换(就是所谓的前馈层)组成一个积木,然后这个积木被摞起来 — 十二层、六十层,在更大的模型里上百层。

每一层把 token 的表示再雕琢一遍,让它更抽象、更跟整段上下文融为一体。书里反复用的那个比喻 — 理解文本是从表面(字)开始,经过语法,到意义,最后到"下一个 token 最可能是哪个" — 用来想象每一层在干什么,挺好用的。

套上这副比喻,一个并不复杂的积木,只是被摞了六十层,怎么就能产生那么多样的行为 — 这件事看上去就没那么神秘了。

重要:Transformer 里没有一个独立的"推理模块",也没有一个独立的"知识模块"。是同一种类型的积木,用同样的方式训练,然后摞起来。它看上去会的那些事情,是从这种简单里冒出来的 — 那种简单里的魅力,我觉得占了一大半。

我写起来最开心的那一段

这一章里有一页我写的时候特别开心 — 那一页用图和文字一起,描绘信息在 Transformer 里是怎么流动的。

我们从输入端的嵌入出发,穿过一层注意力,表示变得更丰富。再穿一层,更丰富。到最后,每一个 token 的表示带的不只是它"是什么",还有整段上下文对它做了什么。读者偶尔会跟我说,看过这一页之后,他们再去想 LLM,想法就不一样了。

如果让我把这一章浓缩成一句话:Transformer 是一台机器,里头每个 token 都看看自己的邻居、吸收邻居的信息、然后把自己稍微聪明一点的版本传下去,这件事一层接一层重复,直到出现一个回答。

能走到这里,你已经走得不错了

读完第 3 章,意味着你已经爬过这本书技术上最高的那座山。嵌入、注意力、摞起来的 Transformer。你已经跨进模型内部,看清里头是怎么流动的。手里有了这张图,接下来所有的章节 — 训练、微调、RAG、智能体、推理模型 — 都会落在一个稳稳的地基上。


明天 — 第 4 章:模型是怎么学的。我们退后一步 — 从"怎么工作"切到"怎么学出来的"。预训练对微调、以及 RLHF 是怎么把一个原始模型变成我们每天用的那位助手。

想看完整的全貌?书里用图带你穿过 Transformer 的流程,展示每一层在变什么 — 不淹在矩阵里,但在需要的地方给出该有的精度。在亚马逊查看《LLM Primer I》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。