第 3 章 — 文本在模型里是怎么流动的

LLM Primer I: How Generative AI Works 章节走读的第三篇。整本书里我最喜欢的章节之一 — 我们进到里面去看,token 跨过门以后到底经历了什么。

"单词变成向量"是什么意思

真正有意思的地方从这里开始。token 进入模型的那一刻,它就不再是字符了。每个 token 变成一段几百个维度的数字序列 — 一个嵌入(embedding)。

为什么这么费事?因为这段数字以某种方式承载着这个 token 的"意义" — 至少是模型能操作的那种意义。在这个空间里,"国王"会落在"王后"的旁边,"巴黎"会落在"法国"的旁边。一个 token 的嵌入承载的信息,比那几个字符多得多 — 它通常和哪些词一起出现、在什么语境下出现、和哪些别的词在行为上相似。

第 3 章会讲嵌入是怎么形成的,更重要的是 — 这一点每次都让人耳目一新 — 它不是一本静态字典。它是被学出来的表示。

一句话总结:嵌入是 token 的身份证。同一个词在不同语境里意思会有微妙的不同,处理这种微妙的起点正是嵌入(再加上后面的注意力)。

注意力 — 改变了一切的那一步

嵌入之后,登场的是把整个领域翻了个底朝天的机制。注意力 — 更准确地说,自注意力(self-attention) — 是这样一个想法:处理某一个 token 的时候,模型可以扫一眼同一段序列里所有别的 token,然后给每一个判断:"为了理解我现在这个 token,你有多重要?"

在注意力出现之前,模型读文本要么一个词一个词地按顺序走。有了注意力以后,任何一个 token 都可以在一个步骤里和任何另一个 token 连起来。

为什么这件事这么重。想象一个句子:"他走进花园,花园已经空了。"要想搞清楚后半句的"它"指的是"他"还是"花园",模型得能在序列之间画一条线。注意力就是让画这条线变成可能的机制。

书里展示注意力的方式不会让你淹在矩阵里。一旦这副脑中画面立起来,后面所有关于 LLM 行为的事情,几乎都能用它来解释。

Transformer — 把同一个积木摞六十次

如果注意力这么管用,那把它简单地摞起来,会怎么样?Transformer 架构就是这么个答案。注意力加上一个简单的位置变换(就是所谓的前馈层)组成一个积木,然后这个积木被摞起来 — 十二层、六十层,在更大的模型里上百层。

每一层把 token 的表示再雕琢一遍,让它更抽象、更跟整段上下文融为一体。书里反复用的那个比喻 — 理解文本是从表面(字)开始,经过语法,到意义,最后到"下一个 token 最可能是哪个" — 用来想象每一层在干什么,挺好用的。

套上这副比喻,一个并不复杂的积木,只是被摞了六十层,怎么就能产生那么多样的行为 — 这件事看上去就没那么神秘了。

重要:Transformer 里没有一个独立的"推理模块",也没有一个独立的"知识模块"。是同一种类型的积木,用同样的方式训练,然后摞起来。它看上去会的那些事情,是从这种简单里冒出来的 — 那种简单里的魅力,我觉得占了一大半。

我写起来最开心的那一段

这一章里有一页我写的时候特别开心 — 那一页用图和文字一起,描绘信息在 Transformer 里是怎么流动的。

我们从输入端的嵌入出发,穿过一层注意力,表示变得更丰富。再穿一层,更丰富。到最后,每一个 token 的表示带的不只是它"是什么",还有整段上下文对它做了什么。读者偶尔会跟我说,看过这一页之后,他们再去想 LLM,想法就不一样了。

如果让我把这一章浓缩成一句话:Transformer 是一台机器,里头每个 token 都看看自己的邻居、吸收邻居的信息、然后把自己稍微聪明一点的版本传下去,这件事一层接一层重复,直到出现一个回答。

能走到这里,你已经走得不错了

读完第 3 章,意味着你已经爬过这本书技术上最高的那座山。嵌入、注意力、摞起来的 Transformer。你已经跨进模型内部,看清里头是怎么流动的。手里有了这张图,接下来所有的章节 — 训练、微调、RAG、智能体、推理模型 — 都会落在一个稳稳的地基上。

明天 — 第 4 章:模型是怎么学的。我们退后一步 — 从"怎么工作"切到"怎么学出来的"。预训练对微调、以及 RLHF 是怎么把一个原始模型变成我们每天用的那位助手。

想看完整的全貌?书里用图带你穿过 Transformer 的流程,展示每一层在变什么 — 不淹在矩阵里,但在需要的地方给出该有的精度。在亚马逊查看《LLM Primer I》→