第 10 章 — 多模态:走出文本

LLM Primer I: How Generative AI Works 章节走读的第十篇。文本不再是唯一的输入 — 图像和音频也进了同一个模型。

"同一个模型也看图"是什么意思

面对一个多模态模型,自然会想问:同一个模型怎么能同时处理文本、图像、音频?其实答案,在前面几章铺垫之后,比看上去简单。因为不管什么输入,最后都变成了"一串 token",而 token 又变成了"嵌入"。

第 3 章那个画面再次回来。模型里头,token 都是几百维的数字序列(嵌入)。这些嵌入是从文本来、从图像来、还是从音频来 — 一旦进了模型,大体上不再决定后面怎么走。Transformer 用同一种注意力机制处理它们三个。

一句话总结:多模态不是"几个模型并排放"。它是把不同类型的输入,汇聚到同一个嵌入空间里。在这种汇聚下,一个模型才开始能"什么都看"。

怎么把一张图变成一串 token?最成熟的路是 vision transformer(ViT) — 把图切成一个个小方块(patch),每个 patch 当成一个 token。一张图就变成一把 patch token。它们用同样的注意力机制相互看,模型从这种互看里吸进整张图的形状。

有意思的是,文本 token 和图像 token 可以肩并肩走在同一个上下文里。你把一句话和一张图一起送进去,注意力可以自由地在两者之间画线。

音频走的是类似的路。短时间片段被转成嵌入,塞进上下文。大形状不变:不管什么输入,最后都汇到同一个嵌入空间。

有了这层结构,同一个模型就能在一次互动里同时回答"读出这张照片上的字"、"这段录音的语气是什么"、"用一句话概括这段视频的走向"。

强项是融合得自然。你给一张图,问一句话 — 模型把两件事缝起来。换在手工搭建里,这会是一个挺复杂的流水线,这里压缩成一次调用。

边界,老实说:文本仍然是地基,而模型对文本的能力最深。图像的大轮廓能抓住,细节 — 小字、精确位置、精确数字 — 不总是抓得对。音频也是:大走向和语气能抓住,细微之处还有一段路要走。

重要:"多模态 = 什么都看"是头条话术。把多模态模型用好,意味着老实承认每种模态各自还会失手的地方,只在模型真正强的地方依赖它。

这章留下的话是:多模态的核心是"把不同输入汇聚到同一个嵌入空间"。这一句话进了脑子,后来出现的视频模型也好、新的语音模型也好,都能落到同一张心智图上,不会让你手忙脚乱。

明天 — 第 11 章:更小的模型,更聪明的模型。我们走进效率这块地。蒸馏、量化、MoE — 还有新的 §11.6,整节讲推理模型。

想看完整的全貌?书里把 vision transformer 和音频 token 化的机制配图讲完。在亚马逊查看《LLM Primer I》→