第 10 章 — 多模态:走出文本

发布于: 2026-02-27 最后更新于: 2026-06-05 版本: 1

第 10 章 — 多模态:走出文本

LLM Primer I: How Generative AI Works 章节走读的第十篇。文本不再是唯一的输入 — 图像和音频也进了同一个模型。


"同一个模型也看图"是什么意思

面对一个多模态模型,自然会想问:同一个模型怎么能同时处理文本、图像、音频?其实答案,在前面几章铺垫之后,比看上去简单。因为不管什么输入,最后都变成了"一串 token",而 token 又变成了"嵌入"。

第 3 章那个画面再次回来。模型里头,token 都是几百维的数字序列(嵌入)。这些嵌入是从文本来、从图像来、还是从音频来 — 一旦进了模型,大体上不再决定后面怎么走。Transformer 用同一种注意力机制处理它们三个。

一句话总结:多模态不是"几个模型并排放"。它是把不同类型的输入,汇聚到同一个嵌入空间里。在这种汇聚下,一个模型才开始能"什么都看"。

图像是怎么"被分词"的

怎么把一张图变成一串 token?最成熟的路是 vision transformer(ViT) — 把图切成一个个小方块(patch),每个 patch 当成一个 token。一张图就变成一把 patch token。它们用同样的注意力机制相互看,模型从这种互看里吸进整张图的形状。

有意思的是,文本 token 和图像 token 可以肩并肩走在同一个上下文里。你把一句话和一张图一起送进去,注意力可以自由地在两者之间画线。

音频

音频走的是类似的路。短时间片段被转成嵌入,塞进上下文。大形状不变:不管什么输入,最后都汇到同一个嵌入空间。

有了这层结构,同一个模型就能在一次互动里同时回答"读出这张照片上的字"、"这段录音的语气是什么"、"用一句话概括这段视频的走向"。

多模态的强项和边界

强项是融合得自然。你给一张图,问一句话 — 模型把两件事缝起来。换在手工搭建里,这会是一个挺复杂的流水线,这里压缩成一次调用。

边界,老实说:文本仍然是地基,而模型对文本的能力最深。图像的大轮廓能抓住,细节 — 小字、精确位置、精确数字 — 不总是抓得对。音频也是:大走向和语气能抓住,细微之处还有一段路要走。

重要:"多模态 = 什么都看"是头条话术。把多模态模型用好,意味着老实承认每种模态各自还会失手的地方,只在模型真正强的地方依赖它。

第 10 章那条主线

这章留下的话是:多模态的核心是"把不同输入汇聚到同一个嵌入空间"。这一句话进了脑子,后来出现的视频模型也好、新的语音模型也好,都能落到同一张心智图上,不会让你手忙脚乱。


明天 — 第 11 章:更小的模型,更聪明的模型。我们走进效率这块地。蒸馏、量化、MoE — 还有新的 §11.6,整节讲推理模型。

想看完整的全貌?书里把 vision transformer 和音频 token 化的机制配图讲完。在亚马逊查看《LLM Primer I》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。