第 1 章 — 所以,大语言模型究竟是什么?
LLM Primer I: How Generative AI Works 章节走读的第一篇。我们从最开头开始 — 在所有其他事情之前,先看看那个标签底下藏着什么。
一个看似简单的问题
把"LLM 是什么?"这个问题抛给一百个人,你会拿到一百种说法。"那是 AI 嘛。""聊天机器人吧。""一个会说话的搜索引擎。""昨晚帮我写报告那个东西。"每一个都不算完全错,但每一个谈的都是 LLM 做什么,而不是 LLM 是什么。
第 1 章正是要谈后者。大部分入门读物会跳过这个问题,而营销文案则会故意把它打雾。但跳过这一步代价不小:跳过之后,你后面遇到的任何关于 LLM 的说法,都很难再清楚地评估。
把三个字认真拆开
书一开头就把"大语言模型"这五个字逐个拆开看。这件事值得做,因为缩成一个词组之后,每个字背后的分量就藏起来了。
大,不是说物理上大。是说系统内部有几十亿个数值参数,在训练过程中被反复调整。还说训练用到的文本和算力的体量也是巨大的。而且这三件事 — 参数、数据、算力 — 不是各自独立地起作用。要让模型真的变得更聪明,这三者得一块儿往上长。只把其中一个翻倍,通常只能换回一个泄气的结果。
语言,看上去是这三个字里最理所当然的一个,但在这里它带着特殊含义。模型并不是用人类的方式理解语法或者意义。它工作的对象是"token"——比单词更小的一块。从模型的视角看,任何 prompt 最终都变成一串数字,任何回答也都是"下一个数字、再下一个、再下一个……"。
模型,是三个字里最容易被误会的。这里不是事实数据库,也不是"知道"什么的人。这里指的是一个训练完成的数学函数 — 一个模式识别器 — 给定一段文本,它给出最可能的后续。当 LLM 看起来"知道"法国的首都时,它没有在查什么。它只是输出"巴黎",因为在剩下的上下文里,"巴黎"是最可能的下一个 token。
这个区分不是细节。LLM 为什么会幻觉、为什么会自信地说错话、为什么写出来的句子流畅但事实上不靠谱 — 全部能从这里说清。书里我会反复回到这副镜片 — 在我所有的工具里,它是预测 LLM 行为的最好的那个。
用一段话讲完我们是怎么走到今天的
第 1 章也会顺手看一眼历史。现代的 LLM,只是一部已经放了几十年的电影里的最新一帧。很长时间里,计算机处理语言要么靠人手写的语法规则,要么靠数书里某些词组共现的频率。两条路都在某处撞了墙。转折发生在 — 有人决定不再去教规则,而是直接让机器从非常非常多的文本里自己学规律。LLM 这个想法的根,比大多数人以为的要早得多。新的,是它现在正在跑的那个规模。
那个改变了一切的具体架构转折,放在第 3 章和第 4 章再讲。但有一句话值得现在就写下来:从"数频次"到"学规律"这一步,是自然语言处理历史上最大的分水岭。看清楚这一步,后面发生的事情就顺理多了。
三个值得正面碰一下的误解
章末我会认真处理三个关于 LLM 行为的、特别顽固的误解。说"认真",是因为每一个误解只要你信了,你对"我到底能信它多少"的感觉就会整个跑偏。
第一,认为 LLM 像人一样在"理解"。不是。输出之所以看着像理解,是因为它学的是那些真的在理解的人写的文字。第二,认为 LLM 是一个事实数据库。不是。事实是分布在几十亿个权重里的 — 所以模型才能毫无内部不适地说出"听起来对、其实不对"的话。第三,认为模型越大就一定越聪明。不一定。规模要和数据质量、训练目标、架构一起看。你手边最大的那个模型,未必就是该选的那个。事情比这复杂。
第 1 章会留下什么
章末时,你应该能用自己的话说清 LLM 是什么、不是什么。你也会拿到一份对这个领域历史的直觉,以及一组识别常见误解的筛子。对一章来说,这已经不少 — 而正是这一层底,让接下来读这本书走得动。
就算你只读完第 1 章就停下,你聊起 LLM 来也会比新闻标题准确得多。光这一点,我觉得也对得起这一章的票价。
明天 — 第 2 章:概率、token 和文本。我们看 token 到底是什么、为什么模型本质上是一台概率机器,以及它做的那唯一一件事 — 预测下一个 token — 怎么撑起来我们从它身上看到的全部多样性。