第 1 章 — 所以,大语言模型究竟是什么?

发布于: 2026-02-18 最后更新于: 2026-06-05 版本: 1

第 1 章 — 所以,大语言模型究竟是什么?

LLM Primer I: How Generative AI Works 章节走读的第一篇。我们从最开头开始 — 在所有其他事情之前,先看看那个标签底下藏着什么。


一个看似简单的问题

把"LLM 是什么?"这个问题抛给一百个人,你会拿到一百种说法。"那是 AI 嘛。""聊天机器人吧。""一个会说话的搜索引擎。""昨晚帮我写报告那个东西。"每一个都不算完全错,但每一个谈的都是 LLM 做什么,而不是 LLM 是什么。

第 1 章正是要谈后者。大部分入门读物会跳过这个问题,而营销文案则会故意把它打雾。但跳过这一步代价不小:跳过之后,你后面遇到的任何关于 LLM 的说法,都很难再清楚地评估。

一句话总结:大语言模型,就是一台用来猜"文本里下一个会是什么"的机器。仅此而已。所有看上去更厉害的东西,都是把这一个简单的猜测,以极高的精度,连着重复几十亿次的副产品。

把三个字认真拆开

书一开头就把"大语言模型"这五个字逐个拆开看。这件事值得做,因为缩成一个词组之后,每个字背后的分量就藏起来了。

大,不是说物理上大。是说系统内部有几十亿个数值参数,在训练过程中被反复调整。还说训练用到的文本和算力的体量也是巨大的。而且这三件事 — 参数、数据、算力 — 不是各自独立地起作用。要让模型真的变得更聪明,这三者得一块儿往上长。只把其中一个翻倍,通常只能换回一个泄气的结果。

语言,看上去是这三个字里最理所当然的一个,但在这里它带着特殊含义。模型并不是用人类的方式理解语法或者意义。它工作的对象是"token"——比单词更小的一块。从模型的视角看,任何 prompt 最终都变成一串数字,任何回答也都是"下一个数字、再下一个、再下一个……"。

模型,是三个字里最容易被误会的。这里不是事实数据库,也不是"知道"什么的人。这里指的是一个训练完成的数学函数 — 一个模式识别器 — 给定一段文本,它给出最可能的后续。当 LLM 看起来"知道"法国的首都时,它没有在查什么。它只是输出"巴黎",因为在剩下的上下文里,"巴黎"是最可能的下一个 token。

这个区分不是细节。LLM 为什么会幻觉、为什么会自信地说错话、为什么写出来的句子流畅但事实上不靠谱 — 全部能从这里说清。书里我会反复回到这副镜片 — 在我所有的工具里,它是预测 LLM 行为的最好的那个。

用一段话讲完我们是怎么走到今天的

第 1 章也会顺手看一眼历史。现代的 LLM,只是一部已经放了几十年的电影里的最新一帧。很长时间里,计算机处理语言要么靠人手写的语法规则,要么靠数书里某些词组共现的频率。两条路都在某处撞了墙。转折发生在 — 有人决定不再去教规则,而是直接让机器从非常非常多的文本里自己学规律。LLM 这个想法的根,比大多数人以为的要早得多。新的,是它现在正在跑的那个规模。

那个改变了一切的具体架构转折,放在第 3 章和第 4 章再讲。但有一句话值得现在就写下来:从"数频次"到"学规律"这一步,是自然语言处理历史上最大的分水岭。看清楚这一步,后面发生的事情就顺理多了。

三个值得正面碰一下的误解

章末我会认真处理三个关于 LLM 行为的、特别顽固的误解。说"认真",是因为每一个误解只要你信了,你对"我到底能信它多少"的感觉就会整个跑偏。

第一,认为 LLM 像人一样在"理解"。不是。输出之所以看着像理解,是因为它学的是那些真的在理解的人写的文字。第二,认为 LLM 是一个事实数据库。不是。事实是分布在几十亿个权重里的 — 所以模型才能毫无内部不适地说出"听起来对、其实不对"的话。第三,认为模型越大就一定越聪明。不一定。规模要和数据质量、训练目标、架构一起看。你手边最大的那个模型,未必就是该选的那个。事情比这复杂。

值得记住:"一个听起来很自信的 LLM"和"一个回答正确的 LLM"是两回事。流畅和正确出自同一个机制,但受不同的约束。

第 1 章会留下什么

章末时,你应该能用自己的话说清 LLM 是什么、不是什么。你也会拿到一份对这个领域历史的直觉,以及一组识别常见误解的筛子。对一章来说,这已经不少 — 而正是这一层底,让接下来读这本书走得动。

就算你只读完第 1 章就停下,你聊起 LLM 来也会比新闻标题准确得多。光这一点,我觉得也对得起这一章的票价。


明天 — 第 2 章:概率、token 和文本。我们看 token 到底是什么、为什么模型本质上是一台概率机器,以及它做的那唯一一件事 — 预测下一个 token — 怎么撑起来我们从它身上看到的全部多样性。

想看完整的全貌?书里把这一篇的每一条线都展开 — 配图、"用大白话讲"侧边栏,以及在需要的地方给出该有的技术精度。在亚马逊查看《LLM Primer I》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。