第 12 章 — 搭一个 LLM 系统,以及之后

发布于: 2026-03-01 最后更新于: 2026-06-05 版本: 1

第 12 章 — 搭一个 LLM 系统,以及之后

LLM Primer I: How Generative AI Works 章节走读的最后一篇。我们合上这本书,推开通往下一本的门。


从"模型"切到"系统"

从第一页一路走到这里,十一章我们都在往模型内部看。最后一章,镜头拉远 — 我把 LLM 当成"更大的系统里的一个零件"来看。

真实工作里,模型不是单打。它和工具、和 RAG、和评估、和护栏、和监控、和人工把关一起干活。最后送到用户面前的,是整套系统,而整套系统的健康,决定了这件事整体上能不能跑得动。

一句话总结:"哪个模型最好"这个问题,常常没什么答案。"在我系统里的哪个位置,该用哪个模型"这个问题,几乎总有。

评估 — 大部分系统里最缺的那一块

系统的所有零件里,评估是最常被忽略的那一个。要用数据,而不是靠手感,判断这个模型在你这种场景下到底有没有做到它该做的事。

好的评估有三根支柱。一个真正能代表你任务的样本集。自动评分加上定期的人工抽检。还有节奏 — 任何对系统的改动之后,评估会自动重跑一遍。没有这种节奏,"我们改好了"就变成一种信念,信念能撑到撑不住的那一天为止。

护栏 — 在模型会滑倒的地方补上

护栏是模型偏离轨道时把它接住的那些屏障。它不止是过滤敏感内容。它是一整套规则:在什么样的危险输入上拒绝、在什么场合要把推理过程显式给出、在不确定的时候要清楚标出、什么时候要把案件升给人工。

哪些事情交给模型自己判断、哪些事情系统替它判断 — 把这条边界画清楚,正是把那种"能扛真实流量"的系统,和那种"看着漂亮但一遇到边角情况就崩"的系统,分开的关键。

几乎所有系统里都会出现的五种模式

书的最后一章里,我把五种最常碰到的模式收到一起。

朴素的一次调用;一层平直的 RAG;模型加工具;单步或多步智能体;以及多个模型协作。每一种适合不同类型的任务。能对着问题挑出合适的模式 — 这件事和写好 prompt 一样要紧 — 也能让你不至于在一个螺丝刀就能拧的事上抡锤子。

值得记住:不是每个问题都需要最复杂的那种模式。在一次简单调用就够的事情上,不去召唤一个智能体 — 这是运营里最有价值的几条习惯之一。

为什么这本书叫"第 I 卷"

LLM Primer I 是这个系列的第一本。我们在这里铺的是地基 — 模型是怎么工作的、怎么把它缝进一套系统。地基铺好以后,后面会一本一本往深里走。

后续几本 — RAG、智能体、评估与运营、微调与适配、实战多模态、生产系统 — 每一本各挑一块地继续深挖。第 1 卷就是让"深挖"这件事不至于让你受伤。能读到这里的人,后面那些卷应该都能跟得住。

最后一句话

如果让我留一句概括全书的话,那就是:LLM 不神秘。它是一层一层堆起来的工程,堆在一个简单的机制 — 预测下一个 token — 之上。把每一层都用自己的话讲清,以后再出来什么新模型,都能在你这张地图上找到一个不慌张的位置。

谢谢你陪我走到这里。下一本书见。


想把完整的全貌收到一处?书把从机制到运营的所有东西,配着图,串成一次完整阅读。在亚马逊查看《LLM Primer I》→

对那些把这个连载读到最后一页的人 — 再说一次,真的谢谢。


下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。