第 12 章 — 搭一个 LLM 系统,以及之后

LLM Primer I: How Generative AI Works 章节走读的最后一篇。我们合上这本书,推开通往下一本的门。

从"模型"切到"系统"

从第一页一路走到这里,十一章我们都在往模型内部看。最后一章,镜头拉远 — 我把 LLM 当成"更大的系统里的一个零件"来看。

真实工作里,模型不是单打。它和工具、和 RAG、和评估、和护栏、和监控、和人工把关一起干活。最后送到用户面前的,是整套系统,而整套系统的健康,决定了这件事整体上能不能跑得动。

一句话总结:"哪个模型最好"这个问题,常常没什么答案。"在我系统里的哪个位置,该用哪个模型"这个问题,几乎总有。

系统的所有零件里,评估是最常被忽略的那一个。要用数据,而不是靠手感,判断这个模型在你这种场景下到底有没有做到它该做的事。

好的评估有三根支柱。一个真正能代表你任务的样本集。自动评分加上定期的人工抽检。还有节奏 — 任何对系统的改动之后,评估会自动重跑一遍。没有这种节奏,"我们改好了"就变成一种信念,信念能撑到撑不住的那一天为止。

护栏是模型偏离轨道时把它接住的那些屏障。它不止是过滤敏感内容。它是一整套规则:在什么样的危险输入上拒绝、在什么场合要把推理过程显式给出、在不确定的时候要清楚标出、什么时候要把案件升给人工。

哪些事情交给模型自己判断、哪些事情系统替它判断 — 把这条边界画清楚,正是把那种"能扛真实流量"的系统,和那种"看着漂亮但一遇到边角情况就崩"的系统,分开的关键。

书的最后一章里,我把五种最常碰到的模式收到一起。

朴素的一次调用;一层平直的 RAG;模型加工具;单步或多步智能体;以及多个模型协作。每一种适合不同类型的任务。能对着问题挑出合适的模式 — 这件事和写好 prompt 一样要紧 — 也能让你不至于在一个螺丝刀就能拧的事上抡锤子。

值得记住:不是每个问题都需要最复杂的那种模式。在一次简单调用就够的事情上,不去召唤一个智能体 — 这是运营里最有价值的几条习惯之一。

LLM Primer I 是这个系列的第一本。我们在这里铺的是地基 — 模型是怎么工作的、怎么把它缝进一套系统。地基铺好以后,后面会一本一本往深里走。

后续几本 — RAG、智能体、评估与运营、微调与适配、实战多模态、生产系统 — 每一本各挑一块地继续深挖。第 1 卷就是让"深挖"这件事不至于让你受伤。能读到这里的人,后面那些卷应该都能跟得住。

如果让我留一句概括全书的话,那就是:LLM 不神秘。它是一层一层堆起来的工程,堆在一个简单的机制 — 预测下一个 token — 之上。把每一层都用自己的话讲清,以后再出来什么新模型,都能在你这张地图上找到一个不慌张的位置。

谢谢你陪我走到这里。下一本书见。

想把完整的全貌收到一处?书把从机制到运营的所有东西,配着图,串成一次完整阅读。在亚马逊查看《LLM Primer I》→

对那些把这个连载读到最后一页的人 — 再说一次,真的谢谢。