LLM Primer III — 用 RAG 增强企业级 AI:系列导读与目录
「一个基础模型聪明却不可证。RAG 是那条让它既新鲜又可追溯的路。」欢迎来到 LLM Primer 系列的第三本,以及与它一起走的这一轮章节走读。接下来的十一天,一天一章,我们把检索增强生成这一整套架构剖开,看每一个决定是怎么把企业级 RAG 系统推向悄悄成功或悄悄失败的。
这一本书为什么存在
这个系列的 第一本 和 第二本,把模型本身讲清楚了。第一本是大白话讲 LLM 是什么、怎么搭周边系统;第二本把底下的数学翻了个面。第三本要讲的,是当你真要拿它去处理一直在变的文档、必须能引证的知识、以及绕不开的访问控制时,模型外面那一整圈东西。
RAG 从外面看很简单。一张幻灯片上三只盒子:嵌入、检索、生成。真把它送到生产里的人都清楚,每一只盒子都是一门独立的学问,而从 demo 跑通到法务部肯背书,中间是几个月的工程,要解决的全是 demo 里压根没浮上来的问题。解析器悄悄把表格压扁了。分块器把一个定义和它的限定条件切开了。向量库的过滤下推没基准测试里宣传的那么硬。检索器返回的,是一个没有意义的向量在邻域里的几位自信邻居。评测仪表盘一片绿,底下是一串幻觉。
这本书把这一整堆,一层一层老实地走一遍。每一章就是其中一只盒子背后的那门手艺 — 一个想做正经活的团队,必须答的那几个问题。这本书不承诺「正确架构只有一个」。承诺的是:读到最后,你会知道哪个架构适合你的语料、你的团队、你的监管边界,以及每一根轴上你为之付出的代价。
这本书是写给谁的
在做 RAG 系统的工程师、给 RAG 立项的技术 PM,以及要去安全评审上替这套选型辩护的架构师。这本书假设你对第一本里 LLM 的运作画面是熟的;它不要求你啃过第二本的数学。需要数学的地方,只取它的直觉,不展开推导。重心在工程上:坑会出在哪里、哪些决定是可逆的、哪些一旦下了就锁死好几年。
怎么读
早期读者跑通的三种读法。一,从头到尾按顺序读 — 适合即将动手搭一套企业级 RAG,要按决定真实降临的顺序把全栈走一遍。二,当工具书查 — 你已经有一套在跑、某一层在疼,解析、分块、评测这几章每一篇都能单独立住。三,当架构评审的边栏 — 把章节当成那场对话的提示,在签字给某家厂商之前,这几次对话团队该有。
十一章走读
3 月 18 日 — 第 1 章: RAG 架构的演进。四种架构姿态 — Naive、Advanced、Modular、Agentic — 以及微调什么时候才是比检索更对的那个答案。
3 月 19 日 — 第 2 章: 智能文档解析。为什么把 PDF「压成纯文本」会把要紧的东西全弄丢、版面感知的解析器把哪些信号放回来、以及让模型直接读页面图像的多模态那一路。
3 月 20 日 — 第 3 章: 进阶分块框架。从定长到结构感知这一整条谱、那个被人念叨却被高估的「重叠率」、context cliff,以及把这套算盘重新打过一遍的两项前沿 — 上下文检索和 late chunking。
3 月 21 日 — 第 4 章: 选对向量数据库。专用架构与扩展架构之间的分岔、托管派的几位主角、开源派的阵营,以及真正决定选型的那三根轴 — 数据驻留、运维形态、总成本。
3 月 22 日 — 第 5 章: 搭一条检索流水线。混合检索、reciprocal rank fusion、cross-encoder 重排,以及那一层让用户问法和文档说法之间架桥的查询理解。
3 月 23 日 — 第 6 章: RAG 的威胁模型。语料投毒、对抗性检索、间接 prompt 注入、嵌入反演,以及代理型 RAG 里那位「糊涂代理」。
3 月 24 日 — 第 7 章: 落实访问控制。文档级 ACL、与 Microsoft Purview 标签结合的 RBAC、Zanzibar 与 SpiceDB 的 ReBAC,以及跑在底下的 pre-filter 对 post-filter 的工程纪律。
3 月 25 日 — 第 8 章: RAG 管线里的数据匿名化。生成前还是生成后、掩码 vs 合成替换 vs 差分隐私,以及每一种选法都绕不开的那条「可用性—隐私」折中。
3 月 26 日 — 第 9 章: RAG 评测三件套。Context Relevance、Groundedness、Answer Relevance — 三个互相独立的信号,合起来告诉运营者:系统是检索坏了、生成坏了,还是两者之间那条带子坏了。
3 月 27 日 — 第 10 章: 主流评测框架。RAGAS、TruLens、DeepEval,加上观测平台那一阵营 — 各自擅长什么、指标库和生产平台的分界线在哪、以及那道还没有人合上的「评测鸿沟」。
3 月 28 日 — 第 11 章: 持续更新与流水线优化。CDC 与增量索引、语义缓存与模型分层、以及那条把生产里的遥测真正变成代码改动的四段反馈环。
关于这本书,以及这个系列
LLM Primer 这个系列,是对工程师、创始人和偶尔出现的监管者反复问我的那个问题,我能给出的长一点的答复:这些系统到底怎么跑、要让它撑得住压力得付出什么。第一本给了它的形。第二本给了它的数学。第三本给了它落到生产里的架构。第四本在写,转向 MCP 和模型上方的那一层认知。
明天见,第 1 章。