第 1 章 — AI 集成危机与智能体架构的兴起

发布于: 2026-03-30 最后更新于: 2026-06-12 版本: 1

第 1 章 — AI 集成危机与智能体架构的兴起

LLM Primer IV: Designing AI Cognition with MCP 章节走读的第一篇。2024 年那个主流模式 — 一段长长的 system prompt、几个工具、一个上下文窗口被要求干所有事 — 是怎么按一个可辨识的顺序败下去的,以及它指向的那一层协议,其实整个领域早就在悄悄朝那边走。


这一章为什么存在

差不多两年时间,搭一个 LLM 应用的标准做法是:写一段长长的 system prompt,挂几个工具,管它叫一个 agent。这个做法 demo 是能跑的。它也很守时地,在表面积长大之后崩掉。Prompt 慢慢爬过了六千个 token。工具清单慢慢爬过了四十个。团队打补丁、做审计、跑回归测试,然后某一天发现加新功能这件事比过去贵了不止一个数量级。诊断不是团队偷懒、也不是工程不好。是这个架构强迫所有事都挤在一个共享资源 — 模型的上下文 — 上面,而它底下还藏着一个更深的组合爆炸问题。

这一章按团队实际遇上的顺序走一遍那些故障模式,给每一个起个名字,再把架构上的出路框出来。出路是垫一层协议,让模型和工具不再靠定制胶水互相找到对方,加上一种纪律 — 上下文工程 — 把模型看到的那部分内容当成一份要管的预算,而不是一段随便写的自由文本。这两个想法撑起了后面整本书。

一句话总结:单体智能体之所以败,是因为 prompt 一长注意力就被稀释、专精能力塞不进同一个共享上下文、还有 N 乘 M 的接线问题让每多一个模型或工具就要再花一个季度做集成 — 只有协议层能把这个矩阵塌掉。

1.1 单体智能体的 system prompt 为什么终究会绷不住

第一代生产里的 LLM 应用形状很简单。一段几千 token 的 system prompt 描述角色、工具、约束、口吻、各种边界情况。在窄表面上工作得不错。团队一段一段往里加新功能,这段 prompt 慢慢变成了代码库里最长的单个文件,基本只增不减,因为删任何一行都觉得太冒险。

这段 prompt 在模型内部到底在做什么,用注意力最容易讲清楚。Transformer 在上下文里每一个 token 上都算注意力权重,包括 system prompt 里的每一个 token。一段六千 token 的 prompt 不会被略读 — 它会被平均掉。Prompt 越长,注意力的质量越被摊在跟当前这一步无关的指令上。这个现象有好几个名字:上下文稀释、指令冲突、能力漂移。团队观察到回归,定位不到原因,因为原因是三条新规则和两个 sprint 之前加的一句话之间的相互作用。

工具层会出现一种相关的故障。十个工具的时候模型挑得对;四十个的时候,挑工具的准确率开始掉,有时候掉得很厉害。团队的补丁是加一些消歧的说明,这一加 prompt 又长了,注意力又被稀释了一些。系统这时候已经在跟自己之间形成一个反馈循环。

1.2 专精能力,以及那条往错方向弯的维护曲线

Prompt 问题底下还藏着一个更深的。前沿通用模型是强通才,但通才的表现是在巨大表面上的一个平均,而平均会把悬崖藏起来。法律合同审查、结构化医疗编码、财务对账 — 每一个都有自己内部的术语、自己内部的规则、对错误的容忍度跟通用训练优化的方向不一样。本能反应是靠 prompt 来专精;代价是花掉更多注意力预算换来更少回报。真正的专精想要自己的组件、自己专注的上下文,而单体智能体根本没地方放这种东西。

维护成本也是按错的方向放大的。一个跨四个域、挂着五十个工具的单体智能体,维护负担不是 "一个五工具、一个域" 的十倍 — 它更多,因为每个功能都通过那段共享 prompt 跟所有其他功能耦合。团队的速度被维持现有表面的协调成本决定,而不是被造新东西的成本决定。推理费用按上下文长度算,所以缩 prompt 的经济压力和加 prompt 的工程压力是反向拉的。

1.3 N 乘 M 的集成问题

就算你接受要把它拆开。你现在有 N 个带模型的组件、M 个工具集成。没有共享协议,集成成本就是 N 乘 M — 每个模型都要为每个工具写定制适配代码,每个模型的怪癖跟每个工具的怪癖做笛卡尔积。换一个模型就要重新测所有工具。加一个新工具就要写 N 份适配。

计算机的历史里,这个形状有个名字,这个修法也有个名字。LSP(2016)之前,每个编辑器要跟每种语言做集成 — 编辑器乘语言。LSP 引入了一层协议;矩阵塌成了加法。USB 之前,每一类外设有自己的接口、每一个操作系统出货自带驱动。USB 之后,一个 host、一个 device、中间一层共享协议。Model Context Protocol 就是把同一招用在模型和工具之间。它没消灭适配器;它把它们标准化了。第一个集成更慢;第一百个快了很多;第一千个基本上免费,因为周边的工具链已经积累起来了。整盘棋都在这条累计曲线上。

带发现机制的协议还顺手塌掉了另一个比较安静的矩阵 — 描述矩阵。模型不再需要在启动时就把每一个工具枚举进 system prompt;它可以问协议 "现在有什么能用?" 然后从权威来源 — server 自己 — 收到一份结构化的目录。

1.4 从 prompt 工程到上下文工程

术语的变化跟着架构变。2022 到 2023 年这门手艺叫 prompt 工程 — 找到那种能把模型轻推到想要行为上的措辞。到了 2025 年,prompt 只是众多输入里的一个。模型同时还看到检索来的文档、工具描述、之前的对话轮次、工具结果、scratchpad 笔记、记忆片段。每一步上下文里该放什么,答案不再是措辞。答案是一套架构,按这一轮的情况决定模型现在应该看到什么。

这个术语沉淀下来叫上下文工程。它把上下文窗口当成一份要管理的预算。现在的长上下文模型号称百万 token 窗口,但表现会随着上下文被填满而非线性地退化 — 这个现象有时候被叫做 context rot。一个被塞了百万 token、答案埋在中间的模型,表现往往比同一个模型被塞十千个精挑细选的 token 还差。真正重要的预算不是窗口大小;是模型面前那部分内容里有用信号的密度。

MCP 在某种意义上,就是让上下文工程成为可能的那一层基础设施。协议给了 host 一套机制 — 去问哪些工具、哪些数据源可用,去在对的时机取出相关的那些,去协商模型能调用哪些能力。Host 按当前任务实际需要的东西,在每一轮动态地把上下文搭出来。

值得记住:三种故障模式 — prompt 稀释、丢掉的专精、N 乘 M 的集成 — 指向同一个架构答案。协议层塌掉集成矩阵,发现机制塌掉描述矩阵,而上下文工程在 host 能按每一轮决定模型看到什么之后,才变得可操作。修法不是写更长的 prompt;修法是在它底下垫一层。

第 1 章接下去会怎么走

诊断分三块:单体智能体之所以败,是 prompt 长了稀释注意力;专精能力没法住在一个共享 prompt 里;在两者之下还有 N 乘 M 的集成问题。每一块都指向同一个方向 — 在模型底下垫一层,中介模型和工具怎么互相找到、互相描述、协商各自能做什么。第 2 章把那一层正式介绍出来:MCP 定义的三个角色、那一小套概念原语,以及从显式能力协商开始的会话生命周期。


明天 — 第 2 章:揭开 Model Context ProtocolMCP 是什么、"AI 的 USB-C" 这个说法到底指什么,Host、Client、Server 的三分,以及动态发现和双向消息为什么让 MCP 在那些真正重要的场景里跟 REST API 不一样。

想看完整的全貌?书里用生产环境的 telemetry 走通了每一种故障模式,定量推导了 N 加 M 的规模化论证,还把成熟团队沉淀下来的那一套上下文工程纪律列了出来。在 Amazon 查看 LLM Primer IV →

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。