LLM介绍

本页面为AI爱好者提供从基础到应用的大型语言模型（LLM）指南。

共有78篇文章。 | 当前在第1页，共2页。

第 17 章 — 未来威胁与新兴防御

LLM Primer VII 章节走读的第 17 篇,也是本卷和 LLM Primer 系列的收官之作。走看那些还在成形中的学科 —— 自主智能体、多模态攻击面、合成身份,以及 2026 年中期 AI 对 AI 的军备竞赛。

2026-05-26

第 16 章 — 安全的微调与适配

LLM Primer VII 章节走读第 16 篇。这一章把微调后的模型当作一份"必须去挣、不是继承来的"安全性质的 artefact —— 因为教域内术语的同一步梯度,也能侵蚀基础模型带来的对齐。

2026-05-25

第 15 章 — 构建一个安全的 AI 组织

LLM Primer VII 章节走读第 15 篇。这一章把安全文化、红队、供应商风险和长期管理,当作那份跨年承载这门学科的组织基础设施。

2026-05-24

第 14 章 — 偏见、公平与责任 AI

LLM Primer VII 章节走读第 14 篇。这一章把责任 AI 当作一门在不确定性下做选择的学科来处理 —— 技术工具让权衡浮出水面,但并不替你解决它。

2026-05-23

第 13 章 — 监管全景

LLM Primer VII 章节走读第 13 篇。这一章把仍在整合中的、多元的监管全景,映射到前面几章开发出来的技术控制上。

2026-05-22

第 12 章 — 访问控制与身份

LLM Primer VII 章节走读第 12 篇。这一章回答那个组合性的问题 —— 谁被允许调用一个 LLM 集成应用的哪种能力,以及执法如何跨系统的各组件构建。

2026-05-21

第 11 章 — 可观测性、日志与事件响应

LLM Primer VII 章节走读第 11 篇。这一章把日志、告警和事件响应当作那层"把架构性防御变成运营者真的能跑起来的系统"的层。

2026-05-20

第 10 章 — 设计安全的 LLM 架构

LLM Primer VII 章节走读第 10 篇。这一章把架构当作首要安全学科来处理 —— 因为一个概率组件最安全的配置,是那种爆炸半径由结构而不是由组件自己的克制来限定的配置。

2026-05-19

第 9 章 — 模型完整性与供应链风险

LLM Primer VII 章节走读第 9 篇。这一章把模型 artefact 当作由第三方分发的二进制来对待 —— 带着二进制分发一直带着的反序列化、后门和出处问题。

2026-05-18

第 8 章 — 针对模型的对抗性攻击

LLM Primer VII 章节走读第 8 篇。这一章追溯对抗性攻击 —— 从 Goodfellow 2014 年的图像分类器工作,一路到 TextFooler、通用后缀,再到针对生产 API 的模型窃取。

2026-05-17

第 7 章 — 幻觉与可靠性

LLM Primer VII 章节走读第 7 篇。这一章把可靠性作为安全性质来处理 —— 因为在结果依赖于正确性的时候,一份自信的错误输出就是一个安全问题。

2026-05-16

第 6 章 — 检索增强生成的风险

LLM Primer VII 章节走读第 6 篇。这一章把检索语料看作一条不受信任的输入通道 —— 因为在模型眼里,每一份被索引的文档都是一条和用户提问平起平坐的指令。

2026-05-15

第 5 章 — 输入验证与输出过滤

LLM Primer VII 章节走读第 5 篇。这一章把第 4 章的分层缓解框架变成操作纪律 —— 清洗阶段、护栏工具、结构化输出、红队,以及说得清楚的安全指标。

2026-05-14

第 4 章 — Prompt Injection 与 Jailbreak

LLM Primer VII 章节走读第 4 篇。位于 LLM 安全实操问题正中央的这一章 —— 解释为什么 prompt injection 没有一个类似参数化查询那样的结构性修复,只有分层的、部分的防御。

2026-05-13

第 3 章 — 数据安全与隐私

LLM Primer VII 章节走读第 3 篇。这一章把数据当作一份有生命周期的资产来处理 —— 从被模型部分记住的训练语料,到 Samsung 工程师在这个事件还没被命名之前粘进 ChatGPT 的那些代码。

2026-05-12

第 2 章 — LLM 系统的威胁建模

LLM Primer VII 章节走读第 2 篇。这一章把 Shostack 的四个问题、STRIDE、PASTA 和 MITRE ATLAS 应用到一个系统上 —— 其最强的组件把所有输入都读作潜在指令。

2026-05-11

第 1 章 — 为什么 AI 安全和以往不同

LLM Primer VII 章节走读第 1 篇。这一章要论证的是:AI 安全不是给传统安全前面加一个 ML 形容词 —— 底座变了,后面每一章都是这个变化的直接推论。

2026-05-10

LLM Primer VII — 系列引言与索引

《LLM Primer VII: AI Security》章节走读的系列引言与索引 —— LLM Primer 系列的收官之作,把七卷的工程弧线落到那门决定这一切能否在对手、监管者和概率系统日常故障模式面前存活下来的学科。

2026-05-09

第 16 章 — 生产环境的降本策略

LLM Primer VI 章节走读收官篇。六个正交动作 —— 路由、压缩、批量、缓存、prompt 审计、输出预算 —— 复利叠加到只剩上个月账单的 20%,而用户什么都不会察觉。

2026-05-08

第 15 章 — Serverless API 对比自建基础设施

LLM Primer VI 章节走读第 15 篇。GPU 租金分项决定 token 那道算术;平台工程分项决定这单交易。混合姿态几乎总是对的答案,应用边界那个路由器是承重的那一块。

2026-05-07

第 14 章 — Token 经济学与 API 定价

LLM Primer VI 章节走读第 14 篇。为什么输出比输入贵 4–8 倍。输入输出混合决定优化杠杆的方向。上下文累积和看不见的 reasoning token 是账单上最贵的两个隐藏项。

2026-05-06

第 13 章 — 自动扩缩与冷启动缓解

LLM Primer VI 章节走读第 13 篇。默认 HPA 在 LLM 流量上会造成故障 —— 按队列深度、TTFT、KV 占用扩缩,并用 CRIU 温存快照把冷启动压到 3–6 秒。

2026-05-05

第 12 章 — 拆分部署与 Kubernetes

LLM Primer VI 章节走读第 12 篇。把 prefill 和 decode 拆到不同 GPU 池,让每一池按自己的工作负载调优。LeaderWorkerSet、Grove PodCliqueSet、KAI Scheduler —— 表达这次拆分的 Kubernetes 原语。

2026-05-04

第 11 章 — 平台与编排层

LLM Primer VI 章节走读第 11 篇。平台的选择不是关于功能,而是关于哪一种运营模型贴合团队的 ops 文化。Ray Serve、KServe、BentoML、Triton —— 四种 CRD、Python actor、Bento、模型仓库,分别匹配不同的 ops grain。

2026-05-03

第 10 章 — LLM Engine 层

LLM Primer VI 章节走读第 10 篇。Engine 是把一个模型跑在一块或几块 GPU 上的单节点运行时。vLLM、TensorRT-LLM、SGLang、TGI、Ollama —— 五个 engine 在同一份工作上做的不同机制层面取舍。

2026-05-02

第 9 章 — 投机解码

LLM Primer VI 章节走读第 9 篇。原来自回归的顺序瓶颈里藏着一个数学漏洞:先猜再验。EAGLE、Medusa、Lookahead、MTP —— 以及投机什么时候真的划算的那道算术。

2026-05-01

第 8 章 — 新一代 KV Cache 管理

LLM Primer VI 章节走读第 8 篇。把 KV cache 当成分页虚拟内存来管理:小 block、page table、引用计数共享 —— continuous batching 那道内存债就还得起。PagedAttention、H2O、InfiniGen、前缀缓存。

2026-04-30

第 7 章 — 进阶 Batching 策略

LLM Primer VI 章节走读第 7 篇。Batching 不是一项优化,是让带宽受限 decoding 变得经济可行的那个决定性动作。从静态 batching 到 continuous batching,再到 chunked prefill —— 以及后者留给 KV cache 的债务。

2026-04-29

第 6 章 — 剪枝与知识蒸馏

LLM Primer VI 章节走读第 6 篇。剪枝直接砍掉参与相乘的权重数量;蒸馏把大教师的行为迁到更小的学生上。Hopper 上的 2:4 稀疏、KL 蒸馏、MiniLLM 的反向 KL,以及三种压缩叠加的顺序。

2026-04-28

第 5 章 — 拆解量化

LLM Primer VI 章节走读第 5 篇。为什么 70B 模型能扛得住 4-bit 量化,而 1B 模型不能。AWQ、GPTQ、SmoothQuant、GGUF 各自在做什么,以及那份能上生产的校准纪律。

2026-04-27

第 4 章 — 专用 AI 芯片与 ASIC

LLM Primer VI 章节走读第 4 篇。选 GPU 还是选 ASIC,是一个关于工作负载形状的问题。这一章给你那副形状 —— Groq LPU、Inferentia2、TPU v5p/v6、Gaudi 3,各自赢在哪里,输在哪里。

2026-04-26

第 3 章 — 面向生成式 AI 的数据中心 GPU

LLM Primer VI 章节走读第 3 篇。挑一块 serving GPU,该看的是 HBM 带宽和 VRAM 容量,而不是数据表正面那个 FLOP/s 数字。这一章走 H100、H200、B200、L40S、MI300X 这五款主流硅片。

2026-04-25

第 2 章 — KV Cache 的挑战

LLM Primer VI 章节走读第 2 篇。KV cache 是 serving 系统里最大的显存消费者。这一章走那道决定它大小的公式、MHA/GQA/MQA 三种架构选择,以及那道毁掉并发的碎片化问题。

2026-04-24

第 1 章 — Token 生成的机制

LLM Primer VI 章节走读第 1 篇。这一章说的是:LLM serving 里几乎每一个难题都能追溯到同一件事 —— 生成每一个 token 的那个循环是内存带宽受限的,你花大价钱买的算力有 99.7% 的时间在空转。

2026-04-23

LLM Primer VI — 系列导读与目录

《LLM Primer VI: Scaling AI Systems》章节走读的第一篇。这一卷把 LLM 推理当成一门工程学科:内存带宽、调度、每一美元的账单,在同一块芯片上撞在一起。十六章分成六个部分,一层层走过硬件、模型压缩、运行时、平台和经济学。

2026-04-22

第 8 章 — 性能、部署与成本优化

LLM Primer V 章节走读第 8 篇。把生产 LLM 的经济学当分层学科来做:最便宜的调用是那次没发生的调用,再往下每一层都是让下一次调用变便宜的那一层。语义缓存、动态路由、推理服务器内部的 PagedAttention、连续批处理、推测解码。

2026-04-21

第 7 章 — LLM 安全与护栏

LLM Primer V 章节走读第 7 篇。给 LLM 应用引入的那条新安全轴取一个名字 —— 控制哪些指令能到达模型、从哪里来、带着多少权限 —— 再围绕它搭起四层缓解矩阵。原则:权限必须匹配来源的信任度。

2026-04-20

第 5 章 — LLM 应用的评估

LLM Primer V 章节走读第 5 篇。承认 assertEqual 在 LLM 输出上已经死掉,再围绕锚点法官、RAG 三角、智能体轨迹测试,把测试纪律重新搭起来 —— 把随机输出变成能守得住的通过/不通过信号。

2026-04-18

第 4 章 — AI 智能体与工具调用

LLM Primer V 章节走读第 4 篇。把智能体当作一个针对工具循环起来的语言模型来处理:工具 schema、错误合同、以及记忆的写入纪律,是整个系统里杠杆率最高的工程面。ReAct 循环、工具作为合同,以及智能体真正需要的三层记忆。

2026-04-17

第 3 章 — 检索增强生成

LLM Primer V 章节走读第 3 篇。走完 RAG 五阶段管道 —— 加载、切分、embedding、检索、生成 —— 顺带把 demo 阶段的 RAG 和真正扛得住真实语料的生产 RAG 分开:混合检索加重排器、结构感知加语义组合的切分,以及按 query 派发的变换路由。

2026-04-16

第 2 章 — 基础模型与 prompt 工程

LLM Primer V 章节走读第 2 篇。把 prompt 工程当工程来做:版本化的模板、防御性分隔符、结构化输出,而不是靠感觉打分的手艺。模型选型、采样参数、prompt 剖面、结构化输出 —— 这四个控制面要么被主动操作,要么就接受后果。

2026-04-15

第 1 章 — AI 工程这门学科

LLM Primer V 章节走读第 1 篇。demo 到生产之间那道可靠性鸿沟不是模型问题,而是工程问题 —— 而这份工程有自己的名字:围绕概率式核心构建一层确定性外壳,再把可靠性、质量、性能、成本、演进这五根柱子一根根立起来。

2026-04-14

LLM Primer V — 系列导读与索引

LLM Primer V 章节走读的系列导读。这一卷把 AI 工程当作一门独立的工程学科来讲,而不是一套 prompt 技巧;八个章节按栈的方式排列 —— 基础模型、prompt、检索、智能体、评估、可观测性、安全、以及部署经济学 —— 一层一层填出包在概率核心外面的确定性外壳。

2026-04-13

第 14 章 — 基准测试、测试与性能

LLM Primer IV 章节走读最后一篇。真 server 上的 MCP-Universe Benchmark、它暴露的两种系统性故障、每请求一会话跟共享会话池之间的十倍吞吐差距,以及通往第 V 卷的桥。

2026-04-12

第 13 章 — 框架与云集成

LLM Primer IV 章节走读第 13 篇。配 Bedrock 的 Strands、AWS 状态层模式、Microsoft Agent Framework、LangChain、Semantic Kernel — 以及团队各自独立到达的三种生产集成形态。

2026-04-11

第 12 章 — 协议加固与防御

LLM Primer IV 章节走读第 12 篇。四簇防御 — 密码学背书、OAuth scope 纪律加有界会话、运行时沙箱、人工审批门 — 组合成一种不依赖模型在对抗条件下行为正确的安全姿态。

2026-04-10

第 11 章 — 攻击面与协议漏洞

LLM Primer IV 章节走读第 11 篇。被改造到 MCP 上的几个经典攻击 — Confused Deputy、Token Passthrough、Session Hijacking — 围绕能力升级和未认证 sampling 的协议级缺陷,以及让上下文投毒变成结构性问题而不是卫生问题的隐式信任传播。

2026-04-09

第 10 章 — 长时任务记忆

LLM Primer IV 章节走读第 10 篇。通过窗口和 ReAct scratchpad 的短期记忆,通过情景向量和语义存储的长期记忆,以及让 agent 跨小时跨天保持产出的压缩技巧。

2026-04-08

第 9 章 — 管理注意力预算

LLM Primer IV 章节走读第 9 篇。Context rot、lost-in-the-middle 这一道悬崖、tool-loadout rot,以及对 "模型缺的那一份知识到底该放在哪一层" 的三个架构答案 — MCP、RAG、微调。

2026-04-07

第 8 章 — 架构部署形态

LLM Primer IV 章节走读第 8 篇。MCP 生态里浮现出来的三种部署形态 — 可复用 agent、严格纯净、混合 — 以及决定哪一种适合哪个项目的四条约束。

2026-04-06

第 1 页，共 2 页