LLM介绍

本页面为AI爱好者提供从基础到应用的大型语言模型（LLM）指南。

共有30篇文章。 | 当前在第1页，共1页。

第 14 章 — 偏见、公平与责任 AI

LLM Primer VII 章节走读第 14 篇。这一章把责任 AI 当作一门在不确定性下做选择的学科来处理 —— 技术工具让权衡浮出水面,但并不替你解决它。

2026-05-23

第 11 章 — 可观测性、日志与事件响应

LLM Primer VII 章节走读第 11 篇。这一章把日志、告警和事件响应当作那层"把架构性防御变成运营者真的能跑起来的系统"的层。

2026-05-20

第 9 章 — 模型完整性与供应链风险

LLM Primer VII 章节走读第 9 篇。这一章把模型 artefact 当作由第三方分发的二进制来对待 —— 带着二进制分发一直带着的反序列化、后门和出处问题。

2026-05-18

第 8 章 — 针对模型的对抗性攻击

LLM Primer VII 章节走读第 8 篇。这一章追溯对抗性攻击 —— 从 Goodfellow 2014 年的图像分类器工作,一路到 TextFooler、通用后缀,再到针对生产 API 的模型窃取。

2026-05-17

第 15 章 — Serverless API 对比自建基础设施

LLM Primer VI 章节走读第 15 篇。GPU 租金分项决定 token 那道算术;平台工程分项决定这单交易。混合姿态几乎总是对的答案,应用边界那个路由器是承重的那一块。

2026-05-07

第 13 章 — 自动扩缩与冷启动缓解

LLM Primer VI 章节走读第 13 篇。默认 HPA 在 LLM 流量上会造成故障 —— 按队列深度、TTFT、KV 占用扩缩,并用 CRIU 温存快照把冷启动压到 3–6 秒。

2026-05-05

第 10 章 — LLM Engine 层

LLM Primer VI 章节走读第 10 篇。Engine 是把一个模型跑在一块或几块 GPU 上的单节点运行时。vLLM、TensorRT-LLM、SGLang、TGI、Ollama —— 五个 engine 在同一份工作上做的不同机制层面取舍。

2026-05-02

第 4 章 — 专用 AI 芯片与 ASIC

LLM Primer VI 章节走读第 4 篇。选 GPU 还是选 ASIC,是一个关于工作负载形状的问题。这一章给你那副形状 —— Groq LPU、Inferentia2、TPU v5p/v6、Gaudi 3,各自赢在哪里,输在哪里。

2026-04-26

第 3 章 — 面向生成式 AI 的数据中心 GPU

LLM Primer VI 章节走读第 3 篇。挑一块 serving GPU,该看的是 HBM 带宽和 VRAM 容量,而不是数据表正面那个 FLOP/s 数字。这一章走 H100、H200、B200、L40S、MI300X 这五款主流硅片。

2026-04-25

LLM Primer VI — 系列导读与目录

《LLM Primer VI: Scaling AI Systems》章节走读的第一篇。这一卷把 LLM 推理当成一门工程学科:内存带宽、调度、每一美元的账单,在同一块芯片上撞在一起。十六章分成六个部分,一层层走过硬件、模型压缩、运行时、平台和经济学。

2026-04-22

第 8 章 — 性能、部署与成本优化

LLM Primer V 章节走读第 8 篇。把生产 LLM 的经济学当分层学科来做:最便宜的调用是那次没发生的调用,再往下每一层都是让下一次调用变便宜的那一层。语义缓存、动态路由、推理服务器内部的 PagedAttention、连续批处理、推测解码。

2026-04-21

第 4 章 — AI 智能体与工具调用

LLM Primer V 章节走读第 4 篇。把智能体当作一个针对工具循环起来的语言模型来处理:工具 schema、错误合同、以及记忆的写入纪律,是整个系统里杠杆率最高的工程面。ReAct 循环、工具作为合同,以及智能体真正需要的三层记忆。

2026-04-17

LLM Primer V — 系列导读与索引

LLM Primer V 章节走读的系列导读。这一卷把 AI 工程当作一门独立的工程学科来讲,而不是一套 prompt 技巧;八个章节按栈的方式排列 —— 基础模型、prompt、检索、智能体、评估、可观测性、安全、以及部署经济学 —— 一层一层填出包在概率核心外面的确定性外壳。

2026-04-13

第 14 章 — 基准测试、测试与性能

LLM Primer IV 章节走读最后一篇。真 server 上的 MCP-Universe Benchmark、它暴露的两种系统性故障、每请求一会话跟共享会话池之间的十倍吞吐差距,以及通往第 V 卷的桥。

2026-04-12

第 9 章 — 管理注意力预算

LLM Primer IV 章节走读第 9 篇。Context rot、lost-in-the-middle 这一道悬崖、tool-loadout rot,以及对 "模型缺的那一份知识到底该放在哪一层" 的三个架构答案 — MCP、RAG、微调。

2026-04-07

第 7 章 — 高级协作与动态模式

LLM Primer IV 章节走读第 7 篇。Roundtable 共识、handoff 路由、magentic 编排 — 当拓扑要按请求构建时出现的那些模式,以及它们带来的故障模式(不停机、错路由、计划失控)。

2026-04-05

第 5 章 — 传输协议与发现

LLM Primer IV 章节走读第 5 篇。MCP 支持的三种传输,.well-known 这一层发现机制加 Server Card,以及那些无聊的运维问题 — CORS、Origin 校验、缓存 — 决定一个 server 是合作型网络公民还是负债。

2026-04-03

第 2 章 — 揭开 Model Context Protocol(MCP)

LLM Primer IV 章节走读第 2 篇。MCP 到底标准化了什么,Host、Client、Server 三个角色的分工,动态发现和双向消息为什么在那些真正重要的场景里跟 REST 不一样,以及从能力协商开始的会话生命周期。

2026-03-31

第 9 章 — RAG 评测三件套

LLM Primer III 章节走读第九篇。三种不同的故障塌成同一种症状 — 这个领域为此发明了一只三头的度量,终于告诉团队:那个症状对的是哪一种故障。

2026-03-26

第 5 章 — 搭一条检索流水线

LLM Primer III 章节走读第五篇。一次向量搜索是大多数 demo 停下的地方,也是大多数生产故障开始的地方。本章一路走到生成器手里那一组候选,以及每一步存在的理由。

2026-03-22

第 4 章 — 选对向量数据库

LLM Primer III 章节走读第四篇。RAG 系统里长得最快、上量后最贵、把团队锁得最死的那一层 — 用技术指标比着选,用运维条件决定。

2026-03-21

第 2 章 — 智能文档解析

LLM Primer III 章节走读第二篇。检索系统会继承它输入的质量 — 而那个让 RAG 质量平庸的最常见原因,就悄悄住在输入层。PDF 不是文本文件、版面感知解析器把哪些信号放回来,以及让模型直接读页面图像的那一路多模态。

2026-03-19

第 1 章 — RAG 架构的演进

LLM Primer III 章节走读第一篇。基础模型有两条结构性的限 — 知识封冻、来源不可指认 — 居然有同一个架构上的答案,而这个答案,三年里长出了四张脸。

2026-03-18

LLM Primer III — 系列导读与目录

LLM Primer 系列第三本《用 RAG 增强企业级 AI》的章节走读开篇。RAG 从外面看是三只盒子,做下去每一只都是一门独立的学问。十一篇文章,一天一章,把企业级 RAG 那一整套决策摊开来看。

2026-03-17

第11章 — 评估、校准与推理

LLM Primer II 章节走读第十一篇。怎么去衡量一个什么都能说的机器 — 困惑度、校准、benchmark 上那条少有人写的误差线,以及"测量幻觉"那件事的数学。

2026-03-13

第 3 章 — 文本在模型里是怎么流动的

LLM Primer I 章节走读第三篇。token 进了模型之后到底经历了什么 — 嵌入、注意力、Transformer — 不被矩阵淹没,也不丢精度。

2026-02-20

第 1 章 — 所以,大语言模型究竟是什么?

LLM Primer I 章节走读第一篇。"大"、"语言"和"模型"这三个词到底分别意味着什么、从规则系统到神经网络我们是怎么一步步走过来的,以及三个值得尽早摆脱的误解。

2026-02-18

LLM Primer I — 章节走读:序言与目录

LLM Primer I 章节走读的开篇。整本书是怎么搭起来的、每一章给出什么,以及 2 月 18 日到 3 月 1 日这十二篇连载的发布日程。

2026-02-17

1.0 什么是LLM？大规模语言模型的定义与应用

了解大规模语言模型（LLM）的基本定义、工作原理以及其在自然语言处理中的应用。本文介绍了LLM的功能、优势，以及它如何与传统机器学习模型不同。

2024-09-02

大规模语言模型（LLM）全面指南：原理、应用与训练方法

深入探索大规模语言模型（LLM）的世界。本指南涵盖LLM的定义、在自然语言处理（NLP）中的作用、训练方法以及文本生成、翻译、问答系统和代码生成等实际应用。适合希望利用LLM开发创新解决方案的工程师与开发者。

2024-09-01