第11章 — 评估、校准与推理

发布于: 2026-03-13 最后更新于: 2026-06-06 版本: 2

第11章 — 评估、校准与推理

LLM Primer II: Language Models Through Mathematics 章节走读的第十一篇。这一章里,我们要问:怎么去衡量一个什么都能说的机器 — 然后会发现,一个看上去很自信的模型,往往是一个校准很差的模型。


那个最后变成数学的问题

在第二部分我们造了模型,在第三部分训练了它,在第 10 章对齐了它。怎么知道这一切到底有没有真的起作用?这听上去像一个软问题。它其实是这个领域里最难、也最数学化的问题之一,因为一个语言模型几乎可以产出任何文本,而"好"这件事抗拒被定义。

11.1 困惑度

最基础的那把尺子,不需要人 — 它直接从训练目标里掉出来。算一下模型给一个保留测试集分配的概率,逐 token 取几何平均、再取指数,就是 困惑度(perplexity)— 模型平均"惊讶程度"被换算成一个有效的"分叉因子"。便宜、客观、自动。它对实际场景里几乎所有要紧的事都视而不见:有用、真、安全。它在不同分词器之间也不可比。这一章还讲了 BLEU、ROUGE、代码执行率、judge-model 打分 — 每一种都有它已知的失灵方式。

一句话总结:困惑度是那把便宜的内在尺。它对"预测"这件事老实,对剩下的一切都沉默。

11.2 校准

一个模型 校准良好,意思是它的自信和准确率对得上 — 当它说"我有八成把握"的时候,它大约真的有八成是对的。这不是准确率。一个模型可以又准又过自信,也可以不准但老实。任何高风险场景下,校准和准确率一样要紧。

怎么测?可靠性图:按"声明的自信"分桶,每桶里看准确率。一个完全校准的模型踩在对角线上;最常见的情况是凸到对角线下面(过自信)。汇总指标:Expected Calibration Error(ECE)温度缩放 — 把 logits 除以一个学到的标量 — 是一个简单又好用的事后补救。有意思的是,RLHF 经常把校准弄差。

11.3 benchmark 的不确定性

当一个模型"在某个 benchmark 上拿了 87 分",少问的那个问题是:87% 加减多少?在 50% 附近、n 个问题上,准确率的标准误大概是 1/(2√n)。n=1000 时,这大约是 1.6 个百分点 — 也就是说,一个 87 分和一个 85 分,未必真的不一样。复合的危险还有两个:多重比较(在足够多的模型和足够多的 benchmark 上测,总有几个"凑巧"看上去更好)和 数据污染(如果 benchmark 题混进了训练数据,那分数测的是记忆)。这一节是 AI 新闻最该读的那一节。

11.4 幻觉与检索几何

幻觉 — 自信地说出错的话 — 是最定义 LLM 边界的那个失败模式,也是最难测量的,因为它需要判断"真"。忠实度(faithfulness)指标测的是:一个回答里的每一句话,是不是真的能从提供的材料里推出来。

压制幻觉的最主力工具,是 检索增强生成(retrieval-augmented generation):用真实文档把模型钉住。它最核心的那一步操作,恰好把我们带回到第一部分的几何里 — 在 query 和候选段落的嵌入(第 3 章)上做最大内积搜索。第 3 章的几何,在生产里突然变成了承重墙。

值得记住 — 古德哈特定律:"当一个度量变成目标,它就不再是一个好的度量。"这一章里的每一个指标,一旦你开始拿它当目标去优化,就立刻被腐蚀。逃不掉,只能管 — 不断换新的 benchmark、用多种指标互相印证,在自动化够不到的地方放人进去。

第 11 章给后面铺的路

你走出这一章,手里有"如何老实测量"的一整套工具:困惑度作为内在的尺,校准作为往往比准确率更要紧的那一问,误差线作为对 benchmark 戏剧化的解药,检索几何作为生产里压制幻觉的工具。第三部分到这里结束。从这里起,书转向我们到底能拿这些模型做什么。


明天 — 第 12 章:LLM 的现实世界应用第四部分的第一章。文本生成、摘要、问答、翻译、推理 — 隔着我们现在手里这套数学,每一项各是什么样子。

想看完整的全貌?书里给了可靠性图的推导、ECE 的公式、benchmark 标准误的算法、幻觉的忠实度指标 — 还把这一切接回到第 3 章嵌入几何的那条线上。在亚马逊查看《LLM Primer II》→

下田 昌平
下田 昌平
作为株式会社Receipt Roller的CEO兼CTO,目前负责开发电子收据服务以及自动将对话分类并生成行动任务的系统「ACTIONBRIDGE」。从小便接触编程,1996年参与开发测量仪器的相关程序,始终保持着对技术的深刻探索与热情。 在此前的职业生涯中,曾担任日本最大呼叫中心行业企业的子公司——一家研究开发公司的CEO/CTO,领导了多个技术开发项目。目前,我依然活跃在编程的最前沿,持续书写代码。