第11章 — 评估、校准与推理

LLM Primer II: Language Models Through Mathematics 章节走读的第十一篇。这一章里,我们要问:怎么去衡量一个什么都能说的机器 — 然后会发现,一个看上去很自信的模型,往往是一个校准很差的模型。

那个最后变成数学的问题

在第二部分我们造了模型,在第三部分训练了它,在第 10 章对齐了它。怎么知道这一切到底有没有真的起作用?这听上去像一个软问题。它其实是这个领域里最难、也最数学化的问题之一,因为一个语言模型几乎可以产出任何文本,而"好"这件事抗拒被定义。

11.1 困惑度

最基础的那把尺子,不需要人 — 它直接从训练目标里掉出来。算一下模型给一个保留测试集分配的概率,逐 token 取几何平均、再取指数,就是 困惑度(perplexity)— 模型平均"惊讶程度"被换算成一个有效的"分叉因子"。便宜、客观、自动。它对实际场景里几乎所有要紧的事都视而不见:有用、真、安全。它在不同分词器之间也不可比。这一章还讲了 BLEU、ROUGE、代码执行率、judge-model 打分 — 每一种都有它已知的失灵方式。

一句话总结:困惑度是那把便宜的内在尺。它对"预测"这件事老实,对剩下的一切都沉默。

11.2 校准

一个模型 校准良好,意思是它的自信和准确率对得上 — 当它说"我有八成把握"的时候,它大约真的有八成是对的。这不是准确率。一个模型可以又准又过自信,也可以不准但老实。任何高风险场景下,校准和准确率一样要紧。

怎么测?可靠性图:按"声明的自信"分桶,每桶里看准确率。一个完全校准的模型踩在对角线上;最常见的情况是凸到对角线下面(过自信)。汇总指标:Expected Calibration Error(ECE)。温度缩放 — 把 logits 除以一个学到的标量 — 是一个简单又好用的事后补救。有意思的是,RLHF 经常把校准弄差。

11.3 benchmark 的不确定性

当一个模型"在某个 benchmark 上拿了 87 分",少问的那个问题是:87% 加减多少?在 50% 附近、n 个问题上,准确率的标准误大概是 1/(2√n)。n=1000 时,这大约是 1.6 个百分点 — 也就是说,一个 87 分和一个 85 分,未必真的不一样。复合的危险还有两个:多重比较(在足够多的模型和足够多的 benchmark 上测,总有几个"凑巧"看上去更好)和 数据污染(如果 benchmark 题混进了训练数据,那分数测的是记忆)。这一节是 AI 新闻最该读的那一节。

11.4 幻觉与检索几何

幻觉 — 自信地说出错的话 — 是最定义 LLM 边界的那个失败模式,也是最难测量的,因为它需要判断"真"。忠实度(faithfulness)指标测的是:一个回答里的每一句话,是不是真的能从提供的材料里推出来。

压制幻觉的最主力工具,是 检索增强生成(retrieval-augmented generation):用真实文档把模型钉住。它最核心的那一步操作,恰好把我们带回到第一部分的几何里 — 在 query 和候选段落的嵌入(第 3 章)上做最大内积搜索。第 3 章的几何,在生产里突然变成了承重墙。

值得记住 — 古德哈特定律:"当一个度量变成目标,它就不再是一个好的度量。"这一章里的每一个指标,一旦你开始拿它当目标去优化,就立刻被腐蚀。逃不掉,只能管 — 不断换新的 benchmark、用多种指标互相印证,在自动化够不到的地方放人进去。

第 11 章给后面铺的路

你走出这一章,手里有"如何老实测量"的一整套工具:困惑度作为内在的尺,校准作为往往比准确率更要紧的那一问,误差线作为对 benchmark 戏剧化的解药,检索几何作为生产里压制幻觉的工具。第三部分到这里结束。从这里起,书转向我们到底能拿这些模型做什么。

明天 — 第 12 章:LLM 的现实世界应用。第四部分的第一章。文本生成、摘要、问答、翻译、推理 — 隔着我们现在手里这套数学,每一项各是什么样子。

想看完整的全貌?书里给了可靠性图的推导、ECE 的公式、benchmark 标准误的算法、幻觉的忠实度指标 — 还把这一切接回到第 3 章嵌入几何的那条线上。在亚马逊查看《LLM Primer II》→