第11章 — 评估、校准与推理
LLM Primer II: Language Models Through Mathematics 章节走读的第十一篇。这一章里,我们要问:怎么去衡量一个什么都能说的机器 — 然后会发现,一个看上去很自信的模型,往往是一个校准很差的模型。
那个最后变成数学的问题
在第二部分我们造了模型,在第三部分训练了它,在第 10 章对齐了它。怎么知道这一切到底有没有真的起作用?这听上去像一个软问题。它其实是这个领域里最难、也最数学化的问题之一,因为一个语言模型几乎可以产出任何文本,而"好"这件事抗拒被定义。
11.1 困惑度
最基础的那把尺子,不需要人 — 它直接从训练目标里掉出来。算一下模型给一个保留测试集分配的概率,逐 token 取几何平均、再取指数,就是 困惑度(perplexity)— 模型平均"惊讶程度"被换算成一个有效的"分叉因子"。便宜、客观、自动。它对实际场景里几乎所有要紧的事都视而不见:有用、真、安全。它在不同分词器之间也不可比。这一章还讲了 BLEU、ROUGE、代码执行率、judge-model 打分 — 每一种都有它已知的失灵方式。
11.2 校准
一个模型 校准良好,意思是它的自信和准确率对得上 — 当它说"我有八成把握"的时候,它大约真的有八成是对的。这不是准确率。一个模型可以又准又过自信,也可以不准但老实。任何高风险场景下,校准和准确率一样要紧。
怎么测?可靠性图:按"声明的自信"分桶,每桶里看准确率。一个完全校准的模型踩在对角线上;最常见的情况是凸到对角线下面(过自信)。汇总指标:Expected Calibration Error(ECE)。温度缩放 — 把 logits 除以一个学到的标量 — 是一个简单又好用的事后补救。有意思的是,RLHF 经常把校准弄差。
11.3 benchmark 的不确定性
当一个模型"在某个 benchmark 上拿了 87 分",少问的那个问题是:87% 加减多少?在 50% 附近、n 个问题上,准确率的标准误大概是 1/(2√n)。n=1000 时,这大约是 1.6 个百分点 — 也就是说,一个 87 分和一个 85 分,未必真的不一样。复合的危险还有两个:多重比较(在足够多的模型和足够多的 benchmark 上测,总有几个"凑巧"看上去更好)和 数据污染(如果 benchmark 题混进了训练数据,那分数测的是记忆)。这一节是 AI 新闻最该读的那一节。
11.4 幻觉与检索几何
幻觉 — 自信地说出错的话 — 是最定义 LLM 边界的那个失败模式,也是最难测量的,因为它需要判断"真"。忠实度(faithfulness)指标测的是:一个回答里的每一句话,是不是真的能从提供的材料里推出来。
压制幻觉的最主力工具,是 检索增强生成(retrieval-augmented generation):用真实文档把模型钉住。它最核心的那一步操作,恰好把我们带回到第一部分的几何里 — 在 query 和候选段落的嵌入(第 3 章)上做最大内积搜索。第 3 章的几何,在生产里突然变成了承重墙。
第 11 章给后面铺的路
你走出这一章,手里有"如何老实测量"的一整套工具:困惑度作为内在的尺,校准作为往往比准确率更要紧的那一问,误差线作为对 benchmark 戏剧化的解药,检索几何作为生产里压制幻觉的工具。第三部分到这里结束。从这里起,书转向我们到底能拿这些模型做什么。
明天 — 第 12 章:LLM 的现实世界应用。第四部分的第一章。文本生成、摘要、问答、翻译、推理 — 隔着我们现在手里这套数学,每一项各是什么样子。