第11章 — 評価、キャリブレーション、推論

LLM Primer II: 数学で読み解く言語モデル を章ごとに紹介していくシリーズ、第11回です。「何でも書ける」機械を、いったい誰がどうやって測れるのか — そして、自信ありげなモデルほど、しばしばキャリブレーションが悪いのだ、ということが明らかになる章を、ご一緒に辿ります。

柔らかく見えて、じつは数学の問い

第II部でモデルを組み立て、第III部で訓練し、第10章でアラインメントを施しました。それで、いったい本当にうまくいったのかどうかを、どうやって知るのか。柔らかい問いに見えます。じつのところ、この分野でもっとも難しく、もっとも数学的な問いのひとつです。なぜなら、言語モデルは原理的にどんな文章でも生成できてしまい、「良い」という言葉が定義を拒むからです。

11.1 パープレキシティ

もっとも基本的な指標は、人手をまったく必要としません。学習の目的関数からそのまま落ちてきます。テスト用に取り分けたデータに対して、モデルが付ける確率を測る。トークンあたりに直して指数化したものが パープレキシティ — モデルの平均的な「驚き」を、実効的な分岐数として表したものです。安価で、客観的で、自動。ただし、実務でほんとうに大事なもの (有用性、真実性、安全性) のほとんどには目が利きません。トークナイザが違えば比較できないという欠点もあります。本章では BLEU、ROUGE、コードの実行成否率、判定モデルのスコアなども、それぞれの落とし穴とともに整理します。

ひとことで言うと: パープレキシティは安価で内在的な物差し。「次トークン予測」については正直で、それ以外のすべてについては沈黙する。

11.2 キャリブレーション

モデルが うまくキャリブレートされている とは、「自信」と「正答率」が一致していること — 「80% 確信しています」と言うときに、実際に 80% くらい正しい、という状態を指します。正答率とは別物です。正確だが自信過剰なモデルもあれば、不正確だが誠実なモデルもあり得ます。高リスクな用途では、キャリブレーションは正答率と同じくらい重要、ということが少なくありません。

測り方は 信頼度ダイアグラム。予測を「自信の階級」でビンに切り、各ビンの正答率を見る。完全にキャリブレートされたモデルは対角線をなぞり、ありがちな場合はその下に膨らみます (自信過剰)。要約指標としての Expected Calibration Error (ECE) があり、ロジットを学習済みのスカラーで割る「温度スケーリング」は、後付けで効く簡明な処方箋です。興味深いことに、RLHF はキャリブレーションをしばしば悪化させます。

11.3 ベンチマークの不確実性

あるモデルが「ベンチマークで87%を取った」と書かれているとき、もっとも肝心な続きが抜けています — プラスマイナス何ポイントなのか。正答率が50%近辺で n 問のベンチマークなら、標準誤差はだいたい 1/(2√n)。n=1000 なら約 1.6 ポイント。つまり、87% と 85% の差は、はっきりした差とは言えないことが多い。複合的なリスクが2つあります。多重比較 — 多くのモデルを多くのベンチマークで試せば、偶然だけで「良く見える」ものが出てくる。そして コンタミネーション — ベンチマーク問題が学習データに紛れ込んでいたなら、そのスコアは「暗記」を測っているにすぎない。AI 業界の報道が、もっとも読むべき節かと思います。

11.4 ハルシネーションと、検索の幾何学

ハルシネーション — 誤りを自信たっぷりに言い切ってしまうこと — は、LLM の限界をもっともよく特徴づける失敗様式であり、もっとも測りにくいものです。なぜなら「真実」を判定する必要があるから。Faithfulness メトリクスは「回答の各文が、与えられた文脈から導かれているか」を試します。

ハルシネーション低減のための主要な道具は、検索拡張生成 (Retrieval-Augmented Generation) — モデルを実際の文書に接地させる手法。その中核となる操作は、ふさわしくも第I部の幾何学に私たちを連れ戻してくれます — クエリと候補パッセージの埋め込み (第3章) の上で、内積最大化探索を行う。第3章の幾何が、本番運用の場面でいきなり主役級の役回りで戻ってくるのです。

覚えておきたいこと — グッドハートの法則: 「測度が目標になると、それは良い測度であることをやめる」。本章で扱うどの指標も、最適化の対象に据えた瞬間、腐った測度に変わります。逃げ場はなく、あるのは管理だけ — ベンチマークを更新し続け、複数の指標で三角測量し、自動化が届かない場所には人を置く。

第11章のあとに開ける景色

誠実な計測のための道具立てを抱えて、この章を出ます。内在的な物差しとしてのパープレキシティ、正答率より大事なことが少なくないキャリブレーション、ベンチマーク劇場への解毒剤としての誤差棒、ハルシネーション制御のための本番ツールとしての検索の幾何学。第III部はここで閉じます。ここから本書は、こうしたモデルを使って私たちが実際に何をするのか、という話に向かいます。

次回 — 第12章: LLMの実世界応用。 第IV部の最初の章。テキスト生成、要約、QA、翻訳、推論 — それぞれが、ここまで手にしてきた数学を通して見るとどう映るか。

全体像を押さえたい方へ: 本書では、信頼度ダイアグラムの導出、ECE の式、ベンチマーク標準誤差の数学、そしてハルシネーション制御のための faithfulness メトリクスを、第3章の埋め込みの幾何学への接続とともに整理しています。Amazonで『LLM Primer II』を見る