1.3 情報量とエントロピー ― モデルの“迷い”を数学で読む

1.3 情報量とエントロピー ― モデルの「迷い」を数式で見る
LLM(大規模言語モデル)は、次の単語をどう予測するかを考えるモデルです。
たとえば「その猫はとてもかわい」に続く言葉として、
- 「い」 → 80%
- 「そう」 → 20%
この場合、モデルは“あまり迷っていない”状態です。一方、どちらも 50% なら、モデルは“どちらにするか迷っている”ことになります。
この「迷い」の度合いを表すのが、エントロピーです。
情報量とは?
「情報量」は、その出来事がどれだけ“意外”かを数値化したものです:
珍しい出来事ほど、情報量は大きくなります。
出来事 | 確率 P(x) | 情報量 I(x) |
---|---|---|
晴れ(よくある) | 0.90 | 約 0.15 |
雪(めったにない) | 0.01 | 約 6.64 |
エントロピーとは?
エントロピーは、「どのくらい迷っているか」の平均的な指標です:
単語候補 | 確率 P(x) | −log₂P(x) | 貢献度 |
---|---|---|---|
A | 0.8 | 約 0.32 | 0.256 |
B | 0.2 | 約 2.32 | 0.464 |
合計 | 0.720 |
クロスエントロピーとは?
クロスエントロピーは、モデルの予測が正解とどれだけズレているかを測る指標です:
p(x): 実際の正解ラベル
q(x): モデルの予測分布
モデルの学習では、このクロスエントロピーを最小化するように重みを調整します。
まとめ:モデルの「迷い」を数式で理解する
- 情報量: 珍しい出来事ほど大きい
- エントロピー: モデルの迷いの大きさ
- クロスエントロピー: 予測と正解のズレ(損失関数)
このページは『LLM入門:数学で理解する、大規模言語モデルの仕組み』からの一部抜粋です。
数式の意味や導出、さらに深い数学的背景については、ぜひ書籍をご覧ください。

下田 昌平
開発と設計を担当。1994年からプログラミングを始め、今もなお最新技術への探究心を持ち続けています。カテゴリー
検索履歴
チーム

任 弘毅
株式会社レシートローラーにて開発とサポートを担当。POSレジやShopifyアプリ開発の経験を活かし、業務のデジタル化を促進。

下田 昌平
開発と設計を担当。1994年からプログラミングを始め、今もなお最新技術への探究心を持ち続けています。