1.3 情報量とエントロピー ― モデルの“迷い”を数学で読む

1.3 情報量とエントロピー ― モデルの「迷い」を数式で見る

LLM(大規模言語モデル)は、次の単語をどう予測するかを考えるモデルです。

たとえば「その猫はとてもかわい」に続く言葉として、

  • 「い」 → 80%
  • 「そう」 → 20%

この場合、モデルは“あまり迷っていない”状態です。一方、どちらも 50% なら、モデルは“どちらにするか迷っている”ことになります。

この「迷い」の度合いを表すのが、エントロピーです。

情報量とは?

「情報量」は、その出来事がどれだけ“意外”かを数値化したものです:

I(x)=log2P(x)

珍しい出来事ほど、情報量は大きくなります。

出来事 確率 P(x) 情報量 I(x)
晴れ(よくある) 0.90 約 0.15
雪(めったにない) 0.01 約 6.64

エントロピーとは?

エントロピーは、「どのくらい迷っているか」の平均的な指標です:

H(X)=P(x)log2P(x)

単語候補 確率 P(x) −log₂P(x) 貢献度
A 0.8 約 0.32 0.256
B 0.2 約 2.32 0.464
合計     0.720

クロスエントロピーとは?

クロスエントロピーは、モデルの予測が正解とどれだけズレているかを測る指標です:

H(p,q)=p(x)log2q(x)

p(x): 実際の正解ラベル
q(x): モデルの予測分布

モデルの学習では、このクロスエントロピーを最小化するように重みを調整します。

まとめ:モデルの「迷い」を数式で理解する

  • 情報量: 珍しい出来事ほど大きい
  • エントロピー: モデルの迷いの大きさ
  • クロスエントロピー: 予測と正解のズレ(損失関数)

このページは『LLM入門:数学で理解する、大規模言語モデルの仕組み』からの一部抜粋です。

数式の意味や導出、さらに深い数学的背景については、ぜひ書籍をご覧ください。

次へ:単語のベクトル表現と線形代数 →

公開日: 2024-10-04
最終更新日: 2025-05-26
バージョン: 5

下田 昌平

開発と設計を担当。1994年からプログラミングを始め、今もなお最新技術への探究心を持ち続けています。

チーム

任 弘毅

株式会社レシートローラーにて開発とサポートを担当。POSレジやShopifyアプリ開発の経験を活かし、業務のデジタル化を促進。

下田 昌平

開発と設計を担当。1994年からプログラミングを始め、今もなお最新技術への探究心を持ち続けています。