第3章 — 数学的な道具立て

章ごとに紹介していくシリーズの第3回です。LLM Primer II — 数学で読み解く言語モデル から第3章を辿っていきます。準備運動の最後の一章。本書がこれから使う道具を、使う順番に作業台の上へ並べていきます。

数学の灯がともる、ひとつ手前で

第3章は、駆け足ぎみの章です。第1章でエントロピーを、第2章でモデルの素描をひととおりお目にかけたうえで、いよいよ作業台の整理に入ります。本書が頼ることになる数学のうち、確率と線形代数の二切れを、本書で必要なだけの深さで取り出します。

大事なのは「必要なだけ」というところです。確率論や線形代数の教科書ほど深くはいたしませんし、一般向けの記事ほど浅くもいたしません。本書は、実際に使う手順だけを、ひとつ残さず、しかしそれ以上ではない深さで導きます。使わない手順を丁寧に導いて時間を割くことはしません。

3.1 言語モデルにおける確率と統計

最初の節では、第1章の確率を、本書のあとの章が頼る具体的な操作の形にまで研ぎ澄ませます。

条件付き確率がもう一度顔を出します。ただし今度は、モデルが実際に計算している形 — それまでに出てきたすべてのトークンを与えられたうえでの、次のトークン x_t の確率を、重み θ を持つ関数でパラメータ化したもの — として書かれます。最尤推定も紹介します。学習の背後にある原理を、最適化器が動き出すよりも前に、一本のすっきりとした最適化問題として置きます。

そして、損失関数としてのクロスエントロピーを、節のなかで丁寧にほどきます。天から与えられた定義としてではなく、ひとつの素朴な問い — 「実際に起きたことに対して、モデルが p̂ という確率を割り当てていたなら、モデルはどれくらい驚いていたのか」 — の自然な答えとして。その「驚き」をデータ全体で平均すれば、損失は自分で導けます。

3.1節の終わりには、訓練の目的関数はもう「ブラックボックス」ではなくなっているはずです。確率論の、ほんの一行へと姿を変えています。

ひとことで言うと: LLM の訓練は、テキストに対する最尤推定です。そびえ立つ機構の全部が、結局はこの素朴な統計の原理ひとつに仕えています。

3.2 ベクトル空間、埋め込み、線形代数の直観

第3.2節では、本書の「幾何学的な側」を開きます。単語、トークン、文、そして Attention のスコアまで — いずれも最終的には、高次元ベクトル空間のなかの点や向きとして扱われていきます。3.2節では、その幾何を使えるようにしてくれる線形代数を、必要なだけ紹介します。

本節も、直観を先に通すことを選びました。ベクトルは「数のリスト」、ベクトル空間は「決まった長さの数のリストの全体と、足したり伸び縮みさせたりするための規則」。内積は二つのベクトルの「向きの揃いぐあい」、ノルムは「長さ」、行列積は「たくさんの内積をきれいに一度にまとめて計算するための、整った段取り」。

そのうえで、それぞれが言語にとってなにを意味するのかを順に見せてくれます。二つの単語ベクトルは、内積が大きければ似ている。有名な「王 − 男 + 女 ≒ 女王」の例も、本書では誇張せずにほどきました — 十分な量のテキストで訓練された埋め込みに、ときどき本当に現れる、けれど多く語られすぎてきたささやかな帰結のひとつとして。

手を動かしていただく例も、ひとつ用意しました。四語の語彙、手書きの埋め込み表、そして紙の上だけで完結する計算。「猫」と「犬」が近く、「猫」と「コンクリート」が遠くなる、その仕組みを目で追っていただけます。同じ形をスケールしていったものが、現代のあらゆる LLM の埋め込み層のなかで動いています。

第II部への橋

第3章の結びでは、章のなかで紹介した二つの数学を、そっとひと続きにつなげます。確率は、和と積と対数の世界。埋め込みは、内積と行列積の世界。Attention は、ちょうどこの二つの言葉がひとつの層のなかで出会うとき、自然に立ち上がってくるものです。

具体的には、Attention はベクトルを取って(線形代数)、それらの類似度を計算し、softmax に通して類似度を確率分布に変え(確率)、その分布で別のベクトルたちの加重平均を取る、という三つの動作の組み合わせです。どれも、この章で導入したばかりの操作です。Attention は、その組み立て直しに過ぎません。

覚えておきたいこと: 内積を計算し、対数を取り、確率表を読むことに気後れがなければ、本書のすべての導出は付いてきていただけるはずです。第3章は、その下ごしらえをそっと整える章です。

この章を踏まえて

第3章の結びは、そのまま第I部の結びでもあります。語彙が整い、対象が定まり、道具が研がれ、作業台がきれいになりました。ここから先、本書の中心に位置する 「トランスフォーマーの数学」 へと、ゆっくり足を踏み入れていきます。

次回 — 第4章: Attention — 中心となる仕組み。 第II部の幕開け、そして本書の残りの大半が支えとしてもたれかかっていく一章です。Self-attention を直観から導き、query・key・value の幾何を眺め、multi-head と softmax をほどき、最後に、Attention をカーネル法として読み直す視点で章を閉じる予定です。

全体像を押さえたい方へ: 本書では、本章のそれぞれの操作を、紙の上で追える例と小さな図とともにほどき、巻末には記号の早見表もつけています。 Amazonで『LLM Primer II』を見る