第1章 — 言語モデルのための数学的直観

章ごとに紹介していくシリーズの第1回です。LLM Primer II — 数学で読み解く言語モデル から、第1章を紹介します。最初の一章は、本書がもっとも気を遣って書いたところでもあります — 「数式」と読み手のあいだに、知らないうちに立ってしまっている壁を、そっと脇に避けるための章です。

この章がなぜあるのか

大規模言語モデルを「数学で説明します」と謳う本は、たいてい二つの道のどちらかを行きがちです。ひとつは、数学を脇に置いて、雰囲気だけの「直観」で済ませてしまう道。もうひとつは、最初の章から二十本の数式を並べて、読み手に身を任せていただく道。どちらにも、それぞれの良さはあるのですが、本書はそのどちらにも与しないことに決めました。

第1章が引き受けるのは、もっとささやかな仕事です。式を一本でも書き始めるその前に、まず「記号はなにを縮めて書いたものか」「言語の文脈で確率とはなにを意味するのか」「エントロピーはなにを測っているのか」、この三つだけは、読み手と書き手のあいだでそっと合意しておきたい。そう願ってつくられた章です。

ひとことで言うと: 記号は、すでに頭のなかにある考えを縮めて書いたもの。第1章の仕事は、考えのほうを、先に頭に入れておくことです。

1.1 数学記号に少しずつ慣れていく

第1.1節では、本書を読み進めていくうちに何度もお会いすることになる記号たち — 総和、期待値、条件付き確率、ベクトル、ときどき登場する対数 — を、ひとつずつ「英語を縮めて書いたものとしての記号」として紹介します。

たとえば総和は「これらを足してください」の縮め書きですし、期待値は「ずっと標本を引き続けたとしたら、平均してどのあたりに落ち着くか」を表しています。条件付き確率は「これが正しいと分かっているとき、あちらはどれくらい起こりやすいか」と読みます。記号そのものに気圧されなくてよい、ということを、最初に丁寧に確かめます。

本書がこの節で気をつけているのはひとつだけです。記号を、その記号が背負っている考えよりも先にお見せしないこと。順番だけは、最後まで崩さないように努めています。

1.2 言語生成のための確率

第1.2節では、確率が言語とどうつながるのかを、ゆっくり辿ります。本書全体を通じて前提となる枠組みは、ひとつだけです — 言語モデルとは、いままでに出てきたトークン列を受け取って、「次のトークン」のための確率分布を返してくる関数である。生成とは、その分布から標本を引くこと。それ以上でも、それ以下でもありません。

つまり、本書のあとの章で扱う Attention、トランスフォーマー、学習、スケーリング — そのすべてが、結局はこの分布を上手に推定するためにある、ということになります。第1.2節では、その地ならしとして、結合確率と条件付き確率、独立性、連鎖律、そしてなぜ対数確率が至るところに顔を出すのか、をひとつずつ確かめます。

節の終わりに、ささやかな手計算の例をひとつ用意しました。語彙が片手で数えられるほどの小さな「言語」と、小さなコーパスから、紙の上で確率表を組み立てていきます。頭のなかに収まる小ささでありながら、後ほどトランスフォーマーの内側で再会することになる形をしています。

1.3 エントロピーと情報 — 不確かさを測る

第1.3節は、この章のなかでも、もっとも静かな蝶番のような節です。本書では「この分布はどれくらい曖昧か」を測りたい場面が幾度となく訪れますが、そのたびに手を伸ばす道具が、シャノンの意味でのエントロピーです。

のちに登場するクロスエントロピーは損失関数として、KL ダイバージェンスは分布のあいだの「隔たり」として、パープレキシティは評価の主役として、それぞれ顔を出してきます。じつはこの三つは、エントロピーがすこしずつ衣装を替えた姿に過ぎません。

第1.3節は、エントロピーをやさしく導きます。シャノンが投げかけた問い — 「ひとつの標本を特定するために、平均で何回の Yes/No を要するか」 — に沿って、式が答えとして立ち現れてくるところを、ゆっくり辿ります。節の終わりには、対数確率が「情報のビット」として読めるようになっていれば嬉しく思います。

覚えておきたいこと: のちの章で「損失を最小化する」と書いてあるとき、それは「クロスエントロピーを最小化する」と読み替えてよく、さらに「データに対するモデルの平均的な驚きを小さくする」と読み替えても構いません。同じことの三つの呼び名。第1章は、そのどれもが他人行儀に聞こえないようにすることを、ささやかな目標にしています。

1.4 ひと筋、流れている物語

第1章は数学だけの章ではありません。本書がこのあと幾度となく繰り返す、ひとつの語り口がここで初めて姿を見せます — 考えを、それを生んだ人と瞬間とともに、お話しさせていただくこと。

第1章には、若き日のクロード・シャノンが登場します。1940年代のベル研究所で、電信線に乗せられる情報量を真面目に問い詰めたひとりの技術者が、ほとんど副産物のようにして残してくれた数学。それが、いま、言語モデルがうまくやれているかどうかを測る物差しになっている — その縁を、節の最後にそっと記しました。

歴史を披露するためではなく、式を覚えやすくするための、ささやかな寄り道です。

この章を踏まえて

第1章を読み終えていただいたあたりで、本書の道具一式が、おおよそ揃っている状態になります。怯まずに読める記号、「次に何が来るか」としての確率、そしてモデルの信念の鋭さ・滑らかさを測るためのエントロピー。この三つを携えていただければ、続く章でも息をきらすことなく付いてきていただけるはずです。

次回 — 第2章: LLM を文脈に置く。 大規模言語モデルとはなんなのか、事前学習・パラメータ・スケールとはどう絡み合っているのか、データとしての言語のなにが特別なのか、そして2017年のトランスフォーマーが、なぜあれほど風景を塗り替えてしまったのか。前作『LLM Primer』の素朴な物語と、本書の数学とを橋渡しする章です。

全体像を押さえたい方へ: 本書では、各記号の意味をひとつずつ導きながら、紙の上で追える小さな例をいくつも用意しています。巻末には記号の早見表もあります。 Amazonで『LLM Primer II』を見る