第8章 — モデルはどう学ぶか

LLM Primer II: 数学で読み解く言語モデル を章ごとに紹介していくシリーズ、第8回です。第8章は、本書のなかでもとくに「正直」な章です。ここまで積み上げてきた数学が、ふっと立ち止まり、「実はここがまだ十分にはわかっていません」と告白する場面です。よろしければ、しばしお付き合いください。

この章の問い

第7章までで、確率、アテンション、トランスフォーマーブロック、効率化と、ひととおりの「機械の組み立て」を進めてきました。第8章はそこから視点を変えて、「この道具はなぜ学習できるのか」を問います。少し不思議な話ですが、その答えのうちのいくつかは、今もって完全にはわかっていません。

本書のなかでも、教えていてもっとも背筋が伸びる章のひとつです。同時に、もっとも謙虚にさせられる章でもあります。

ひとことで言うと: 古典理論は「パラメータが多すぎるモデルは過学習する」と告げます。けれども現代の LLM は、大きくするほどむしろよく汎化してしまう。第8章は、この不思議を、できるだけ静かに、できるだけ正直に見つめ直す章です。

8.1 過剰パラメータ化されたモデルの汎化

古典的な統計学習理論は、長年にわたってひとつのはっきりした物語を語ってきました。学習データの数よりパラメータが多いモデルは過学習する。学習データを丸暗記して、未知のデータでは破綻する。これがこの分野の土台でした。

ところが現代の LLM は、何百億、ときに何千億ものパラメータを持ち、トークンに直すと数兆程度のテキストで学習されます。比率は、古典理論が「破滅する」と予言する側にずいぶんと寄っています。それでもモデルは汎化する。しかも、大きくするほど、しばしばよりよく汎化してしまうのです。

8.1 節は、この謎を並べたうえで、現代の説明の試みを順に追っていきます。二重降下 — モデルサイズが補間しきいを越えて成長していくと、テスト誤差がいったん上がり、それからもう一度下がるという、あの意外な観察 — を、簡素な形できれいに導出します。さらに、十分に幅広いネットワークをカーネル法で近似するニューラル・タンジェント・カーネルの視点も紹介します。これが第4章のアテンションのカーネル的な見方と、しっくり噛み合うのが個人的な収穫でした。

8.2 勾配ベースの最適化が持つ暗黙のバイアス

8.2 節では、答えの一端を紹介します。確率的勾配降下法でニューラルネットを学習させるとき、私たちはただ損失を最小化しているのではありません。特定の道を辿りながら最小化しているのです。そしてその道には、はっきりとした偏りがあります。

学習データを同じくらいよく説明できるパラメータ設定はたくさんあります。そのなかで、勾配降下法はノルムが小さいもの、あるいは「平らな」極小値、そのほか汎化と相関する性質を持つものを、なぜか好んで見つける傾向があるのです。これを「暗黙的正則化」と呼びます。私たちが頼んでもいないのに、最適化アルゴリズムがそっと手伝ってくれている。その仕組みを、数学はようやく少しずつ解きほぐし始めています。

本節では、暗黙のバイアスがきれいに証明できているもっとも素直な場合 — ロジスティック損失で学習した線形モデル — の議論を丁寧に辿り、そこから深いネットワークへの直観の橋を架けます。

8.3 スケーリング則 — データ・パラメータ・計算

8.3 節は、この分野で実務的にもっとも重要な実験的結果を紹介する場面です。スケーリング則 — 2020 年の Kaplan ら、そして 2022 年の Chinchilla — は、トランスフォーマの損失が、パラメータ数、学習データ量、計算予算とともにどう減っていくかを記述します。しかも、まだ学習されていないモデルがどのくらいの損失に至るかを予言できるほどの精度で。

本章では、これらの則の形 — 3 つの変数それぞれにおける冪乗的な減衰 — を導き、経験的に得られている指数が何を意味するかを読み解きます。有名な Chinchilla の結果はこうでした。与えられた計算予算に対しては、パラメータとトークン数を、おおむね同じ速度で増やしてゆくのがよい。それ以前のモデルは、パラメータの割に学習データが少なすぎたのです。数学が、修正すべき方向をきれいに指し示してくれたわけです。

本節は、ひとつだけ気をつけて書いています。スケーリング則は損失を記述するものであって、能力を記述するものではありません。低い損失と、私たちが本当に気にかける挙動 — 推論、指示追従、コード生成 — の関係は、損失曲線そのものに比べて、ずっと経験的で、ずっとノイズが多いものです。

8.4 LLM 理論に残る未解決の数学

章の終わりに、「いま分かっていないこと」のリストを、できるだけ正直に並べました。スケーリング則の指数はなぜあの値なのか。新しい能力はいつ、なぜスケールに伴って「創発」するのか。自己回帰的な言語モデルにとって、汎化とは何を意味するのか。文脈内学習はなぜ働くのか。ごく少数のパラメータだけを動かす LoRA が、なぜフル微調整に近い効果を得てしまうのか。

本章は、これらに答えるふりをしません。「ここに問いがあり、現在の理論はここまで言える、ここから先はまだ言えない」と書き並べるだけです。この節があるからこそ、本書は教科書とは少し違う佇まいになれていると感じています。読み手の方を、未開の地のありかを知る権利のある同行者として扱うこと — その試みです。

覚えておきたいこと: 厳密さは、理解の在りかだからこそ意味があるのだと、私はそう思っています。けれども、部分的にしか理解されていない現象を相手にするとき、厳密であるということは、「どこが分かっていないか」をも精確に指し示すことでもあります。第8章は、その精確さの試みです。

この章を踏まえて

第8章を読み終えるころには、学習というひとつの数学的なプロセスが、ずっとくっきりと見えてきます。同時に、この分野が今もって答えあぐねている、正直な問いのリストも手元に残ります。次章は、学習の理論から、その工学へと舵を切ります。最先端のモデルが、実際にはどのように学習されているのか、その風景です。

次回 — 第9章: スケールでの学習。 第8章の伴走となる章です。データ前処理が、その後のすべてを静かに形づくっていること。ミニバッチ学習・並列化・効率化の数学。そして、思いのほか繊細な問い — 何千もの GPU をまたぐ学習を、どうやって数値的に安定に保つか。

全体像を押さえたい方へ: 本書では、二重降下を小さなモデルできれいに導出し、Chinchilla の計算最適スケーリングの議論を一歩ずつ追い、第8章の最後に未解決問題のリストを置きました。研究の地図としてお役に立てれば幸いです。Amazonで『LLM Primer II』を見る