第2章 — LLM を文脈に置く

章ごとに紹介していくシリーズの第2回です。LLM Primer II — 数学で読み解く言語モデル から第2章を、ささやかに辿っていきます。前作『LLM Primer』が素朴な言葉で語ってくれた風景と、これから本書で踏み込んでいく数学とを、そっと橋渡しする章です。

この章の問い

第1章では「記号」のほうを整えました。第2章では、その記号でこれから記述していく「対象」のほうを、丁寧に紹介します。Attention の導出に入る前に、softmax を追いかけ始めるその前に、まずは「大規模言語モデルとはなんなのか」「なにではないのか」、そして事前学習・パラメータ・スケール・データとしての言語といった主要な言葉のそれぞれが、どこを指しているのかを、お互いに確かめておきたく思います。

前作『LLM Primer』を読んだ方には、見覚えのある景色も多いかもしれません。本章は同じ目的地を、もう一度ゆっくり巡ります。ただし今回は、これから使う数学のほうに片目を残しながら。本書が「続編」を名乗るに値するかどうかが、たぶんこの章で試されます。

ひとことで言うと: LLM とは、次に来るトークンのための確率分布、それだけです。残りは全部、その一点をめぐる工学なのだとお考えいただければ、本章のたいていの話が読みやすくなるはずです。

2.1 大規模言語モデルとはなにか

第2.1節で立てる定義は、このあと三百ページを支えるものになります — LLM とは、トークンの列を受け取り、「次のトークン」のための確率分布を返す関数である。生成も、会話も、推論も、コードも、翻訳も、その関数を「一トークンずつ」自分自身と組み合わせていったときに現れてくる景色に過ぎません。

もうひとつ、節のなかで丁寧に分けたかったことがあります。「モデル」と「システム」の違いです。関数としてのモデルと、その関数にサンプラー、トークナイザ、文脈窓、ツール層などを足し合わせて出来上がる「システム」とは、別物だと考えていただくほうがよいかと思います。この二つの混同が、LLM をめぐる多くの「もやもや」の出どころだったように感じています。

2.2 事前学習・パラメータ・スケール

言葉ばかりが先行しがちな三つを、第2.2節では一語ずつ、もう一度地に足を着けて見つめ直します。

事前学習は、計算資源のほとんどを費やす長い長い時間です。モデルは膨大な文章を見せられ、「次のトークンを当ててください」とひたすら問われ続けます。ここに人間の介在はありません。教師は、次に実際に来たトークンそのもの。モデルが正しい場所に確率の重みを置けたとき、それがささやかな報酬になります。

パラメータは、関数のなかに住んでいる数たちです。現代の最前線のモデルでは、その数は数千億におよびます。学習とは、その一つひとつをほんのわずかずつ、何十億回と、関数全体が望ましく振る舞うようになるまで撫でていく作業のことです。

スケールは、この三つ — パラメータ・データ・計算 — を同時に大きくしていったときに起きる現象です。スケーリング則そのものは、のちの章でじっくり扱います。本章ではただ、「同じ素朴なレシピを大きくしただけで、質的に違う振る舞いが繰り返し現れた」という、この時代でもっとも驚くべき事実を、そのままお伝えするにとどめました。

2.3 データとしての言語

第2.3節では、つい見落とされがちな大切なことを、ひとつ書きました。言語は、ありふれたデータではない、という事実です。系列性、長距離の依存、組み合わせ可能性、小さな文字集合の上に立ち上がる巨大な「正しい文の空間」 — どれも、のちの章で本書が頼ることになる構造です。

そして、この節は本書の数学への小さな橋でもあります。単語をベクトルとして表す、いわゆる「埋め込み」 — これは第3章で扱う概念ですが — は、ひとつの現実の工学的な問いへの答えとして登場します。すなわち、「ニューラルネットワークに、類義語を近く、対義語を遠く、文をその構成要素の幾何的な配置として見せるには、どうすればよいのか」。本章ではその問いだけを置かせていただき、答えとなる数学は次章にお譲りいたします。

2.4 トランスフォーマーが風景を塗り替えた理由

章の最後は、2017年の論文 "Attention Is All You Need" を、歴史としてではなく、ひとつの建築物として紹介します。トランスフォーマー以前の系列モデルは、人が音読するように、トークンを一つずつ読んで進んでいました。トランスフォーマー以降は、すべてのトークンが、他のすべてのトークンに同時に注意を向けることができるようになります。このたった一つの変更が、いまの分野を支えている大きなスケールでの学習を可能にしてくれました。

節のなかでは、Attention が何をしているのかを、絵で素描するにとどめます。数式は第4章にお持ち越しいたします。約束は、二十ページ後にはこの絵が、ご自身で導き、議論し、デバッグできる方程式の集まりになっている、ということです。

覚えておきたいこと: トランスフォーマーが主流となったのは、それが「より賢かった」からというよりも、「より並列化しやすかった」からです。どのアーキテクチャが勝つかは、ハードウェアの側からも形を与えられている — この事実は、本書のあとの章にも、静かに何度も戻ってきます。

この章を踏まえて

第2章の終わりには、これから十章にわたって本書が「どんな対象に対して数学をしようとしているのか」が、はっきりしているはずです。入力と出力、事前学習が何のためにあるのか、パラメータとはなにを指す数なのか、スケールが何を買ってくれるのか、そしてトランスフォーマーがなぜ勝ったのか。ここまでくれば、いよいよ道具箱を開ける準備が整います。

次回 — 第3章: 数学的な道具立て。 本書で必要となる確率と線形代数を、必要な分だけ、必要な順番で並べます。短く、密度のある章で、第I部の締めくくりにあたります。

全体像を押さえたい方へ: 本書では、本章の四つの主題のそれぞれを、紙の上で追える例と小さな図とともに丁寧にほどき直しています。 Amazonで『LLM Primer II』を見る