第5章 — 大規模モデルの学習

LLM Primer I: How Generative AI Works を章ごとに紹介するシリーズ、第5回です。前回は Transformer の中身を開けて見せました。今日は、その中にある数十億のつまみを、実際にどう埋めていくか — ランダムに初期化されたアーキテクチャが「使える言語モデル」になっていく工程を、一緒に追いかけてまいります。

「学習」が本当にやっていること

「学習」という言葉はつい読み流してしまいがちですが、何を指しているのかは押さえておく価値があります。大規模言語モデルの学習とは、ひとことで言えば、数十億個のパラメータをほんの少しずつ調整して、学習データ上での次トークン予測の精度を、じわじわ底上げしていくプロセスです。

個々の調整の中身は、拍子抜けするほどさやかです。テキストを与える。モデルが次のトークンを予測する。実際の次のトークンと比べる。どれくらい外したかを数値にする(これが「損失」)。各パラメータが、その外しにどれくらい寄与したかを計算する(これが「勾配」)。そして、もう少しマシな予測を出していたであろう方向へ、各パラメータをほんの少しだけ押す。

このループを、何十億回。数兆トークンを相手に。何万枚もの並列アクセラレータの上で。何か月もかけて。そうやって、ようやくフロンティアモデルが立ち上がります。考え方の話としては、トリックはどこにもありません。難しいのはあくまで、エンジニアリングのほうです。

ひとことで言うと: 学習とは、ごく小さな更新を、想像を超える回数くり返すこと。モデルができる印象的なことは、すべて、その更新の積み重ねの結果です。途中で魔法の一手が差し込まれるわけではありません。

モデルの半分は「データパイプライン」でできている

現代のLLMにまつわる、もっとも過小評価されている事実のひとつが、データに費やされる労力の大きさです。第5章はここに本気で紙幅を割きます。本番モデルの生死が、ここで分かれることが多いからです。

事前学習用のテキストは、Web、書籍、コードリポジトリなどから集められ、現代のモデルでは数千億〜数兆トークン規模に達します。その生のデータは、そのまま使うわけにはいきません。重複の除去、明らかに低品質な部分の除外、有害コンテンツや権利上問題のあるコンテンツのスクリーニング、そして特定のソースに偏らないようにする再バランス — これら一つひとつが、それぞれにエンジニアリングとポリシーの仕事を要求してまいります。

データの組み方や品質が結果のモデルに与える影響は、世の中で思われている以上に大きいと感じます。丁寧にキュレーションしたコーパスで学習したモデルが、パラメータ数で倍ある「雑にスクレイプしただけ」のモデルを上回ることも普通にあります。資金のある研究所のオープンウェイトモデルが、パラメータ数が頭打ちになってもなお改善し続けているのは、たいていここ — データ側の仕事 — が伸びているからです。

損失関数を、やさしく

損失関数は、学習プロセスに対して「モデルがどれくらいうまくやっているか」を伝えるためのスコアカードです。言語モデルの定番は cross-entropy loss。「自信を持って外した」予測には、「不安なまま外した」予測よりも、ずっと重いペナルティを課す指標です。

式を追わなくても、感覚は十分に持てます。だいたい合っているが自信は低いモデル、なら損失はそこそこ。だいたい合っていて自信もあるモデル、なら損失は低い。自信満々に外しているモデル、なら損失は非常に高い。学習プロセスはこの損失を引き下げていくので、結果としてモデルには「自信を持つべきところで持つ」習慣が刷り込まれていきます。

第5章では、なぜ cross-entropy が定番なのか、他にどんな選択肢があるのか、そして実際の学習ランで損失曲線がどう見えるか(最初に急降下、そのあと長くゆるく下がり続け、学習率スケジュールが切り替わる節目で小さな段差がつく、というのが典型)を順に解説しました。

学習に数か月、コストが数百万ドルかかる理由

学習1ステップを構成する数値演算 — 行列積、加算、正規化 — は、1枚のGPUの上では個別にはむしろ高速です。問題は、フロンティアモデルが1枚のGPUのメモリには収まらないこと、そしてまともな時間で学習し切るには、それでも到底足りないことです。だから現実には、高帯域のインターコネクトで結ばれた何千枚ものアクセラレータに、学習を分散させます。

典型的には、3種類の並列化を組み合わせます。データ並列は、すべてのデバイスにモデルのフルコピーを置き、それぞれに別のデータバッチを流して、勾配だけをまとめて平均する方式。モデル並列は、モデル自体をデバイスに分割し、各デバイスは一部の層しか持たないようにする方式。パイプライン並列は、デバイス間で作業をずらして、互いに待ち合わせて遊ばないようにする方式。

どれもそれ自体が独立した工学分野で、それぞれに独特の失敗モードを持っています。デバイスは普通に故障してホットスワップが必要になりますし、ネットワークの輻輳が学習のストールとして表面化することも、数値的な不安定でランが発散してしまうこともある。フロンティア規模の学習は、アルゴリズム的な賢さよりも、産業システムとしての信頼性の問題に近い、というのが正直なところです。

覚えておきたいこと: 今日のフロンティア学習ランのコストは、電気代、ハードウェアの償却、人件費が支配的で、おおむねこの順序です。実際の数学的な計算自体は、請求書の中ではむしろ「安い側」のパートです。

過学習と、保たねばならないバランス

章の終盤では、どの学習ランも乗り越えなければならない2つの失敗モードを扱いました。過学習は、モデルが学習例を丸暗記してしまい、その下にあるパターンを掴み損ねている状態。学習データではよく動くのに、見たことのないデータには弱くなります。学習不足は逆で、データの構造を捉えるまで学習が回り切っていない状態。何にも弱いモデルになります。

2つの間のスペースは狭く、そこに学習を留めておくために、いくつかの標準的な道具 — まとめて「正則化」と呼ばれるもの — が動員されます。Dropout、Weight Decay、丁寧な学習率スケジュール、Early Stopping。どれもエキゾチックなものではなく、しかしどれも、欠かせません。

第5章を通して、得られるもの

第5章を読み終えるころには、フロンティアモデルが「物理的に何でできているか」のイメージが、ぐっと明瞭になっているはずです。新しい学習ランに関するプレスリリースを読んで、何を主張しているのかを正確に位置づけられるようになりますし、なぜこれらシステムのエンジニアリングが、国によっては国家安全保障級の関心事になっているのかも腹に落ちる。AIをめぐる公的な議論が、徐々に「データ・エネルギー・インフラ」の話に重心を移していった理由も、見えてまいります。

次回 — 第6章: ファインチューニングと適応。 事前学習を終えたモデルが、どうやって「使えるアシスタント」になっていくのか。ファインチューニング、Instruction Tuning、LoRA のようなパラメータ効率の良い手法、そして RLHF とその後継たち — 生の次トークン予測器を、役に立つ存在へと変えるアラインメント技法を扱ってまいります。

全体像を押さえたい方へ: 本書は、多くの入門書が省略してしまうデータキュレーションのステップも含めて、学習パイプライン全体を順に解説しました。実際のフロンティアランで使われている並列化戦略の図解もあわせて。Amazonで『LLM Primer I』を見る

第5章 — 大規模モデルの学習: フロンティアモデルを支える本当のコスト

第5章 — 大規模モデルの学習

「学習」が本当にやっていること

モデルの半分は「データパイプライン」でできている

損失関数を、やさしく

学習に数か月、コストが数百万ドルかかる理由

過学習と、保たねばならないバランス

第5章を通して、得られるもの

下田昌平

第5章 — 大規模モデルの学習

「学習」が本当にやっていること

モデルの半分は「データパイプライン」でできている

損失関数を、やさしく

学習に数か月、コストが数百万ドルかかる理由

過学習と、保たねばならないバランス

第5章を通して、得られるもの

下田 昌平

下田昌平