第10章 — ポストトレーニングとアラインメントの数学

LLM Primer II: 数学で読み解く言語モデル を章ごとに紹介していくシリーズ、第10回です。前回までで、賢いが野生のままの「次トークン予測器」が出来上がりました。今回は、それを役に立つアシスタントへと飼い慣らしていく工程 — そして、強化学習のパイプライン全体が、ひとつの優美な導出によって、ふつうの分類器のように学習できる損失へと畳み込まれていく場面を、ご一緒に見ていきます。

この章がなぜあるのか

第8章と第9章を経て、事前学習済みのモデルが手元にあります。インターネットの大半を読んでいて、どんな文章でも不気味なほど自然に続きを書ける。そして、特に「役に立とう」とする傾向は持っていません。質問を投げれば、さらに質問を返してくることもある — 賢くて、なお野生のままです。

第10章は、その存在と、私たちが実際に対話しているアシスタントとのあいだに、橋をかける章です。本書のなかでも数学的にとくに美しい章のひとつかと思います。アラインメントの工学は、清潔な3つの考え方の上に成り立っていて、3つ目はちょっと信じがたいくらいの優雅さを持っています。

ひとことで言うと: ポストトレーニングは3つの楽章。教師ありファインチューニングで「良い答え」を真似させ、報酬モデルで人間の好みを学ばせ、選好最適化でその好みを満たすように調整する。そして KL の手綱で、元のモデルから離れすぎないように引き戻す。

10.1 教師ありファインチューニング

最初の、いちばん穏やかなステップ。数学的にはとくに新しいことはありません。人間が用意した (プロンプト, 理想的な応答) のペアを集めて、第1章のクロスエントロピー損失で学習する。優れたアシスタントとしての振る舞いを何千例も真似させることで、モデルは「ふつうのインターネット上の文章」ではなく「アシスタントらしい言い回し」を身につけていきます。天井は明確で、模倣は手本を越えられないし、完璧な答えを書くのは、それを見分けるよりずっと難しいのです。

10.2 報酬モデルと選好の数学

完璧な答えを書くのは難しい、でも 2 つの答えを比べるのは簡単 — ならば「比較」を集めればいい。ここで、ノイズだらけの人間の比較データから、滑らかなスコア関数へと橋渡しをする道具が登場します。Bradley–Terry モデル (統計学、1950年代の発明) です。各項目に「隠れた強さ」を割り当てて、片方が他方に勝つ確率は、両者の強さの差をロジスティック関数に通したものとして表される。報酬モデルは、この確率が人間のラベルと合うように学習されます。よく読むと、これは「報酬の差」を入力とするロジスティック回帰そのものです。

10.3 手綱付きの RLHF

素朴な強化学習 — 期待報酬を最大化する — は、罠です。報酬モデルは所詮プロキシで、必ず盲点があります。強く最適化されたポリシーは、その盲点を突きにいき、人間にとってはまったく意味不明なのに、報酬モデル的にはありえないほど高得点を取る出力を生み出してしまう。報酬ハック — 仕様ゲーミングの、もっとも具体的な姿です。対処は、KL ダイバージェンスのペナルティを加え、ポリシーを事前学習済みの参照モデルから離れすぎないように引き戻すこと。匙加減が肝心で、手綱が緩すぎれば報酬をハックされ、きつすぎれば一向に改善しない。

10.4 DPO — 強化学習が溶けていく

近年の機械学習で、もっとも見事な結果のひとつです。RLHF の目的関数は、見るからに「報酬モデルと RL ループとサンプリング」という一式の装置を要求してくる。Direct Preference Optimization (DPO) は、それが要らないことを示しました。KL 制約付きの報酬最大化問題には閉形式の最適解があり、それは「参照ポリシーを、指数化した報酬で重み付けし直したもの」になる。これを逆向きに使う — 最適ポリシーから報酬を解いて表し直し、それを Bradley–Terry の選好損失に代入すると、報酬モデルがすっと消えてしまう。残るのは、ポリシー自身の対数確率を、参照ポリシーのそれと比べて書かれた損失だけです。報酬モデルもいらない、RL ループもいらない。選好ペアの上での教師あり学習だけが残る。

覚えておきたいこと: DPO は、この分野が一瞬だけ「小さくて優雅な分野」に見える、そんな結果かと思います。動き回る大量の部品が、ひとつの教師あり損失にきれいに収まる。同じ数学で、装置だけが少ない。

10.5 Best-of-n、アラインメント税、率直な但し書き

もっと素朴な代替もあります。棄却サンプリング / Best-of-n。n 個の候補を生成し、スコアを付けて、いちばんよいものを残す。ポリシーの学習は要らず、ただ推論コストを増やすだけ。それでもなお、強力で、ばかばかしいほど単純な基準線です。

但し書きを 2 つ。1 つは アラインメント税 — 親切さや安全性を強く最適化したモデルは、しばしば素の能力を失います。もう 1 つはもっと根本的な話で、ここで扱っている手法はすべて「人間の承認」を最大化しているのであって、「真実」や「善」を最大化しているわけではありません。モデルは、正しくなることを学ばないまま、好かれることだけを学ぶこともできるのです。

この章はさらに、RLAIF (あるモデルの判断を使って別のモデルをアラインメントする) と Constitutional AI (価値観を平易な言葉で書き下しておく) にも触れています。どちらも「スケール可能な監督」というもっと深い問題の輪郭を、こちらに向けて示してくれます。

第10章のあとに開ける景色

3つの楽章と、ふたつの美しい統計の道具を抱えて、この章を出ます。ここから本書は、関連していて同じくらい数学的な、つぎの問いに向かいます — モデルを作って整えたとして、それが「良い」かどうかを、私たちはどうやって知るのか。

次回 — 第11章: 評価、キャリブレーション、推論。 パープレキシティ、キャリブレーション、すべてのベンチマーク値が本来背負うべき誤差棒、そしてハルシネーションを測るための数学。

全体像を押さえたい方へ: 本書では、Bradley–Terry の完全な導出、DPO の閉形式解とその代入による証明、そして報酬モデル・参照モデル・ポリシーという RLHF の三体構造を、図解で追いかけています。Amazonで『LLM Primer II』を見る