第6章 — ファインチューニングと適応
LLM Primer I: How Generative AI Works を章ごとに紹介するシリーズ、第6回です。前回はベースモデルがどう学習されるかを見せました。今日は、そのあとの話 — 事前学習を終えたモデルが、どう「使える製品」になっていくかを、一緒に追ってまいります。多くの場面で、土台のモデル本体よりも、ここの仕掛けのほうが効いてくる理由を扱います。
事前学習は広く、適応は狭く
事前学習を終えたばかりの大規模言語モデルは、なかなか奇妙な存在です。テキストから途方もない量の構造を吸い込んでいて — 文法、事実、慣用句、コードのパターン、引用スタイル、ジョーク、誤り、思想 — それらが全部、整理されないまま混ざっている。ただ、「いつ、どれを出すべきか」については、まったく意見を持っていません。「フランスの首都は?」と聞けば、「パリ」と答えるかもしれませんし、クイズ本のように勝手に続けてしまうかもしれない(「ドイツの首都は? イタリアは?」)。「直接の答えがほしい」と教えた人が、誰もいないからです。
適応とは、これを矯正していく技法の総称です。事前学習済みモデルは、実用的な意味では「だいたいの知識はもう持っている」。そこから先、適応がやっているのは、その知識を「いつ、どう出すか」を整えることなのです。第6章は、もっとも軽いタッチから重いタッチへと、適応スペクトルを順に追ってまいります。
いちばん安い一手 — 「もっと良いプロンプトを書く」
もっとも軽い適応はコストゼロで、パラメータをひとつも変えません。プロンプトに文脈を仕込むことで、モデルの出力を望む方向へ寄せる、それだけのことです。タスクの例を2〜3個見せてから「もう1問やってみて」と頼む。ルールを明示的に書く。モデルに演じてほしい役柄を定義する。
これが「プロンプトベースの適応」と呼ばれるもので、これでうまく回るなら、それが正解です。学習パイプラインも、GPU の請求書も、壊すリスクも、いっさい背負わなくていい。本書では、プロンプトベースの適応がどこで限界にぶつかるか(限界は確かにあります)、そしてそれを越えていることに気づくサインも整理しました。
Instruction Tuning — モデルに「あなたに従う」を覚えさせる
Instruction Tuning は、もっとも軽い「本物のファインチューニング」で、生の事前学習済みモデルを、現に皆さんが使っている「応答的なアシスタント」へと変えてきた工程です。やっていることは単純で、指示と応答の組(「次の段落を1文で要約せよ:…」)をモデルに大量に見せ、比較的短い時間そこで学習させる、というだけ。
これを通すと、モデルは「プロンプトに書かれていることに従う」という汎用スキルを内面化します。もう毎回明示的な例を見せる必要はない。今のチャットボットがチャットボットらしく振る舞えるのは、たいていここのおかげで、タイプライターの上のオートコンプリートとは、ここで明確な差が出ます。
パラメータ効率の良いファインチューニング
フルファインチューニング — モデルのパラメータをすべて更新する — は、お金がかかり、汎用能力を毀損するリスクも背負います。この数年、ごく一部のパラメータ(多くは1%未満)だけを学習することで、大規模モデルを適応させる手法群が育ってきました。
もっとも有名なのが LoRA(Low-Rank Adaptation)です。凍結したモデルの重みに沿わせる形で、ごく小さな行列を差し込み、その行列だけを学習する。結果として残るのは、ベースモデルに重ねれば「ファインチューンされた振る舞い」を再現する、わずか数MB程度のアダプタファイル。さらに踏み込んだ QLoRA のようなバリアントでは、ベースモデルまで量子化して、全体を1枚のアクセラレータに収めてしまいます。
これが、自分でベースモデルを学習しない組織にとって、ドメイン固有のファインチューニングを「現実的な選択肢」にしてくれた手法です。本書は、主要なパラメータ効率手法を横並びで比較した表も載せてありますので、ユースケースに応じて選びやすくなっているかと思います。
アラインメント — 本当に効いてくる「後学習」
2026年版でいちばん思い入れのあるセクションです。アラインメントはこの分野でもっとも動きの速い領域で、同時に、多くの読者の理解がもっともあいまいな領域でもあります。中心の発想はシンプルで、Instruction Tuning を通過したモデルでも、なお望ましくない出力(不正確、不安全、ポリシー違反、無益)を出すことがある。アラインメントは、そういう出力を抑え、人間が好む方の出力に確率を寄せていく技法群です。
最初に大きく広まったのが RLHF(人間のフィードバックによる強化学習)。レビュアーがモデル出力のペアを見て「こちらが良い」を選び、その判定から「人間の選好を予測する」報酬モデルを学習する。そのうえで、報酬モデルを学習信号として、ベースモデルを強化学習で微調整します。劇的な改善をもたらした一方で、学習が不安定で、お金もかかる、ということでも有名でした。
次世代として現れたのが、Direct Preference Optimization(DPO)とその近縁手法。ペアの選好を、教師あり学習の直接的な信号として扱い、独立した報酬モデルと強化学習ステップそのものを取り除いてしまう発想です。結果として、より安定し、より安く、再現性も高くなりました。
さらに3つ目の系統として、Constitutional 系や AI フィードバック系のアプローチがあります。これは「人間によるレビュー」の一部を、書き起こされた原則に照らして比較する「より強いモデル」に置き換える、というもの。これにより、人手レビュー単体では到底届かない規模まで、アラインメント用のデータをスケールできるようになります。
第6章を通して、得られるもの
第6章を読み終えるころには、適応の全パイプラインを — プロンプトの工夫からアラインメントまで — 一通り見渡せるようになっているはずです。新しいモデルの発表を読んだとき、「新しいベースを学習した」(まれで、お金がかかる)のか、「後学習を更新した」(よくあって、しかし効く)のかを見分けられる。そして、自分の仕事でどの適応技法を使うべきか、判断のための物差しが手に入ります。
次回 — 第7章: 次トークン予測の先へ。 基本の生成ループの外側へ。Embedding、セマンティック検索、Retrieval-Augmented Generation(RAG)、そして画像や音声まで扱うマルチモーダル拡張へと、視野を広げてまいります。