第11章 — 最先端の研究

LLM Primer I: How Generative AI Works を章ごとに紹介するシリーズ、第11回です。前回は安全性、倫理、信頼を扱いました。今日は前を向いてまいります。第11章で取り上げるのは、2024〜2026 にこの分野をもっとも強く形作ってきた研究の方向。なかでもひとつは、地形そのものを書き換えるレベルの変化を起こしたかと思います。

Mixture of Experts — もう「研究段階」ではない

つい数年前まで、Transformer ベースのLLMはどれも、入力ごとにすべてのパラメータを活性化していました。700 億パラメータのモデルなら、次の1トークンを予測するためにその 700 億をすべて使っていた、という具合に。これは計算上、明らかに無駄を含んでいます。ほとんどのパラメータは、ほとんどの入力に対して、本当は関係していないからです。

これを直すのが、Mixture-of-Experts(MoE)アーキテクチャの発想。モデルは多数の特化したサブネット — エキスパート — を内部に抱えますが、ある入力に対して活性化されるのはその一部だけ。小さなゲーティングネットワークが、どのエキスパートを呼び出すかを決めます。結果として、総パラメータ数は莫大 — 能力を担保する側 — でありながら、1トークンあたりの計算量は抑えられた — 効率を担保する側 — モデルが手に入る。

ひとことで言うと: MoE は「容量」と「計算量」を切り離します。総パラメータが 6000 億のモデルでも、1トークンあたりに動くのは 300 億かもしれない。フロンティアモデルが性能を上げ続けても、推論コストが同じ比率では伸びていないのは、ここが大きい。

2026 年版は MoE を「研究中の話題」ではなく「本番技術」として扱います。事実、すでにそうなっているからです。主要なフロンティア家族のいくつかが MoE 構成を採用しています。本書では、ルーティングの仕組み、ロードバランシングの難所、そしてなぜこのパターンが当分のあいだ主流であり続けそうなのかを、順に解説してまいります。

メモリの仕組み

標準的なLLMが持つ「メモリ」は、基本的に1種類 — パラメータです。学習を終えてしまえば、その知識は次の学習ランまで凍結されます。これに対し、検索とメモリに関する研究は、モデルに「2つ目のメモリ」を持たせようとしてきました。外部にあり、更新でき、推論時に参照可能なメモリです。

第7章で扱った RAG はその中でもっとも一般的な実装ですが、もっと大きなファミリーの一員でもあります。微分可能なメモリモジュールは、検索操作のあいだに勾配を通すので、モデル自身が「どう取り出せばいいか」まで学べるようになる。長コンテキスト・メモリ機構は、会話の前半を圧縮してとどめておくことで、コンテキストウィンドウの公称値以上のことを「覚えていられる」ようにする。本書は各方向を扱い、どこまでが成熟していて、どこからがまだ投機的かを整理してまいります。

ネイティブなマルチモーダル

初期のマルチモーダルシステムは、ビジョンと言語に別々のエンコーダを置き、フュージョン層でつなぎ合わせていました。現世代はもっと上品なやり方へ移っています — 画像、音声、動画を直接トークン化して、テキストと同じ Transformer に流し込む。アーキテクチャの側は、いま自分が扱っているトークンが「何由来か」を知らないし、気にもしない、というわけです。

現代のフロンティアモデルが、ひとつの会話のなかでモダリティを滑らかに切り替えられる理由、写真を見て描写しながら直前のテキスト会話を続けられる理由、そして動画をファーストクラスの入力として受け入れるモデルが現れている理由は、すべてここに端を発します。本書では、このアーキテクチャ転換が「コンテキスト予算、レイテンシ、解けるタスクの種類」に何をもたらすかを順に整理してまいります。

継続学習、正直なところ

出荷されているLLMのほぼすべては、学習時点で凍結されています。知識を更新したいなら、再学習やファインチューニングのフルサイクルを回すしかない。継続学習は、本番運用中のモデルが、すでに知っていることを忘れずに、パラメータを少しずつ更新していけないか、という研究方向です。

見た目以上に難しいテーマです。主たる障害は「破滅的忘却」と呼ばれる現象。新しいデータでニューラルネットを学習させると、古いデータから掴んでいたパターンが、上書きされて消えてしまいやすい。これを大規模で確実に解くのは、いまも未解決の問題のままです。本書は何が動いていて何が動いていないか、そしてなぜ多くの本番システムが「最新情報が欲しいときには、継続学習ではなく検索に頼り続けている」のかを、率直に書きます。

新しいスケーリング軸 — 推論モデル

2026 年版で個人的に最も心躍るセクションです。2024〜2026 にかけて、新しいモデル群が現れました。推論モデル、Chain-of-Thought モデル、Inference-Time Scaling モデル — 呼び方はいろいろです。彼らは、この分野の「能力」の捉え方そのものを書き換えました。

機構の概略はシンプルです。推論モデルは、選好最適化と、「検証可能な結果を持つタスクへの強化学習」を組み合わせて学習され、最終的な答えを出す前に、長い内部の中間トークン列を生成するようになります。この中間トークン列が、ワーキングメモリとして働く。問題を分解し、候補となる道筋を探り、自分の算術や論理を点検し、誤りに気づいたら修正する。ユーザーが最終的に目にするのは答えだけですが、そこへ至るあいだ、モデルは中間のトレースをずっと使っているのです。

「Chain-of-Thought プロンプティング」と何が違うかというと、能力の「居場所」が違います。Chain-of-Thought プロンプティングは、汎用モデルにプロンプトを工夫して外部から推論させる手法。推論モデルは、そうではなく、推論するように学習されていて、その振る舞いはプロンプトではなくポリシーそのものに織り込まれているのです。

覚えておきたいこと: Inference-Time Scaling は、システムの運用上の形を変えます。レイテンシも1リクエストあたりのコストも、もはや固定の数字ではない。モデルが「どれくらい考えるか」によって、桁単位で揺れます。アプリ側は、ストリーミング、キャンセル、タイムアウトの方針をきちんと整える必要がある。推論モデル以前は、ここまでの作り込みは要らなかったのです。

こうして、能力を伸ばす軸はおおむね独立した2本になりました。学習軸は「モデルがデータから何を学んだか」、推論軸は「個別の入力にどれだけ熟慮するか」を決める。十分に長く考えることを許された小さめのモデルが、ワンパスで答える大きめのモデルを、問題によっては凌駕する — モデル選択を支配してきた「スケールとコストのトレードオフ」が、ここから描き直されつつあります。

これからの方向

本書は第11章を、未解決の研究課題の見取り図で締めくくります。効率 — より少ない計算でより多くを。推論 — マルチステップの思考をより信頼できるものに。アラインメント — 能力が伸びても、振る舞いを良いところに保つ。アーキテクチャ — Transformer がこのまま主流であり続けるのか、それともまったく別の何かが台頭するのか。

今後数年を、たったひとつのブレイクスルーが支配する、という展開は想定しておりません。進歩はおそらく、それぞれが一片を担う多数の手法を、丁寧に統合していった先から立ち上がる。物語としては「次の big thing」のほうが気持ちよく聞こえますが、現実はもう少し地味かと思います。

第11章を通して、得られるもの

第11章を読み終えるころには、今この分野を形作っている主要な研究の方向を、ひと通り見渡せるようになっているはずです。新しいフロンティアモデルの発表を読んで、そのアーキテクチャ上の主張を正しく位置づけられる。「次に何が来そうか」 — 期待できる方向と、まだ曖昧な方向 — について、自分の枠組みで考えられる。

次回 — 第12章: 自分の LLM システムを構築する。 本書の最終章です。シリーズの締めくくりとして、LLM システムを実際にエンドツーエンドで作るために必要なもの — データセット、学習パイプライン、評価フレームワーク、統合スタック、そしてうまくいく本番デプロイメントに共通するパターンを扱ってまいります。

全体像を押さえたい方へ: 第11章は 2026 年版で大幅に手を入れ、初版にはなかった「推論モデル」と「ネイティブマルチモーダル」の専用セクションを追加いたしました。Amazonで『LLM Primer I』を見る

第11章 — 最先端の研究: MoE、推論モデル、新しいスケーリング軸

第11章 — 最先端の研究

Mixture of Experts — もう「研究段階」ではない

メモリの仕組み

ネイティブなマルチモーダル

継続学習、正直なところ

新しいスケーリング軸 — 推論モデル

これからの方向

第11章を通して、得られるもの

下田昌平

第11章 — 最先端の研究

Mixture of Experts — もう「研究段階」ではない

メモリの仕組み

ネイティブなマルチモーダル

継続学習、正直なところ

新しいスケーリング軸 — 推論モデル

これからの方向

第11章を通して、得られるもの

下田 昌平

下田昌平