第1章 — 大規模言語モデルとは何か

LLM Primer I: How Generative AI Works を章ごとに紹介するシリーズの第1回です。本書は「現代の生成AIをメカニズムから理解する」という方針でまとめました。今後12回にわたって各章を紹介しつつ、内容を整理するためのフレームワークを共有し、なぜそういう構成にしたのかも書いてまいります。

シンプルそうで、実はそうでもない問い

「大規模言語モデルって何ですか?」と100人に尋ねれば、たぶん100通りの答えが返ってきます。そして、そのほとんどは、どこかしらが微妙に間違っている。「AIだよ」「チャットボットでしょ」「会話できる検索エンジン」「ゆうべうちの報告書を書いてくれたやつ」 — どれも完全な誤りではないのですが、いずれも「LLM が何をするか」の話であって、「LLM とは何か」の話にはなっておりません。

第1章で扱うのは、後者の問いです。入門書の多くがさらっと素通りし、マーケティング文書が積極的に煙に巻く、あの問い。ここを正確に押さえておかないと、LLM に関するそれ以外の主張を評価することが、ぐんと難しくなってしまうかと思うのです。

ひとことで言うと: 大規模言語モデルとは、テキストの「次に来るもの」を推測する装置です。基本的にはそれだけです。表に現れる派手な振る舞いは、この単純な推測を、極めて高精度で、数十億回連続で繰り返した結果でしかありません。

3つの単語を、まじめに分解してみる

本書ではまず「LLM」という用語を、一語ずつ丁寧に開いていきます。略号として流通するうちに、それぞれの語が背負っている重みが、いつの間にか見えなくなってしまうからです。

Large (大規模) は物理的な大きさのことではありません。システムの内部に、数十億オーダーの数値設定 — パラメータ — が並んでいて、それらが学習の中で調整されてきた、という意味です。同時に、その学習に投入されたテキストの量も、計算資源も、桁外れに膨大であることを指します。この3つの数 — パラメータ、データ、計算量 — はバラバラには伸ばせません。3つが揃って初めて、モデルは本当に賢くなる。どれかひとつだけ倍にしても、たいてい肩透かしに終わります。

Language (言語) は言葉どおりに見えて、ここでは独特の意味を帯びます。モデルは、人間と同じやり方で文法や意味を理解しているわけではありません。扱っているのは「トークン」と呼ばれる、単語より小さな単位の列です。モデルから眺めれば、どのプロンプトも結局は数値の列にすぎず、返答も「次の数、その次の数、さらに次の数……」という続きでしかないのです。

Model (モデル) は、3つの中でもいちばん誤解されやすい言葉です。ここでいうモデルは、事実を引いてくるデータベースではないし、何かを「知っている」人間でもありません。学習済みの数学的な関数、いわばパターン認識器であって、与えられたテキストの「ありそうな続き」を生成する仕組みです。モデルが「フランスの首都」を知っているように見えるとき、何かを検索しているわけではなく、プロンプトの残りを踏まえて「Paris」がいちばん確率の高い次トークンだから、「Paris」を出している。それだけのことなのです。

この区別はあなどれません。LLM がハルシネーションを起こす理由、自信満々に間違える理由、流暢な文を書くのは得意な一方で事実については信頼しきれない理由 — 全部、ここに行き着きます。本書ではこの区別に何度も立ち戻ります。どのLLMがどんな状況でどう振る舞うかを予測するうえで、もっとも筋のいいレンズかと思っているからです。

ここに至るまでの道のり、ひと段落で

第1章では、言語モデリングがどう進化してきたのかも辿ります。現代のLLMは、数十年に及ぶ流れのいちばん新しい章にあたるからです。長らくコンピュータは、人間が書き起こした文法ルールに頼るか、本の中で特定の単語ペアがどれくらい出現するかを数えるかで、言語を扱ってきました。どちらの道も、ある段階で頭打ちになります。突破口になったのは、ルールを教え込むのではなく、膨大なテキストからパターンそのものを学ばせるという発想。LLMの根っこにある考え方は、世間が思っているよりずっと古いのです。新しいのは、いまそれが回っている「規模」のほうかと思います。

すべてを変えた具体的なアーキテクチャの一手は、第3章と第4章に取っておきます。ここでひとつだけ言わせてください。「単語の頻度を引く」から「パターンを学ぶ」への移行 — これが、自然言語処理の歴史でいちばん大きな転換点でした。ここを腹に落とすと、その後の流れがすっきりつながって見えてくるかと思います。

真剣に反論しておきたい、3つの誤解

章の終わりに、LLM の振る舞いについて世間に根強く残っている3つの誤解を、まじめに取り上げます。なぜまじめに、なのか。どれも、信じてしまうと「LLMを信用していい場面、悪い場面」の見極めを狂わせるからです。

ひとつ目は、LLM は人間と同じやり方で理解している、という誤解。違います。理解しているように見える出力が出てくるのは、本当に理解している人間の書いたテキストを学習しているから。ふたつ目は、LLM は事実のデータベースだという誤解。違います。事実は数十億の重みのあちこちに分散して埋め込まれており、だからこそモデルは「もっともらしいけれど誤っている」発言を、平然とできてしまう。3つ目は、より大きなモデルは必ず賢いという誤解。違います。スケールは、データ品質、学習目的、アーキテクチャと絡み合っていて、入手可能な最大モデルが常に正しい道具だとは限らない。そう簡単な話ではないのです。

覚えておきたいこと: 「自信ありげに聞こえるLLM」と「正しいLLM」はまったく別物です。流暢さと正確さは、由来こそ同じメカニズムでも、そこに効いてくる制約はまるで違うかと思います。

第1章を通して、得られるもの

章の終わりには、LLM が何で、何でないか、いま自分なりの定義を持って語れるようになっているかもしれません。分野がここに至った経緯と、ありがちな誤解についての見通しも、合わせて手に入ります。1章としてはなかなかのお土産で、これがそのまま、本書を読み進めていただくための足場になるよう書きました。

第1章だけ読んで、そこで止めていただいたとしても、世間の見出しよりはずっと正確に LLM を語れるようになっているかと思います。ご一読いただければ幸いです。

次回 — 第2章: 確率、トークン、テキスト。 明日は、「トークン」とはいったい何なのか、なぜモデルは本質的に「確率の機械」なのか、そしてモデルが本当にやっていること — 次トークン予測 — が、どうしてあれだけ多様な出力を生み出せるのか、を具体的に解きほぐしてまいります。

全体像を押さえたい方へ: 本書では、この記事で触れた各論を、もっと丁寧に、図解と「やさしい言葉で言うと」コラム、必要なところでは技術的な精度も保ちながら扱っています。Amazonで『LLM Primer I』を見る

第1章 — 大規模言語モデルとは何か (見出しの先へ)

第1章 — 大規模言語モデルとは何か

シンプルそうで、実はそうでもない問い

3つの単語を、まじめに分解してみる

ここに至るまでの道のり、ひと段落で

真剣に反論しておきたい、3つの誤解

第1章を通して、得られるもの

下田昌平

第1章 — 大規模言語モデルとは何か

シンプルそうで、実はそうでもない問い

3つの単語を、まじめに分解してみる

ここに至るまでの道のり、ひと段落で

真剣に反論しておきたい、3つの誤解

第1章を通して、得られるもの

下田 昌平

下田昌平