第10章 — 安全性、倫理、信頼

LLM Primer I: How Generative AI Works を章ごとに紹介するシリーズ、第10回です。前回はコストと運用パフォーマンスを扱いました。今日はもう一段やっかいな種類の「コスト」 — LLM システムが大きく失敗したときに、ユーザーの信頼、思わぬ損害、評判の毀損で支払うことになるコスト — に、ご一緒に向き合ってまいります。

ハルシネーション、メカニズムから見る

LLM の代表的な失敗モードといえば、ハルシネーション。流暢で自信に満ちた口調なのに、内容が事実と食い違っている、あの現象です。世間の語り口 — 「AI が嘘をついた」「AI がでっち上げた」 — はミスリードで、意図とはまったく関係のないプロセスを、人格化してしまっているかと思います。

ハルシネーションは、モデルが学習されたとおりのことを、まさにしている結果です。すなわち、入力に対するもっとも確からしい続きを生成すること。学習データの分布が「ここでは自信ありげな口調が出やすい」と示唆していれば、モデルはそういう口調を生成する。その内容が真かどうかには、無頓着なのです。モデルの内部には「知っていること」と「推測すること」を区別する感覚は存在しません。やっているのはトークン上の確率分布を作ることだけで、その次元のどこにも「真理」は含まれていないからです。

ひとことで言うと: ハルシネーションは「モデル側で直すべきバグ」ではない。モデル設計の必然的な帰結です。減らしたいなら、それはシステムの問題 — 検索による接地、検証層、構造化された出力 — として向き合う話。モデル単体の問題ではありません。

この受け止め方は、安全設計のやり方そのものを変えます。「真実を言うように」モデルを学習させるだけでは、まず無理。代わりにできるのは、推論時に検証可能なソースへアクセスさせること、出力をスキーマに照らして検証すること、リスクの高い問い合わせを検証できるシステムへ振り分けること、不確実性をユーザーに透明に伝えること — そういった一連の工夫です。本書は、本番で実際に効くものを順に整理してまいります。

バイアスは、どこから来るのか

人間が書いたテキストで学習する以上、LLM はそのテキストに宿るバイアスをそのまま受け継ぎます。メカニカルには自明ですし、倫理的には重大な事実です。モデルが「バイアスを持つように」プログラムされたわけではなく、人間社会の非対称性を映したデータからパターンを吸ったというだけのこと。

問題は「ここからどうするか」のほう。介入は、上流(学習データのキュレーションで偏りを減らす、表現のバランスを取る、有害物を除く)、中流(センシティブな話題を慎重に扱わせる、特定の要求を断らせる、中立な枠付けで応えさせるなど、アラインメントで仕込む)、下流(出力のモニタリング、バイアスベンチでの評価、高リスク出力の後処理)、と分けられます。

どの段階の介入も、バイアスを完全に消すことはありません。本書はそれを正直に書きます。目標は「緩和、計測、説明責任」であって、「完全さ」ではない、ということです。

ガードレールは、多層で組む

現代のLLMシステムにおける安全設計は、単一の壁ではなく、多層防御の考え方です。入力フィルタリングは、ジェイルブレイクの試みや有害な要求をモデルへ届く前に止めにいきます。システムプロンプトは、各応答に効く振る舞いの境界を敷きます。Constrained Decoding は、トークン空間そのものを制限し、構造上のルールを強制します。生成後の分類器は、出力がユーザーに届く前にもう一度評価し、ポリシー違反があればフラグかブロックを返します。

個々はどれも完璧ではありません。けれど、組み合わせれば多層の防御になり、突破はぐっと難しくなる。本書は、各層をどう設計するか、どこに穴ができやすいか、エンドツーエンドでどう試験するかを、順を追って整理してまいります。とくに気にしておきたいのがプロンプトインジェクション — 取り込んだ文書やユーザー入力の中に敵対的な指示を紛れ込ませ、システムプロンプトを上書きしようとする攻撃。今や本番運用の真剣な懸念事項であり、本書もそのつもりで扱ってまいります。

覚えておきたいこと: プロンプトインジェクションは、現行のLLMシステムが構造的に抱える脆弱性であって、いわゆる「バグ」ではありません。モデルがコンテキストウィンドウ内のテキストを「だいたい同じくらい信頼する」あいだは、コンテキストにテキストを送り込めるだけで、攻撃者はモデルを動かす余地を持つ。防御は技術的なコントロールと、設計上の規律の両方が必要かと思います。

説明可能性、現実的なライン

ステークホルダーはしばしば、「なぜモデルがその答えを出したのか」を知りたがります。正直なところ、本物のメカニズム的な説明 — 出力を学習データ中の具体的なパターンに遡る — は、いまのところ研究課題で、本番システムの機能とは言えません。代わりにできるのは、本気のデプロイメントが頼っている「運用上の透明性」。検索を使ったときには引用を出す、不確実なときは不確実だと表明する、入出力をログして監査可能にする、既知の限界を明文化する。そのあたりです。

本書はここを慎重に扱ってまいります。「AIの説明」について利用者が暗黙に想定しているレベルと、現実に実現できるレベルのあいだには大きな隔たりがあり、それを取り繕うと、結局は信頼が壊れてしまうかと思うからです。

ガバナンス — コードではないレイヤー

第10章の最終節は、技術的コントロールの「上」にある層 — ガバナンス — の話。ガバナンスは、デプロイされたモデルに対して誰が責任を負うか、ローンチ前にリスクをどう評価するか、起きてしまったインシデントをどうエスカレートするか、ポリシーを時間を超えてどう執行するかを定義する、制度の枠組みです。

ガバナンスは、AI 安全性が組織的な現実と出会う場所です。本書がここを真剣に扱うのは、責任あるAIデプロイメントが必ずここに依存しているから。ガバナンスが欠けていれば、よく設計されたシステムでも誤用されえます。逆に、ガバナンスがしっかり立っていれば、不完全なシステムでも責任ある形で運用できる。

第10章を通して、得られるもの

第10章を読み終えるころには、LLM 安全性についての、マーケティング的でない明快な見取り図が手に入ります。何が技術的問題で、何がポリシーの問題で、何が確率的システムの本質的な性質か。区別がつくようになる。自分のリスクプロファイルに合ったコントロールを設計でき、デプロイ判断を担うステークホルダーへ、トレードオフを正直に説明できるようになります。

次回 — 第11章: 最先端の研究。 フロンティアの方角を向きます。Mixture-of-Experts、検索とメモリの仕組み、ネイティブマルチモーダル、継続学習、そして 2024〜2026 をもっとも強く性格づけてきた新しいアーキテクチャパターン — Inference-Time Scaling と推論モデル。

全体像を押さえたい方へ: 本書の第10章では、安全性の各層を図解と例題で追いかけ、本格的なエンタープライズデプロイメントが使うガバナンスフレームワークまでカバーしております。Amazonで『LLM Primer I』を見る

第10章 — 安全性、倫理、信頼: マーケティングの先へ

第10章 — 安全性、倫理、信頼

ハルシネーション、メカニズムから見る

バイアスは、どこから来るのか

ガードレールは、多層で組む

説明可能性、現実的なライン

ガバナンス — コードではないレイヤー

第10章を通して、得られるもの

下田昌平

第10章 — 安全性、倫理、信頼

ハルシネーション、メカニズムから見る

バイアスは、どこから来るのか

ガードレールは、多層で組む

説明可能性、現実的なライン

ガバナンス — コードではないレイヤー

第10章を通して、得られるもの

下田 昌平

下田昌平