LLM Primer III — RAGで強化するエンタープライズAI: シリーズ紹介とインデックス
「ベースモデルは賢いけれど、自分が何を根拠に答えたかは示せない。RAGは、そこに『鮮度』と『引用可能性』を同時に持ち込むためのアーキテクチャです。」LLM Primer シリーズ、第3巻のはじまりです。これから11日間、1日1章のペースで、RAGスタックを少しずつ開いていきます。エンタープライズで静かに動き続けるか、静かに壊れるかを分ける、その判断の積み重ねを見ていきましょう。
なぜ第3巻があるのか
シリーズの第1巻と第2巻では、モデルそのものを扱いました。第1巻はLLMが何であり、その周りにどんなシステムが組み立てられているかを、平易な言葉で。第2巻はその下の数学を。第3巻は、できあがったモデルに、変化していく文書と、引用が必要な知識と、譲れないアクセス制御を結びつけたとき、その周りに何が立ち現れるかを扱います。
RAGは外から見ると単純です。スライドの3つの箱 — 埋め込み、検索、生成。本番にひとつでも出した方はご存知のとおり、各箱は独立した分野で、デモと法務が信頼するシステムのあいだには数ヶ月の工程が横たわります。パーサーは表をそっと潰します。チャンカーは定義から限定句を切り離します。ベクトルDBのフィルタは、ベンチマークが示すほど効きません。検索器は、意味のない埋め込みの隣人を自信を持って返します。評価ハーネスは、ハルシネーションの上に緑色のダッシュボードを描きます。
本書は、このスタックを一段ずつ、誠実に歩きます。各章はひとつの箱の裏にある分野 — 真面目なチームが本番に出す前に答えなければならない問いの集合です。約束するのは「ひとつの正解アーキテクチャ」ではありません。読み終えたとき、自分のコーパス、自分のチーム、自分の規制境界に対してどのアーキテクチャが正しいか、そして各軸でどんなコストを払っているかが、ご自分で判断できるようになる。それが約束です。
誰に向けて書いたか
RAGシステムを作るエンジニア、それをスコープするテクニカルPM、セキュリティレビューに対して選択を擁護することになるアーキテクト。読み手は、第1巻で描いたLLMの振る舞いに違和感がない程度には慣れていると想定しますが、第2巻の数学までは前提にしません。数学が効く場面では、導出を追わせるのではなく、直感の形で出てきます。重心は工学のほうです — 失敗モードがどこに棲み、どの判断が引き返せて、どれが数年単位でチームを縛るのか。
どう読むか
初期の読者の方々で実際にうまくいった読み方が3つあります。これからエンタープライズRAGを作るところで、判断が現場に到来する順序でスタックを把握したい方は、頭から順番に。すでに動いているシステムがあって、特定の層が痛い方は、パース章、チャンキング章、評価章のいずれも単体で読めるようになっています。あるいは、アーキテクチャレビューの脇に置いて、ベンダーに踏み込む前にチームで交わすべき会話のプロンプトとして章を使う、という読み方もあります。
11章のウォークスルー
3月18日 — 第1章: RAGアーキテクチャの進化。4つのアーキテクチャの姿勢 — Naive、Advanced、Modular、Agentic — と、検索よりもファインチューニングのほうが答えになる場面。
3月19日 — 第2章: インテリジェント文書パース。PDFをそのままテキスト化すると何が失われるのか、レイアウト認識パーサーが取り戻すもの、そしてページを直接読むマルチモーダル系の道筋。
3月20日 — 第3章: アドバンスト・チャンキングのフレームワーク。チャンキングのスペクトラム、オーバーラップの神話、コンテキストの崖、そしてフロンティアの2手法 — コンテクスチュアル・リトリーバルとレイトチャンキング。
3月21日 — 第4章: 適切なベクトルデータベースの選定。専用設計か拡張型か、マネージドの主役たち、オープンソースの陣営、そして本当の選択を決める3軸 — データレジデンシー、運用、コスト。
3月22日 — 第5章: 検索パイプラインの設計。ハイブリッド検索、Reciprocal Rank Fusion、クロスエンコーダによる再ランキング、そして問いと文書を橋渡しするクエリ理解の層。
3月23日 — 第6章: RAGの脅威モデルと脆弱性。プロンプトインジェクション、検索文書経由の間接インジェクション、データ流出経路、そして実際に守らなければならない脅威モデル。
3月24日 — 第7章: アクセス制御の実装。文書単位の権限、インデックス層での行単位セキュリティ、検索呼び出しを通したアイデンティティの伝播、そして監査に耐えるパターン。
3月25日 — 第8章: RAGパイプラインにおけるデータ匿名化。取り込み時のPII検出、マスクの適切な位置、学習データと検索コーパスの非対称性、そして残存リスクの全景。
3月26日 — 第9章: RAG評価トライアド。コンテキスト関連性、回答忠実性、回答関連性 — どこで品質が落ちたのかを特定するための3つの計測。
3月27日 — 第10章: 主要な評価フレームワーク。RAGAS、TruLens、DeepEval、そしてトライアドをCIで使えるものにするための実践的な問い。
3月28日 — 第11章: 継続的なアップデートとパイプライン最適化。インクリメンタルなインデックス更新、ドリフト検出、再インデックスの戦略、そしてローンチ後にRAGシステムが静かに劣化していくのを防ぐ運用の規律。
本書とシリーズについて
LLM Primer シリーズは、エンジニアや創業者、たまに規制当局の方から繰り返し受けた問い — 「これらのシステムは実際どう動いていて、負荷の下で持つものを作るには何が要るのか」 — への、長い形の答えです。第1巻でその輪郭を、第2巻で数学を、第3巻でプロダクションのアーキテクチャをお伝えします。第4巻は執筆中で、モデルの上に乗る認知層、MCPを扱う予定です。
明日、第1章でお会いしましょう。