RAGの中核構造：RetrieverとGeneratorの役割と分離設計｜LLM入門 2.2 / LLM入門：RAGで強化する生成

2.2 RetrieverとGeneratorの分離モデル

前のセクションでは、RAG（Retrieval-Augmented Generation）の全体構造と処理の流れについて解説しました。RAGの核となるのは「検索」と「生成」を組み合わせた処理ですが、これを実現するうえで重要な役割を果たすのが、Retriever（検索部）とGenerator（生成部）の2つのコンポーネントです。

このセクションでは、それぞれの役割と特徴を明確にしながら、なぜこの2つを「分離して設計する」ことが重要なのかを解説します。

モノリシックなLLMでは限界がある

大規模言語モデル（LLM）は、学習済みの膨大な知識に基づいて、入力文に対して自然な出力を行う優れた言語生成装置です。しかし、LLM単体にすべての知識を保持させようとすると、以下のような問題に直面します。

学習時点で知識が固定される
知識を更新するには再学習が必要
出典が不明瞭になり、回答の根拠を確認できない

これらの問題は、特に変化の激しい業務領域や正確性が求められる現場において、AI活用の障壁となってきました。そこで登場するのが、知識の検索（Retriever）と言語生成（Generator）を役割分担し、連携させるというRAGの構造です。

Retrieverの役割：関連情報の検索

Retrieverは、ユーザーの質問に対して、意味的に関連する文書や知識をナレッジベースから検索して取り出す役割を担います。これは、単なるキーワード検索ではなく、文の意味を捉えた「意味ベースの検索（セマンティック検索）」で行われます。

主な処理内容：

入力文（質問）をベクトル化（Embedding）する
あらかじめベクトル化されている文書群と比較し、類似度の高いものを抽出する
上位n件の文書を選定して返す

この処理には、FAISS、Weaviate、Qdrantなどのベクトル検索エンジンが使用されることが一般的です。また、検索対象の文書は業務マニュアル、FAQ、チャットログ、法務文書など、用途に応じてカスタマイズ可能です。

Retrieverの品質は、最終的な応答の信頼性を大きく左右します。関連性の低い情報を渡せば、どれだけLLMが優秀でも、正しい出力を生成することはできません。

Generatorの役割：文脈を踏まえた自然言語生成

Generatorは、Retrieverが取り出した情報をもとに、ユーザーの質問に対して自然な言葉で応答を生成する役割を担います。ここでは、文脈の統合、回答の要約、適切な言い換えなどが行われます。

主な処理内容：

検索結果をプロンプト形式でLLMに渡す（例：「次の文書に基づいて質問に答えてください」）
ユーザーの質問と、検索された文書の要点を組み合わせた入力をLLMに提供する
文法的に自然で説得力のある応答を生成する

Generatorが優れていれば、たとえ文書がそのままでは読みにくかったとしても、わかりやすく要約された回答を返すことが可能です。ここで重要になるのが、「プロンプト設計」の技術です。RetrieverとLLMの橋渡しとなるこの部分には、高度な設計と調整が求められます。

分離による柔軟性と保守性の向上

RetrieverとGeneratorを分離して設計することには、いくつもの利点があります。

観点	分離することの利点
知識の更新	ナレッジベースの情報更新だけで済む（LLMの再学習不要）
性能の改善	RetrieverとGeneratorをそれぞれ別の手法・ツールで最適化できる
責任分担	「検索の質」と「生成の質」を分けて評価・改善できる
システム構築	モジュール単位での開発・検証・運用がしやすくなる

このように、分離モデルは、システムとしての安定性と進化の余地の両方を実現します。

実装上の選択肢

RAGの構築にあたっては、RetrieverとGeneratorを別のツールやサービスで構成することが可能です。

Retriever：FAISS, Weaviate, Pinecone, Elasticなど
Generator：OpenAI GPT-4, Claude, LLaMA, Mistral, Azure OpenAI など

LangChainやLlamaIndexのようなフレームワークでは、これらを連携させる機能が用意されており、迅速な構築が可能です。

従来の検索との違い

このセクションでは、RetrieverとGeneratorという2つの役割を分けて設計することで、RAGがいかに柔軟で実用的な構造を持っているかを確認しました。
次のセクション「2.3 従来の検索とRAGの違い」では、こうしたRAGの構造が、従来のキーワード検索型FAQやチャットボットと比べて、どのように異なり、どのような点で優れているのかを詳しく見ていきます。

2.2 RetrieverとGeneratorの分離モデル

モノリシックなLLMでは限界がある

Retrieverの役割：関連情報の検索

主な処理内容：

Generatorの役割：文脈を踏まえた自然言語生成

主な処理内容：

分離による柔軟性と保守性の向上

実装上の選択肢

従来の検索との違い

下田 昌平

下田昌平