RAGは本当に不要になるのか？長文対応LLM時代の検索戦略を再考する｜LLM入門 7.3 / LLM入門：RAGで強化する生成

7.3 モデルの進化とRetrieval不要論の可能性？

RAG（Retrieval-Augmented Generation）は、外部の知識ソースと大規模言語モデル（LLM）を組み合わせることで、「自社に最適化されたAI」を実現するための設計手法です。
しかし近年、モデル自体の進化──とりわけ長文コンテキスト対応とパラメータの増加──により、「もはや検索（Retrieval）は不要なのではないか？」という議論が注目を集めています。

このセクションでは、いわゆる「Retrieval不要論」の背景にある技術的進展を紹介しつつ、それがRAGの設計に与える影響と、現実的な適用可能性について考察します。

Retrieval不要論とは何か？

Retrieval不要論とは、以下のような発想です：

「モデルが非常に多くの情報を一度に読み込めるなら、わざわざ検索して文脈を絞る必要はないのでは？」

この考えは、主に以下の2つの技術的進展によって支えられています：

大規模コンテキストモデルの登場（GPT-4 128k, Claude 2, Gemini 1.5 など）
事前学習の多様化と強化（知識量の増加と自己補完能力の向上）

コンテキスト長の劇的拡張

以前のLLMは4,096トークン（数千単語）程度が限界でしたが、現在では10万〜100万トークン以上の入力を処理できるモデルが登場しています。

モデル別コンテキスト上限の例：

モデル	最大トークン数	備考
GPT-3.5	4,096	従来モデル（多くのRAGで使われてきた）
GPT-4 128k	128,000	書籍数冊分に相当する文書を一括処理可能
Claude 2.1	約200,000	英語中心。社内文書一式を一括投入可
Gemini 1.5	1,000,000	テキスト＋画像＋コードも含めたマルチモーダル対応

これにより、次のような構成が現実味を帯びてきました：

数千ページの社内マニュアルを「事前に検索せずにすべて渡す」
多言語や過去の応答履歴なども「そのまま保持し続けたまま応答」

Retrieval不要論の魅力と限界

魅力（メリット）：

シンプルな設計：RetrieverやEmbedding、ベクトルDBが不要になる
漏れのない情報伝達：「検索による取りこぼし」を避けられる
即時対応：文書追加・更新に対して柔軟（再インデックス不要）

限界（デメリット）：

コストと速度：超長文コンテキストは処理時間が長く、コストも高い
文書の選別が不要になるわけではない：情報が多すぎればモデルが迷う
トークン圧縮の必要性：10万トークンといっても、情報密度が低ければ意味がない
セキュリティ・検証の難しさ：モデルがどの情報に基づいたかを追跡しにくい

Retrievalは「最適化のレイヤー」として残る

重要なのは、Retrievalをやめるのではなく、“より高度な前処理”として位置づけ直すことです。

モデルに渡す文書を事前に取捨選択することで、精度と速度を最適化できる
Retrieverは「全部読む」よりも「適切に絞る」ためのフィルター機能と考える
生成の説明責任や評価プロセスにおいて、Retrieverによる出典管理は依然重要

特に、以下のような状況ではRetrieverの価値は失われません：

文書が頻繁に更新される
モデルへの入力制限が現実には存在する（API経由での使用など）
回答の出典を明示する必要がある（医療・法務・社内QAなど）

「Retrieveしなくても良い場合もある」が正確な理解

Retrieval不要論は、現時点では一部のユースケースにおいて選択肢が広がったという理解が適切です。
モデルの進化によって、RAGを採用するか否かの判断は次のように変化しています：

条件	推奨構成
文書量が少なく、構造が明確	Retrieval不要構成（直接インジェスト）
文書量が多く、検索効率が重要	RAGによる構成
出典明示や回答の説明責任が必要	RAG＋出典制御型
曖昧な質問に対する柔軟な回答	Retrieval＋Multi-Vector構成

結局、RAGはどう使い続けるべきか

このセクションでは、モデルの進化によって「検索しなくても済むかもしれない」という新たな選択肢が生まれてきたことを整理しました。
次のセクション「7.4 結局、RAGはどう使い続けるべきか」では、RAGという設計思想を「今後も使い続ける価値があるのか？」という視点から再評価し、長期的な導入戦略としての指針を考えていきます。