RAG（検索拡張生成）とは？メリット・導入ステップ・活用事例

09/02/2024

RAG（検索拡張生成）とは？

近年、ChatGPTやGeminiに代表される大規模言語モデル（LLM：Large Language Model）は急速に普及し、世界中の人々にとって身近なテクノロジーとなりました。

従来の生成AIは、学習によって得た知識をもとに自然な文章を生成できる革新的な技術である一方、最新情報へのアクセスがないことや、AIのハルシネーションと呼ばれる、事実とは異なる情報や誤解を招く内容を生成してしまうという課題も抱えています。

こうした課題を解決する手法として、RAG（検索拡張生成）という技術が注目を集めています。

本記事では、RAG（検索拡張生成）の定義、仕組み、メリット、導入のステップ、活用事例、品質管理、パイプライン指標などを解説していきます。

RAG（検索拡張生成）の定義

RAG（Retrieval-Augmented Generation、検索拡張生成）とは、大規模言語モデルに外部情報を検索（Retrieval）する機能を組み込むことで、より正確かつ最新で信頼性の高い出力を実現する技術です。

RAGの仕組み

検索拡張生成と呼ばれるRAG（Retrieval-Augmented Generation）は、大規模言語モデルが本来備えているテキスト生成（Generation）機能に、外部情報を検索（Retrieval）する機能を組み合わせたアーキテクチャです。RAGは、大きく２つのプロセスで構成されています。

プロセス１：検索（Retrieval）

ユーザーの入力に関連する情報を、ナレッジベース、データベース、外部データソースなどから検索・取得するプロセスです。まず、入力をベクトルに変換し、ベクトル検索エンジンを用いて、データソースから関連性の高い情報を検索・取得します。

プロセス２：生成（Generation）

検索プロセスで取得した情報を活用して、ユーザーの入力に対して最適な出力を生成するプロセスです。検索によって取得した信頼性の高い情報（コンテキスト）に基づいて出力を生成するため、事実ベースの出力になりやすく、ハルシネーションの発生を抑える効果も期待できます。

RAGのメリット

従来の大規模言語モデルは、事前に学習した知識に基づいて出力を生成するため、以下のような課題を抱えていました。

学習データのカットオフ日以降の情報を反映できないため、古い情報に基づいた回答になる
汎用的で幅広い分野に対応する一方で、専門的な内容には弱い傾向がある
事実とは異なる情報を生成してしまうハルシネーションが発生しやすい

大規模言語モデルにRAGを実装することで、生成AIは外部データソースから関連情報を取得し、それに基づいた出力を生成することで、より正確で、最新かつ信頼性の高い出力が可能になります。

RAG導入のステップ

RAGを導入するステップとして、主に、導入目的の明確化、データ準備、RAGシステムの構築などがあります。

導入目的の明確化

課題を洗い出し、RAGを導入することでどのような課題を解決したいのか明確化させる。一般的に、例として以下のようなものが挙げられます。

過去の顧客問い合わせやFAQを活用した、顧客サポートの自動化・精度向上
社内マニュアルを基にしたナレッジベースの構築による、業務効率の改善
医療など専門性の高い分野における、顧客支援システムの構築

データ準備

導入目的に合った内部または外部データソースを選定し、データの品質と一貫性を確保する目的でデータクレンジングとデータ前処理を実施します。

RAG導入において、人間の関与は、領域の専門知識や文脈を生データに付加するデータ準備、ベクトル検索の精度向上、生成された出力の品質保証といった面で非常に重要です。

RAGはデータ準備とRAGシステムという2つの主要なコンポーネントから構成され、データ準備では、生データへのアクセス、文脈に基づくデータアノテーション、ドキュメントのチャンク化（細分化）、そしてチャンクをベクトル埋め込みに変換する工程が含まれます。チャンク化により情報の一貫性が高まり、ベクトル埋め込みはRAGジェネレーターがセマンティック検索によって関連情報を見つけ出すために活用されます。

RAGシステムの構築

RAGシステムの構築には、一般的に以下のようなプロセスが含まれます。

ベクトルデータベースの選定

データの埋め込み（数値表現）を保存し効率的な検索を実現するためのベクトルデータベースを選定します。

例：Pinecone、FAISS、Weaviate、Milvus、Qdrantなど

埋め込みモデルの選定

テキストデータを高密度ベクトル表現に変換するために、適切な埋め込みモデル（Embedding Model）を選定します。

例：OpenAI、Cohere、BAAIなどの提供するモデル

検索パイプラインの構築

ユーザーの入力を同じ埋め込みモデルでベクトル化し、ベクトルデータベースを用いて類似性検索を実行します。これにより、関連性の高いドキュメントやテキストチャンクを取得します。

生成モデルの選定

生成フェーズに使用する大規模言語モデル（LLM）を選定します。

生成パイプラインの開発

検索で取得したコンテキストとユーザーの入力を統合し、選定したLLMに渡して応答を生成するパイプラインを構築します。

評価と改善の反復

評価指標を用いて、生成品質を定量的に評価し、システムの精度や有用性を継続的に改善していきます。

テキストデータを高密度ベクトル表現に変換するための埋め込みモデル（Embedding Model）を選定します。（例：OpenAI、Cohere、BAAIなど）
ユーザーの入力を受け取り、データと同じモデルを使用してその埋め込みを生成し、ベクトルデータベースで類似性検索を実行して関連ドキュメントまたはテキストのチャンクを見つけるための検索パイプラインを開発します。
生成プロセスに適した大規模言語モデルを選定します。
結合された入力と取得されたコンテキストを大規模言語モデルに供給し出力を処理する生成パイプラインを開発します。
評価指標を使用して、評価と改善を反復します。

検索拡張生成のユースケースとは

検索拡張生成は、対話型AI、コンテンツ作成、検索エンジンの複雑なクエリ解決まで、幅広いアプリケーションに対応する高い汎用性を備えています。特に、以下のような用途に適しています。

検索拡張生成のユースケース

カスタマーサポート：顧客からの問い合わせに対して、正確かつ状況に応じた応答を提供します。
教育：幅広い知識に基づいて、詳細な説明及び回答を提供します。
調査・分析ツール：複雑な情報から包括的な要約を抽出します。
コンテンツ生成：幅広い領域に渡る、豊富で有益、そして関連性の高いコンテンツを作成します。

検索拡張生成の卓越性

検索拡張生成の有効性は、そのアーキテクチャ全体に渡る緻密な意思決定に依存します。

外部データ準備：文脈の本質を失わずに、データを選択し、一貫した単位にチャンク化します。弊社Appenは、データアノテーションとチャンク化に関する専門知識を有し、文脈に応じた正確なデータアノテーションを行います。
埋め込み技術：効率的な検索のため、テキストチャンクを埋め込みに変換するための適切な方法を選択します。
関連性とランク付け：アルゴリズムによってユーザーの入力に対する検索データの関連性を判断し、ランク付けを行います。弊社Appenは、Human-in-the-loopのアプローチにより、検索データの関連性とランク付けを向上させします。

検索拡張生成の品質管理

検索拡張生成の出力の品質と精度を確保するには、いくつか考慮すべき点があります。

包括的なデータアノテーション：人間が関与し、正確にデータアノテーションを行い、分類します。弊社Appenのデータアノテーションサービスは、正確で文脈に即したデータアノテーションを行います。
バイアスの低減：データセットとモデルの応答の両方にあるバイアスを発見し、低減します。
継続的な評価：一貫性と信頼性を確保するため、様々な入力 (プロンプト)に対してモデルを定期的に評価します。弊社Appenの品質管理プロセスは、モデルのパフォーマンスを長期にわたって維持します。

自動評価指標

検索拡張生成の品質と整合性を高めるためには、人間の関与が不可欠ですが、自動評価指標はこれらのアーキテクチャのパフォーマンスを継続的にモニタリングする上で重要な役割を果たします。この指標により、AI開発チームは改善すべき領域を迅速に特定でき、検索拡張生成がリアルタイムアプリケーションで効果的かつ効率的に機能することを保証できます。

検索と生成の両方のフェーズにまたがる、検索拡張生成パイプラインで使用されるコアな自動評価指標を掘り下げてみましょう。

検索拡張生成パイプライン指標

検索指標

コンテキストの再現率 (Context Recall)：この指標は、検索コンポーネントによって正常に返された関連チャンクの割合を評価します。
コンテキストの精度 (Context Precision)：この指標は、検索したチャンクが関連性があるものとして分類される精度を評価します。

生成指標

生成段階の指標は、入力に対する出力の忠実性と関連性に焦点を当て、生成された出力が正確かつ適切であることを評価します。

忠実性：検索された関連チャンクの正確性から逸脱した生成された出力の数を評価します。
関連性：ユーザーの入力に関連しない生成された出力の数を評価し、出力がトピックに沿っていることを評価します。

人間の創造性

自動評価指標は、検索拡張生成システムのパフォーマンスを定量的に評価します。しかし、人間の関与も重要です。人間の関与によって、自動化されたシステムが見逃す可能性のある言語や文脈の微妙な違いを捉えることができ、とても効果的です。人間の関与は、以下の点で非常に重要です。

データアノテーションとチャンク化：チャンクが文脈に沿ったものであり、アノテーションが正確であることを保証します。弊社Appenのデータアノテーションサービスはこの分野の専門知識を有しています。
モデルのトレーニングとチューニング：適切な理解とフィードバックに基づいて、モデルを改良します。弊社Appenが有するモデルトレーニングとチューニングの専門知識は、最適なパフォーマンスとモデルドリフトをモニタリングします。
品質管理：モデルの出力の精度、有用性、安全性をモニタリングします。弊社Appenの品質管理はとても高水準のプロセスです。
コンテキストの整合性の確保：AIの理解が及ばないニュアンスや文脈 (コンテキスト)を解釈します。弊社AppenのHuman-in-the-loopのアプローチは、コンテキストの整合性を保証します。
エラーからの保護：人間による継続的なモニタリングにより、エラーや不正確さをリアルタイムで特定し、修正します。

自動評価指標と人間の判断の両方を統合することで、検索拡張生成システムは、アプリケーションに不可欠な高度な精度、関連性、信頼性を確保できます。

Appenができること

データアノテーション、モデルトレーニング、品質管理における弊社Appenの豊富な経験と活用することで、企業は検索拡張生成アーキテクチャの可能性を最大限に引き出すことができます。Appenは、データの準備、チャンク化、モデル応答の最適化をサポートします。

まとめ

効果的なAIシステムには、AIのライフサイクル全体にわたって人間の関与が必要です。AIモデルをデプロイする効果的な方法の1つは、検索拡張生成アーキテクチャを使用することです。検索拡張生成システムにより、AIチームはより深い領域の専門知識を活用して、基盤モデルの言語能力を向上させることができます。汎用化された基盤モデルがトレーニングされたことのない領域について理解する際、検索拡張生成用に準備されたドキュメントとデータが役立ちます。

弊社Appenは、データの準備からモデルの評価及び改良まで、検索拡張生成プロセスにあらゆるフェーズで専門知識を提供し強力に支援します。

RAGに関するご相談はお気軽にお問い合わせください！

お問い合わせ