人間のフィードバックによる強化学習

この記事では、大規模言語モデルのパフォーマンス向上における人間のフィードバックによる強化学習の役割について解説します。

人間のフィードバックによる強化学習とは

人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)は、大規模言語モデルのパフォーマンスを向上させる最先端の手法です。人間の価値観、意見、好み、フィードバックを使用した強化学習で大規模言語モデルをファインチューニング(Fine-tuning)することで、大規模言語モデルの出力をより「人間らしく」「自然に」することを目的としています。

人間のフィードバックを使用して大規模言語モデル(LLM: Large Language Model)をトレーニングする手法は、人間の入力コンポーネントは検索評価と多くの類似点があります。どちらのアプローチも、人間の主観的な入力を利用することで、出力のクオリティ及び関連性を大きく向上させるように設計されています。検索評価の場合、人間は検索結果のランク付けに重点を置く一方で、人間のフィードバックによる強化学習では、自然言語プロンプト、入力プロンプトを表す応答、およびそれらの応答の優先順位の生成に重点を置きます。

人間のフィードバックによる強化学習は、強化学習と人間のフィードバックを組み合わせることにより、人間の好みを報酬信号として使用し、言語モデルがクオリティの高い出力を生成するように導きます。人間のフィードバックによる強化学習は、多様なデータセットを使用することで、言語モデルが異なるな視点に基づいたテキストを生成するように学習することを可能とし、より汎用性が高く多様なコンテキストで有用な言語モデルにすることができます。

主な利点として、ユーザーのニーズにより応えることができるようにすることで、大規模言語モデルのパフォーマンスを向上できることが挙げられます。ユーザーのニーズに応えることは、医療、金融、Eコマースなど、顧客の満足度が他業界以上に重視される業界で特に重要です。人間のフィードバックによる強化学習により、ユーザーのニーズをより理解し、より適切に対応できるようになります。最終的には、顧客満足度やエンゲージメントの向上につながるでしょう。

Appenは、検索関連性のための大規模なデータ提供に関する深い専門知識を持っており、現在、検索に関する専門知識を応用することで人間によるフィードバックによる強化学習を通じて、生成AIモデル(Generative AI Model)の成長をサポートしています。

 

人間によるフィードバックによる強化学習には通常次の3つの主要なステップが含まれます。

  1. データ収集とファインチューニング:人間が生成したプロンプトと応答のデータセットを収集し、言語モデルをファインチューニング(微調整)する。
  2. 報酬モデルのトレーニング:人間が生成したプロンプトに対するモデルの応答に対して、人間が生成したランキングを収集し、報酬モデルをトレーニングする。
  3. 強化学習:強化学習を実行する。

 

プロンプト応答の生成

プロンプトと応答の組み合わせを生成するステップでは、人間が書いたプロンプトと人間が書いた適切な応答のデータセットが組み立てられます。これは、製品の説明や顧客の問い合わせなど、何でも構いません。幅広い層がアクセスできるトピックもあれば、専門知識が必要なトピックもあります。このデータセットは、教師あり学習を使用して言語モデルをファインチューニング(微調整)するために使用されます。

 

レスポンスランキング

応答ランキングのステップでは、大規模なプロンプトのセットごとに、同じプロンプトに対する複数の応答(レスポンス)がモデルからサンプリングされます。これらの応答(レスポンス)は、人間のフィードバック提供者に提示され、人間の好みに応じてランク付けされます。次に、ランキングデータを使用して報酬モデルがトレーニングされます。この報酬モデルは、人間がどの出力をより好むかを予測します。

 

強化学習の実行

最後に、報酬モデルが報酬関数として使用され、言語モデルは報酬を最大化するようにファインチューニングしていきます。このようにして言語モデルは、人間の評価者によって好まれる応答のタイプを優先するようにトレーニングされます。

人間のフィードバックによる強化学習は、異なるフィードバック提供者から学習できるため、多様な視点やユーザーのニーズをよりよく表す応答を生成できる点が強みです。これにより、出力のクオリティと関連性が向上し、言語モデルがより多様なコンテキストで有用な存在になります。

人間のフィードバックによる強化学習の他の利点として、生成AIモデルのバイアスを軽減できることが挙げられます。従来の機械学習アプローチは、特定の人口統計や視点に偏っている可能性のある訓練データに大きく依存しているため、バイアスがかかりやすいリスクがあります。人間のフィードバックを使用することで、よりバランスのとれた代表的な応答を生成することを学習させ、バイアスのリスクを軽減することが可能となります。

 

まとめ

Appenは、大規模言語モデルのパフォーマンス向上に対する人間のフィードバックによる強化学習の有効性を目の当たりにしてきました。人間のフィードバックを使用して言語モデルをトレーニングすることで、弊社クライアントは顧客のニーズを満たす、より魅力的で関連性の高いコンテンツを作成することができます。生成AIを活用して顧客満足度やエンゲージメントを向上させようとしている企業にとって、人間のフィードバックによ                     る強化学習はますます重要な役割を果たすようになるとAppenは考えています。

Website for deploying AI with world class training data
言語