教師ありファインチューニングで多言語LLMの性能を向上させる

04/09/2025

ケーススタディ:教師ありファインチューニング

Appenは、構造化された人間のフィードバック形式で学習データを提供することで、世界有数のIT企業が開発する多言語対応の大規模言語モデル(LLM)の性能向上を支援しました。

Appenのプロジェクトメンバーは、複数ターンの対話を行い、5つのモデルバリエーションからの応答を、応答の関連性、一貫性、正確性、流暢性といった基準に基づいてランク付けしました。その結果、25万行以上の対話データが収集され、教師ありファインチューニングによるモデル出力の改良に貢献しました。

プロジェクト開始前、5つ言語と10の方言にのみ対応していたこの大規模言語モデルは、現在では30以上の言語と70以上の方言に対応し、モデル応答における文化的整合性と言語精度を大幅に向上させています。

プロジェクト目標

本プロジェクトでは、アラビア語、中国語、ドイツ語、ロシア語、スペイン語などの各言語、そしてそれぞれの方言における大規模言語モデル(LLM)の性能向上がプロジェクト目標として設定されました。

多様な言語コミュニティに合わせて、より正確で文脈に即した、流暢な出力を提供することを目指しました。そのため、モデル出力に対する人間の好みのランキングを収集し、構造化された改良を加えることで、文化的・言語的な整合性を高める必要がありました。

プロジェクト要件

本プロジェクトの要件を紹介します。

要件1:高品質のプロンプトの必要性

本プロジェクトでは、多言語かつ多方言に対応した高品質のプロンプトが必要でした。

要件2:多様な学習データの必要性

多様な学習データが不可欠であったため、AI学習データを充実させるために、対話の内容や難易度も多岐にわたるように工夫しました。

要件3:モデル応答のローカリゼーション

モデルの応答を評価する際には、各方言や地域の特性を考慮してローカライズする必要がありました。

要件4:修正と改善

モデルの応答に改善の余地が見られた場合には、教師ありファインチューニング(SFT)に適した、より洗練された修正を提供する必要がありました。

プロジェクトで直面した課題

本プロジェクトで直面した課題を紹介します。

課題1:マイナー言語話者の確保

クメール語やマラーティ語のようなあまり話されていないマイナー言語に精通したプロジェクトメンバーを確保すること。

課題2:言語と方言の多様性

各言語・方言において、プロンプトとモデルの応答が文化的に適切であり、かつ言語的にも正確であることを保証すること。

課題3:大規模で高品質な評価

AIデータの品質基準を維持しながら、複数の基準で対話評価を行うこと。

課題4:ファインチューニングに適したデータの確保

モデルの出力に修正が必要な場合、プロジェクトメンバーが提供する洗練された応答がSFT(スーパー・ファインチューニング)の品質基準を満たすことを保証すること。

課題に対する解決策

本プロジェクトで直面した課題に対する解決策を紹介します。

解決策1:専門知識を持つ人材確保

Appenは、各言語・方言を話すネイティブスピーカーを募集し、大規模言語モデル(LLM)に関する経験を持つ人材を選定しました。これにより、単一言語や複数言語間で適切な、文化的に関連した文脈に合ったプロンプトを作成できるようになりました。

解決策2:優先順位付けプロセスの構造化

プロジェクトメンバーは、5つの異なるモデル設定で複数ターンの会話に参加し、応答を一貫性、事実の正確性、流暢さ、指示の従順さに基づいてランク付けしました。このランキングは、方言ごとのモデルパフォーマンスに関する重要なインサイトを提供しました。

解決策3:教師ありファインチューニングに適したデータの準備

ランク付けプロセスで得られた洗練された応答は、高品質な学習データに変換され、実際の言語的・文化的ニュアンスと一致するよう調整されました。

解決策4:AIデータプラットフォームの統合

本プロジェクトは、AppenのAIデータプラットフォーム(ADAP)内で管理され、効率的なワークフローの実行と品質保証が実現できました。バリデーターやテスト質問が統合され、データの一貫性と正確性が向上しました。

プロジェクトの成果

構造化されたランキングとファインチューニングアプローチにより、顧客の大規模言語モデル(LLM)のパフォーマンスが大幅に向上し、文化的整合性と言語的正確性が強化されました。

  • 25万行以上の対話データを作成
  • 対応言語・方言の大幅拡大(5言語→30言語以上、10方言→70方言)
  • 応答品質の向上
  • 言語の多様性の向上
  • モデル精度の向上
  • ユーザー満足度の向上

Appenは、人間のフィードバックを活用した強化学習と教師ありファインチューニングにより、多言語大規模言語モデル(LLM)の性能向上を支援し、世界中のユーザーに対して文脈に適した正確な応答を提供できるLLMの開発を強力にサポートしました。

Appenのソリューション

Appenは、大規模言語モデル(LLM)アプリケーション開発を検討している企業向けに、さまざまなサービスと製品を提供しています。

データ収集・データアノテーション

AIデータ企業のAppenは、AIデータ業界のグローバルリーダーとして、28年以上にわたり、290以上の言語・方言に対応した高品質なデータを提供してきました。データクリーニング、データセット作成、データ収集データアノテーションなど、お客様のAIモデル開発に必要な一連のサービスを提供しています。詳しくはこちらをご覧ください。

Appenのハルシネーション対策

Appenは、生成AIモデルにおけるハルシネーションの問題に取り組むために、さまざまな革新的なソリューションを開発しています。

高品質な学習データを提供し、意思決定プロセスの文脈を改善し、人間のフィードバックを取り入れた強化学習を用いることで、AIモデルの説明可能性と解釈可能性を向上させています。

AIと機械学習の専門知識を持つAppenは、ハルシネーションのリスクを最小限に抑えながら、企業や組織が大規模な言語モデルを効果的に活用できるよう支援しています。

大規模言語モデル開発プラットフォーム

Appenが独自に開発した大規模言語モデル開発プラットフォームは、大規模言語モデルの開発プロセスを効率化します。トレーニング、ファインチューニングだけでなく、開発に必要な様々なツールを提供し、迅速なモデル開発をサポートします。

大規模言語モデル開発に関するご相談は、こちらよりお気軽にお問い合わせください。