大規模言語モデルの安全性を高めるレッドチーミング

08/05/2024

レッドチーミングとは

レッドチーミング (Red Teaming)は、企業やITシステムのセキュリティ対策の効果を検証するプロセスです。

ITセキュリティの分野では、システムへの攻撃を担当する「レッドチーム」とシステムの防御を担当する「ブルーチーム」という2つのチームを組織し、模擬的な攻防を行うことで、ITシステムの脆弱性を特定します。

レッドチーミングは、大規模言語モデルにも応用され、バイアス、誤った情報、ハルシネーション、有害コンテンツの生成を減らすプロセスとして実施されています。レッドチームは、体系的で信頼性のある手法を用いて大規模言語モデルをテストし、モデルのリスクを事前に特定します。これにより、予期せぬ脆弱性の発生リスクを軽減し、大規模言語モデルが展開される前にモデルの安全性と信頼性を最大限高めることができます。


レッドチーミングを外部委託するメリット

レッドチーミングの実施方法は大きく2つに分けられます。社内でレッドチームを組織してレッドチーミングを実施する方法と、レッドチーミングをアウトソーシングやクラウドソーシング (外部委託)する方法です。

どちらの方法にもメリットとデメリットがありますが、レッドチーミングの外部委託には以下のようなメリットがあります。

  • レッドチーミングの経験を持つ人材の専門知識を活用できる。
  • 多様な人材でレッドチームを構成することができ、多様な文化や言語、幅広い年齢や性別に特有の脆弱性の発見に役立つ。
  • 効率的なスケーリングと迅速かつ柔軟なテストを実現できる。
  • 新規データを作成し、未経験の攻撃に対する大規模言語モデルのレスポンスをテストできる。

Appenのレッドチーミング手法

Appenのレッドチーミング手法は4つのステップで構成されています。

【1】定義

  • レッドチーミングの目標を明確化する。
  • テストスコープを定義する。
  • スコープ内外の有害タイプ及び攻撃戦略の特定パラメータを定義する。

【2】計画

  • AIフィードバックツール搭載のAppen AIデータプラットフォームを使用して、レッドチーミングのジョブを設定する。
  • 経験豊富な人材によって、専門知識や言語面でのサポートを実施する

【3】管理

  • レッドチーミングのプロジェクトを調整し、体系的なテストとシミュレーションアクティビティを完了する。
  • プロジェクトマネージャーと専門家が、テスト結果とコントリビュータのインサイトをモニタリングし、潜在的リスクのあるエリアを明確にする。
  • 潜在的リスクのあるエリアに対する追加の脆弱性テストを実施する。

【4】報告

  • テスト結果をレッドチーミングレポートとして文書化する。
  • レポートにはレッドチーミング手法、分析、テスト結果、推奨事項を含む。

外部によるレッドチーミングの流れ

レッドチーミングを外部委託 (アウトソーシング、クラウドソーシング)する場合、次のような流れで実施されます。

【1】攻撃の設計

レッドチーミングの対象を考える。

  • レッドチーミングの対象は。
  • どのような有害なレスポンスを期待するか。

【2】プロンプトを計画

攻撃手法を選択する。

  • 例:プロンプトインジェクション、ロールプレイ、仮想化、サイドステッピング、翻訳、口頭による説得など

【3】ライブチャットテスト

敵対的なプロンプトを作成し、ライブモデルに送信する。

【4】レスポンスのアノテーション

レスポンスを評価し、有害かどうか判断する。

  • 不快、有害、物議を醸す、または不適切な内容が含まれているか。
  • 有害性のレベルを評価する。
  • どのようなレスポンスであるべきだったか。

エンタープライズ向け大規模言語モデルのレッドチーミング

Appenのレッドチーミング手法は、カスタマイズされたエンタープライズ向け大規模言語モデルにも適用できます。エンタープライズ向け大規模言語モデルのレッドチーミングの目的には、以下のような意図されたユースケースに対象を絞ったシナリオテストが含まれます。

スコープ内外のレスポンス

エンタープライズ向け大規模言語モデルは、一般的で汎用的なチャットボットではなく、特定のアプリケーション用に設計されています。大規模言語モデルのインタラクションのスコープを制限することで、不要なリスクを減らすことができます。例えば、「次の選挙で誰に投票するべきですか?」という意見を求める質問に対して、基盤モデルは、投票前に考慮すべき点など一般的で中立的なレスポンスが期待される一方で、銀行のバーチャルアシスタントはレスポンスを行わないことが期待されるでしょう。対象を絞ったレッドチーミングは、制限が正しく実装され、モデルが意図されたユースケース以外で使用されないようにするのに役立ちます。

ハルシネーション

ハルシネーションとは、AIが事実とは異なる情報を生成する現象を指します。エンタープライズ向け大規模言語モデルをカスタマイズする主な理由は、ユーザーに対して最新かつ正確で信頼性のある情報を提供するためです。モデルは検索拡張生成 (RAG)などの方法で独自のナレッジベースを活用しますが、基となるデータが古かったり、不整合な情報が含まれている場合、不正確な結果が生じる可能性があります。

徹底的にレッドチーミングを行うことで、エンタープライズ向け大規模言語モデルの実装とナレッジベースの正確な使用をテストし、ユーザーに対するハルシネーションを防ぐことができます。

個人情報と機密情報の漏洩

エンタープライズ向け大規模言語モデルは、従業員の個人情報、組織情報、内部IPなどの機密情報でトレーニングされていることがほとんどです。トレーニングに使用された情報は、高度なプロンプト技術を持つユーザーにアクセスされてしまう可能性があります。対象を絞ったレッドチーミングは、個人情報と機密情報の漏洩が発生する可能性及び場所を特定するのに役立ちます。

Appenはテック業界のニーズに対応した包括的なAIデータソリューションを提供しています。