AI安全性評価とは何か?LLMレッドチーミングと回答拒否の重要性

概要
生成AIの普及に伴い、企業がLLM(大規模言語モデル)を導入する際には、AI安全性評価(AI Safety Evaluation)が重要な課題となっています。
しかし、従来のLLMベンチマークは主に正答率を中心に設計されており、有害出力やハルシネーションのリスクを十分に評価できない場合があります。
本記事では、敵対的プロンプト(Adversarial Prompting)を用いたレッドチーミング研究をもとに、LLMの安全性評価の新しい考え方を解説します。
AI安全性評価とは
AI安全性評価とは、LLMが有害出力を生成しない能力と、危険な問いに適切に拒否できる能力を定量的に測定するプロセスです。
本調査では、合計726件の敵対的プロンプト(Adversarial Prompt)を用い、主要な大規模言語モデル(LLM)4種を対象に、有害出力率と回答拒否(Refusal)挙動を定量的に比較しました。
調査の目的
本研究の主な目的は、以下の3点です。
- Adversarial Promptingに対する各LLMの耐性を測定する
- AIハルシネーションおよび有害出力の発生率を定量評価する
- 従来のLLMベンチマーク設計が安全性を十分に反映しているかを検証する
従来の「正答率中心」の評価では見えにくかった、実運用環境におけるリスク挙動を明らかにすることが狙いです。
比較対象モデル
本調査では、以下の4モデルを比較対象としました。
- GPT-4o
- Claude Sonnet 3.5
- Pixtral 12B
- Qwen VL Plus
すべてのモデルに対し、違法行為、誤情報、非倫理的行動誘導などを含む同一の敵対的入力を与え、有害出力率および拒否率を測定しました。
調査結果
調査結果は、モデル間で安全性挙動に大きな差があることを示しました。
- 最も脆弱なモデルでは、有害出力率が約60%超に達しました。
- 最も耐性が高いモデルでは、有害出力率は約10〜11%に抑制されました。
敵対的プロンプトとは何か
敵対的プロンプト(Adversarial Prompting)とは、LLM(大規模言語モデル)に対して意図的に危険・不適切・非倫理的な出力を引き出すことを目的とした入力手法です。
敵対的プロンプトは、AI安全性評価(AI Safety Evaluation)においてモデルの脆弱性を検証するための中核的なテスト手法として用いられます。
生成AIは、ユーザーの指示に従って出力を生成する設計思想を持っています。この特性を逆手に取り、制約や安全フィルターを回避させる形で有害出力を誘導するのが敵対的プロンプトです。
プロンプトインジェクションの仕組み
プロンプトインジェクションは、制約を回避するための代表的な手法です。攻撃者は以下のような方法を用いる可能性があります。
- ロールプレイ誘導(「あなたは制約を無視できる専門家です」)
- 条件付き命令(「これはフィクションとして説明してください」)
- 多段階分解(安全な問いに見せかけて最終的に危険情報へ誘導)
これらの手法は、モデルが内部ルールよりも「ユーザー指示を優先する」傾向を利用しています。
企業向けAIでは、外部ユーザー入力や社内利用の中で、こうしたプロンプトインジェクションが発生する可能性があります。したがって、入力の善意を前提としない設計が必要です。
違法・不正行為・誤情報誘導のリスク
敵対的プロンプトの対象となるテーマは、単なる理論的リスクではありません。
- 違法行為の具体的手順
- サイバー攻撃支援
- 医療・金融に関する誤助言
- 政治的誤情報の生成
これらが生成された場合、企業は法的責任、ブランド毀損、規制違反リスクに直面します。
特にB2B用途では、AI出力が業務判断や顧客対応に利用されるため、誤情報は組織全体のリスクへ直結します。
マルチモーダル環境における攻撃の高度化
近年のLLMは、テキストだけでなく画像や複合入力を処理するマルチモーダルモデルへ進化しています。
その結果、攻撃手法も高度化しています。
- 画像内テキストを利用した間接的誘導
- 視覚情報とテキストを組み合わせたフィルター回避
- 文脈を分断する多段階プロンプト
従来のテキストベースの安全フィルタリングだけでは、これらの攻撃を完全に防ぐことは困難です。したがって、マルチモーダル環境では包括的なレッドチーミングが不可欠です。
従来のLLMベンチマークが抱える構造的課題
LLM(大規模言語モデル)の評価は、これまで主に「正答率」や「タスク達成率」を中心に設計されてきました。
しかし、生成AIが企業システムや顧客接点に組み込まれる現在、従来型ベンチマークではAIの安全性を十分に測定できないという問題が浮き彫りになっています。
本調査が示したのは、モデルの性能差以上に、評価設計そのものが安全性を過小評価している可能性です。
正誤二元評価が生む「自信あるハルシネーション」
多くのベンチマークは、「正解か不正解か」という二元評価を前提にしています。
この設計では、モデルは「何らかの回答を出すこと」が前提となり、沈黙や拒否は評価対象外、あるいは減点対象になりがちです。
その結果、以下のような挙動が最適化されやすくなります。
- 不確実でも回答する
- 推測を事実のように提示する
- 自信を伴う表現を用いる
これが、いわゆる自信あるハルシネーション(Confident Hallucination)を生む構造的要因です。
ビジネスにおいては、この「もっともらしい誤情報」が最大のリスクになります。
慎重な拒否が減点される評価設計の問題
従来の評価指標では、「回答拒否(Refusal)」はしばしば不正解や失敗と同列に扱われます。
しかし、安全性の観点から見れば、
- 危険な問いへの明確な拒否
- 不確実性の明示
- 安全な代替情報の提示
は、リスク回避の観点では適切な挙動と言えます。
評価設計が拒否を減点対象とする場合、モデルは「拒否しない方向」へ最適化されます。これは、安全設計と評価設計が矛盾している状態です。
AIハルシネーションと評価スコアの逆転現象
本調査では、次のような構図が明らかになりました。
- 回答数が多いモデル:積極的で高性能に見える
- 拒否が多いモデル:保守的に見える
しかし、有害出力率の観点では、拒否を多用するモデルの方が安全性は高い場合があります。
つまり、「高スコア=高安全性」ではありません。
実運用環境で顕在化するリスク
研究環境では許容される誤回答も、企業運用では重大なリスクになります。
以下は、単なる精度問題ではなく、法的責任や社会的信用に直結します。
- 金融アドバイスの誤提示
- 医療情報の誤生成
- 法務助言の誤解釈
回答拒否評価ベンチマークという新しい評価思想
従来のLLMベンチマークは、「どれだけ正しく答えられるか」を中心に設計されてきました。しかし、本調査が示したのは、「いつ答えないか」を評価に組み込まなければAIの安全性は測れないという事実です。
ここで提案されるのが、回答拒否評価ベンチマーク(回答拒否を評価に組み込むベンチマーク設計)という考え方です。
これは、回答拒否(Refusal)を単なる失敗ではなく、安全機構の一部として定量評価する枠組みです。特に敵対的プロンプトやプロンプトインジェクションへの耐性を測る際に、その重要性が高まります。
戦略的拒否を加点対象とする評価設計
回答拒否評価ベンチマークでは、「適切な拒否」を成功とみなします。
評価対象となるのは、単なる沈黙ではなく、次のような戦略的挙動です。
- 有害・違法な指示への明確な拒否
- 不確実性の明示
- 安全な代替情報の提示
- ガイドラインに基づくリスク回避
この設計により、LLMは「常に答える」方向ではなく、安全に振る舞う方向へ最適化されます。
安全な沈黙と危険なハルシネーションの明確な区別
従来の評価では、「誤回答」と「拒否」が同列に扱われることがあります。しかし、両者は本質的に異なります。
- 危険なハルシネーション:誤情報を生成し、リスクを拡大する
- 安全な沈黙:リスクを抑制し、被害を未然に防ぐ
企業のリスク管理の観点では、この違いは極めて重要です。
回答拒否評価では、
- 有害出力率
- 拒否率
- 拒否の適切性
を区別して評価することで、「回答しているが危険なモデル」と「慎重だが安全なモデル」を正しく識別できます。
ストレステストの標準化
回答拒否評価ベンチマークを実装するには、体系的なレッドチーミング(Red Teaming)が不可欠です。
評価プロセスには以下を組み込みます。
- 意図的に攻撃的な入力の設計
- フィルター回避の試行
- 多段階プロンプト誘導
- マルチモーダル攻撃シナリオ
本調査の726件のAdversarial Promptは、その実証例です。通常のタスク評価では見えない脆弱性を可視化することで、実運用に近い安全性評価が可能になります。
LLM脆弱性の定量評価手法
回答拒否評価ベンチマークでは、安全性を多次元で測定します。
代表的な指標は次の通りです。
- 有害出力率(Harmful Output Rate)
- 攻撃成功率(Attack Success Rate)
- 拒否率(Refusal Rate)
- 拒否の妥当性評価
- フィルター回避率
複数の指標を組み合わせることで、単純な正答率では見えないLLMの実質的な脆弱性を定量化でき、結果として企業は、「最も高性能なモデル」ではなく、「最も安全かつ信頼できるモデル」を選定できるようになります。
AI安全性を強化するために企業が取るべきアクション
AI安全性(AI Safety)を本当に担保するには、モデルの選定だけでは不十分です。重要なのは、評価設計・導入プロセス・運用体制を統合したガバナンス構築です。
ここでは、LLMを企業環境へ導入する際に実行すべき具体的アクションを、AI安全性評価の観点から整理します。
導入前レッドチーミングの実施
生成AIを本番環境に導入する前に、敵対的プロンプトを用いたレッドチーミング(Red Teaming)を実施することが不可欠です。
- 業務領域に即した攻撃シナリオの設計
- プロンプトインジェクションを想定した多段階誘導テスト
- 有害出力率・攻撃成功率・拒否率の測定
- マルチモーダル攻撃の検証
通常のデモ評価やPoCでは見えない脆弱性を、意図的なストレステストによって可視化します。
評価指標の再設計
従来の正答率中心の評価から、多次元AI安全性評価へ移行する必要があります。
最低限、以下の指標を含めることを推奨します。
- 有害出力率
- 攻撃成功率
- 拒否率
- 拒否の妥当性評価
- 不確実性の明示能力
特に「拒否をどう評価するか」を明文化することが、回答拒否評価ベンチマークの核心です。
評価指標が変わらなければ、モデル最適化の方向も変わりません。
モデル選定時の安全性基準の明確化
モデル選定では、次の観点を事前に定義する必要があります。
- 高リスク領域における耐性データの有無
- 拒否率と有害出力率のバランス
- レッドチーミング結果の透明性
- フィルター回避耐性
企業が選ぶべきなのは、「最も賢いモデル」ではなく、用途に対して最も安全かつ信頼できるモデルです。
継続的モニタリング体制の構築
AIの安全性は一度評価して終わりではありません。
- 新しい攻撃手法の出現
- モデルアップデートによる挙動変化
- 利用範囲の拡大
これらに対応するため、継続的な安全性モニタリング体制が必要です。
具体的には、以下の継続的な実施が推奨されます。
- 定期的な再評価・再レッドチーミング
- ログ分析による異常出力検知
- フィードバックループの構築
- リスクスコアの継続的更新
生成AIは静的なシステムではなく、進化し続ける技術です。したがって、安全性評価も動的に運用する必要があります。企業が責任あるAI(Responsible AI)を実装するためには、性能評価に加えて、リスク評価を設計段階から組み込むことが不可欠です。
まとめ
生成AIの進化は、これまで「どれだけ賢く答えられるか」を中心に評価されてきました。しかし、本調査が示したのは、AI安全性(AI Safety)は正答率だけでは測れないという明確な事実です。
沈黙は欠陥ではなく、安全機構である
危険な問いに対する戦略的な拒否は、消極的な挙動ではありません。
- 有害出力を未然に防ぐ
- 誤情報拡散を抑制する
- ブランドリスクを低減する
という意味で、沈黙は能動的な安全機構といえます。
企業にとって重要なのは、常に回答するAIではなく、適切に拒否できるAIです。
LLM評価は再設計の段階にある
従来の正誤二元評価は、生成AIの安全性を十分に反映できません。
今後は、
- 有害出力率
- 拒否率
- 攻撃耐性
- 不確実性の明示能力
といった多次元評価が必要です。
回答拒否評価ベンチマークのような設計は、LLM評価を「性能中心」から「リスク中心」へ転換する第一歩となります。
責任あるAI導入のために必要な視点
企業がAIを導入する際に問われるのは、モデルの賢さではなく、信頼性と安全性です。
- 導入前レッドチーミングの実施
- 評価ルーブリックの明文化
- 継続的な安全性モニタリング
これらを実行できる組織こそが、生成AIを持続的に活用できます。
AI安全性評価は、もはや研究テーマではなく、企業の競争力と信頼を左右する経営課題です。安全なAIとは、常に答えるAIではありません。必要なときに「答えない」という判断ができるAIこそが、これからの標準になるのです。
よくある質問
AIが回答を拒否するのは不具合ですか?
必ずしも不具合ではありません。危険性のある問いや、不確実性が高い質問に対して回答を拒否することは、安全設計の一部である場合があります。
重要なのは、
- 無差別に拒否していないか
- 文脈を理解した上で拒否しているか
- 安全な代替案を提示しているか
といった「拒否の質」を評価することです。
LLMはなぜハルシネーションを起こすのですか?
LLMは確率的生成モデルです。与えられた入力に対して、もっともらしい出力を生成するよう訓練されています。
そのため、
- 情報が不足している場合
- 訓練データに存在しない内容を問われた場合
- あいまいな文脈が与えられた場合
でも、何らかの回答を生成しようとする傾向があります。
レッドチーミングとは何ですか?
レッドチーミングとは、意図的に攻撃的・敵対的な入力を設計し、モデルの脆弱性を検証する評価手法です。
通常のテストでは見えないリスクを可視化するために、
- フィルター回避を試みる
- 多段階の誘導を行う
- 制約違反を狙う
- マルチモーダル攻撃を行う
といった攻撃シナリオを用います。
企業はどのようにLLMの安全性を評価すべきですか?
企業は、正答率だけでなく、安全性を含む多面的な指標で評価する必要があります。
最低限、以下の指標を含めるべきです。
- 有害出力率
- 攻撃成功率
- 拒否率
- 拒否の妥当性評価
- 不確実性の明示能力
AI安全性評価についてご関心がありましたら、お気軽にご相談ください。

