アクティブラーニングとは?手法とサンプリングを解説
機械学習において、データはモデルの性能を左右する最も重要な要素の一つです。高精度なモデルを構築するためには、十分な量と質の高いデータ、そして正確なデータアノテーション(ラベル付け)が不可欠です。
従来、機械学習モデルの開発プロセスは、手動でデータセットにラベルを付ける作業から始まっていました。しかし、近年ではアクティブラーニングと呼ばれる手法によりプロセスを部分的に自動化し、プロセス全体を効率化することが可能になっています。
アクティブラーニングを理解するためには、まず、教師あり学習と教師なし学習の違いを把握することが重要です。教師あり学習では、ラベル付けされたデータを用いてモデルが学習し、未知のデータに対してラベルを予測します。一方、教師なし学習ではラベル付けされていないデータを使用し、モデルがデータ内のパターンや構造を自律的に発見します。
本記事では、アクティブラーニングが含まれる教師あり学習の枠組みに焦点を当てて解説します。
アクティブラーニングとは
アクティブラーニングは、日本語で「能動学習」とも呼ばれ、一般的に、「半教師あり学習」の一形態と見なされます。
通常、教師あり学習では、すべてのデータにラベルが付けられたデータセットがモデルに提供されますが、アクティブラーニングでは、すべてのデータがトレーニングに必要または有用であるとは限らないという前提のもと、一部のデータにのみラベルを付けるアプローチを取ります。
アクティブラーニングの核心は、モデルのトレーニング時にどのデータに優先的にラベルを付けるべきかを自動的に選定するプロセスです。これにより、モデルは有用なデータを少量サンプリングすることで、効率的に学習を進めることが可能になります。
アクティブラーニングは、有用なデータをサンプリングすることで、データ利用の効率化、アノテーションコストの削減、モデル性能の向上に貢献します。
アクティブラーニングの手法
アクティブラーニングは、大きく3つの手法に分類に分けることができます。
- Pool-based Sampling(プールベース型能動学習)
- Stream-based Selective Sampling(ストリームベース型能動学習)
- Membership Query Synthesis(クエリ生成型能動学習法)
Pool-based Sampling(プールベース型能動学習)
3つの手法の中で、最も一般的な手法はPool-based Samplingです。これはラベル無しデータの集合体(プール)から、最も効果的にモデルを学習できると思われるデータをサンプリング(選択)するアプローチです。Pool-based Samplingは、次の5 つの手順で実施されます。
- 人(Oracle)がデータセットの小さなサブセットにラベル付けを行い、ラベル付きデータをモデルに提供します。
- モデル (Active Leaner)は提供されたラベル付きデータを処理し、ラベル付けされていないデータポイントのクラスを一定の信頼レベルで予測します。
- 予測が十分な精度と信頼レベルに達していない場合、サンプリング手法を使用して、次にラベル付けするべきデータのサブセットを決定します。
- 人は、選択されたデータのサブセットにラベル付けを行い、処理のためにモデルに送り返します。
- このプロセスを、モデルの予測が必要な信頼性と精度のレベルに達するまで繰り返します。
Stream-based Selective Sampling(ストリームベース型能動学習)
Stream-based Selective Sampingは、もう1つの代表的なアクティブラーニングの手法です。このシナリオでは、モデルにラベルの無いデータポイントが提示され、各データポイントにラベルを付けるかどうかを、即時に判断する手法です。
Membership Query Synthesis(クエリ生成型能動学習法)
Membership Query Synthesisは、実際のデータ分布に基づき、モデルの学習に有用なデータを生成する手法です。
主なサンプリング手法
サンプリング手法は、アクティブラーニングの成功において非常に重要です。不適切なサンプリング方法を使用すると、モデルの予測精度が低下し、アクティブラーニングのサイクルをより多く反復することになります。
どのサンプリング手法を選択するかは、モデルが所定の性能基準に達するまでの時間に大きく影響します。すべてのケースに最適な手法は存在しないため、最適な結果を得るためには複数のアプローチを試す必要があるかもしれません。
最も一般的なサンプリング手法に、「不確実性サンプリング」と「Query By Committee」の2つがあります。
不確実性サンプリング
不確実性サンプリングは、モデルが不確実性が最も高いと判断するデータを選択し、優先的にラベル付けを行う手法です。不確実性サンプリングには、いくつかのテクニックがあります。
● Least Confident Samping(最小確信度サンプリング)
○ 予測確率の最大値が最小のサンプルを選択するアプローチ。
● Margin Sampling(周辺確率サンプリング)
○ 一番目に確率が高いラベルと二番目に確率が高いラベルの確率の差が最小となるサンプルを選択するアプローチ
● Entropy Samping(エントロピーサンプリング)
○ 最も最小のエントロピーを維持できる新しいサンプルを選択するアプローチ
Query By Committee
Query By Committeeは、同じデータセットで訓練された複数のモデルを活用し、どの追加データポイントにラベルを付けるかを共同で決定する手法です。
アクティブラーニングを選択すべきケース
完全なデータセットを手作業でラベル付けすることは、非常に高いコストと時間がかかります。アクティブラーニングは以下のようなケースで適した手法です。
- AIソリューションを迅速に市場投入する必要があり、手作業でのデータラベリングにかける時間がない場合
- すべてのデータを手作業でラベル付けするためのコストが高すぎる場合
- 手作業でラベル付けを行うための人的リソースが不足している場合
- ラベル付けされていないデータが大量にある場合
アクティブラーニングは、従来の教師あり学習と比較して、費用対効果が高く、迅速なプロセスですが、実用的なモデルを得るためにはコンピューティングコストやイテレーションが必要です。
選択したサンプリング手法はアクティブラーニングの全体的な有効性に大きく影響するため、データサイエンスチームにはアクティブラーニングに関する技術的な専門知識を持つメンバーや、Appenのような外部データパートナーを組み入れることが理想的です。
AIにおけるアクティブラーニングの未来
アクティブラーニングは、教師ありの機械学習に代わる実行可能な手段として、その効率性が注目されています。データは優れたAIの基盤である一方、適切に扱わなければ最大のリスクとなるため、アクティブラーニングの重要性が高まっています。多くのデータサイエンティストは、優れたパフォーマンスを発揮するため、アクティブラーニングのサンプリング手法を改良するため、研究を重ねています。
Appenのソリューション
データ収集・データアノテーション
Appenは、AIデータ業界のグローバルリーダーとして、28年以上にわたり、290以上の言語・方言に対応した高品質なデータを提供してきました。データクリーニング、データセット作成、データ収集、データアノテーションなど、お客様のAIモデル開発に必要な一連のサービスを提供しています。詳しくはこちらをご覧ください。
ファインチューニングとRLHF
100万人以上のクラウドワーカーと経験豊富な専門チームが、お客様のモデルを最適化するためのファインチューニングと、人間とAIのフィードバックによる学習(RLHF)を支援します。バイアスを最小限に抑え、高性能なモデル開発を実現します。
大規模言語モデル開発プラットフォーム
Appenが独自に開発した大規模言語モデル開発プラットフォームは、大規模言語モデルの開発プロセスを効率化します。トレーニング、ファインチューニングだけでなく、開発に必要な様々なツールを提供し、迅速なモデル開発をサポートします。
データ収集やデータアノテーションに関するご相談は、こちらよりお気軽にお問い合わせください。