マルチモーダルAIとは?課題と必要なデ ータ
人工知能(AI)の急速な発展により、私たちの社会は新たな変革期を迎えています。この変革の中心にあるのが、多様な情報を統合できるマルチモーダルAIです。画像、音声、テキストなど、異なる種類のデータを組み合わせることで、人間に近い高度な認知能力を実現します。
マルチモーダルAIは、コンテキスト(文脈)を理解し、より精度の高いタスク遂行を可能にするものです。例えば、動画内の視覚情報と音声情報を同時に処理することで、より自然な対話を実現したり、視覚障害者向けの音声説明を生成したりすることができます。
生成AIの分野において、マルチモーダルAIは大きな進展をもたらしています。大規模言語モデルとの連携により、テキストだけでなく、画像や音声も生成できるようになり、より没入感のある体験を提供します。
AIデータのグローバルリーダーであるAppenは、多様なデータを収集・加工し、AIモデルの学習に活用することで、より汎用性の高いモデルの開発に貢献しています。
マルチモーダルAIの課題
マルチモーダルAIは、画像、動画、音声、テキストなど、多様なデータを統合し、より人間らしい知能を実現する技術として注目されています。
しかし、その発展にはいくつかの課題が存在します。
データ量の不足
マルチモーダルAIモデルを学習させるには、大量かつ多様な種類のデータが必要です。しかし、テキストと画像など、異なる種類のデータが組み合わされたペアとなるデータ(マルチモーダルペア)は、数が少なく、手に入りにくいのが現状です。オープンソースのデータセットは、テキストと画像といった組み合わせに集中する傾向があり、汎用的な用途にしか使えないことが多いです。より多くの種類のデータ(モダリティ)に対応できるAIモデルを作り、特定の目的に合わせてモデルを調整するためには、独自にデータセットを作成する必要があります。
データアノテーションの品質
単一モダリティのデータに比べて、マルチモーダルデータのアノテーションはより複雑な作業です。例えば、動画データの場合、イベントが発生した時間(タイムスタンプ)、その行動の意味合い(コンテキスト)、そして一連の説明文の作成などが求められます。特に、専門的な知識が必要な分野の動画では、正確で詳細なアノテーションが不可欠です。
評価指標の欠如
マルチモーダルAIシステムにおける大きな課題は、統一的なベンチマークや評価指標が存在しないことで、コンテキストとユースケースに依存し、主観的になることが多いです。また、異なるモダリティ全体で評価できるマトリクス形式のメトリクスの開発も難題です。
マルチモーダルAIのトレーニングデータ
大規模言語モデルの進化により、ユーザーは画像や動画などの視覚情報に対して、より自然な言葉で質問できるようになりました。たとえば、「冷蔵庫の中身は何ですか?」という簡単な質問から、「これらの食材でどんな料理を作れますか?」といった複雑な質問まで、幅広い問いかけが可能になっています。これらの質問は、動画などの多様なデータと関連付けることで、より高度な対話を実現します。
視覚情報とテキスト情報を組み合わせることで、ユーザーは情報をより直感的に取得でき、AIとのやり取りが一層スムーズになります。
プロンプトと応答
マルチモーダルAIをトレーニングするためには、大規模かつ多様な画像や動画などの視覚的なデータと、それに対応するテキストデータ(プロンプトやプロンプトと応答のペア)が必要です。テキストデータに詳細なアノテーションを加えることで、文章内のキーワードを画像内の物体や動画内の出来事に紐付けることができ、モデルの学習をより効果的に行えます。
動画をテキストデータに変換
大規模言語モデル(LLM)が動画の内容に関する質問に答えられるようにするためには、モデルをトレーニングするための特別なデータセットが必要です。このデータセットは、動画の内容を詳細に説明したテキストで構成されています。
動画の字幕とは異なり、このテキストは単なる文字起こしではなく、動画内の出来事をより深く理解できるような説明などです。例えば、「人がドアを開けて部屋に入る」といった具体的な行動や、「笑顔で話す女性」といった人物の表情などを記述します。さらに、タイムスタンプを付加することで、テキストのどの部分が動画のどの時点に対応するかを明確にします。
視覚的な要素にも注目し、画像内の重要なオブジェクトやシーンに注釈を付けることで、テキストと視覚情報を密接に結びつけます。これにより、大規模言語モデルは動画の内容をより深く理解し、より複雑な質問に答えられるようになります。
動画と音声の文字起こしと字幕作成
動画の音声や画面上のテキストは、AIが動画の内容を深く理解するための重要な手がかりとなります。これらの情報を文字起こしやキャプションとしてテキスト化することで、AIは映像だけでなく、発言内容や表示される文字も解析できるようになります。特に、プレゼンテーションやニュース、スポーツ中継など、音声情報が重要な動画では、音声の文字起こしは欠かせません。
文字起こしされたテキストにタイムスタンプを付加することで、音声と映像の対応関係を明確にし、より詳細な分析を可能にします。さらに、文字起こしされたテキストに注釈を加え、映像内の特定の箇所と関連付けることで、視聴者はより直感的に動画の内容を理解できます。
このような多様な情報を組み合わせることで、AIは動画全体を包括的に理解し、ユーザーにとって有益な情報を提供できるようになります。例えば、質問応答や要約、キーワード抽出など、様々なタスクに活用することができます。
Appenのソリューション
データ収集・データアノテーション
Appenは、AIデータ業界のグローバルリーダーとして、28年以上にわたり、290以上の言語・方言に対応した高品質なデータを提供してきました。データクリーニング、データセット作成、データ収集、データアノテーションなど、お客様のAIモデル開発に必要な一連のサービスを提供しています。詳しくはこちらをご覧ください。
ファインチューニングとRLHF
100万人以上のクラウドワーカーと経験豊富な専門チームが、お客様のモデルを最適化するためのファインチューニングと、人間とAIのフィードバックによる学習(RLHF)を支援します。バイアスを最小限に抑え、高性能なモデル開発を実現します。
大規模言語モデル開発プラットフォーム
Appenが独自に開発した大規模言語モデル開発プラットフォームは、大規模言語モデルの開発プロセスを効率化します。トレーニング、ファインチューニングだけでなく、開発に必要な様々なツールを提供し、迅速なモデル開発をサポートします。
大規模言語モデル開発に関するご相談は、こちらよりお気軽にお問い合わせください。