画像アノテーションとは？事例と作業効率化のためのヒント

03/30/2023

画像アノテーションは、多くの人工知能（AI）製品を支える基盤であり、コンピュータビジョン（CV）において最も重要なプロセスの1つです。

画像アノテーションとは？

画像アノテーションでは、画像にタグやメタデータといった注釈をつけるラベル付け（アノテーション）作業のことを指します。ラベル付けでは、AIモデルに認識を学習させたいデータの特徴を特定します。

小さい頃を思い出してください。初めは犬というものがわかりませんが、大きくなるにつれ、たくさんの犬を見るうちに、犬の品種や、犬が猫や豚とどう違うかを理解するようになります。人間と同じように、コンピュータも物事を分類する方法を学ぶために、多くの経験が必要です。画像アノテーションは、このような例をコンピュータが理解しやすい形で提供するものです。

画像アノテーションの活用事例

ここでは、画像アノテーションを使った事例を業界別に紹介します。

医療

放射線画像から、特定のがん細胞を発見するなど、画像データから異常を発見することができます。AIが病気を診断するためには、何千ものスキャン画像を用いて、AIをトレーニングする必要があります。人間だと、経験や直感に頼りがちで見落としてしまうこともあります。一方で、AIであれば異常を見落とすことなく、小さな異常も発見することができます。もちろん、AIは医師の代わりになるものではありませんが、精度の高い診断を迅速に行うため、AIの活躍が期待されています。

金融業

ATMからお金を引き出す顧客の身元を確認する、顔認識技術などで活用されています。これは、目や口などの顔の特徴をマッピングする「ポーズポイント」と呼ばれるアノテーション手法によって行われます。顔認証は、迅速かつ正確に本人確認を行うことができるため、不正検知の効率化が可能です。

小売業

倉庫や棚管理、店舗データを用いて、欠品管理や客層分析などに活用することができます。品切れの商品があった場合には、店員にアラームで知らせたりたりすることもでき、欠品による機会損失を回避することができます。バーコード画像をスキャンして、商品情報を収集することも可能です。

画像アノテーションの種類

画像アノテーションには、一般的に3つの種類があり、プロジェクトによって使う手法が異なります。

画像分類（クラシフィケーション）

画像分類では、画像に対し、これは何か、どんな色か、といった1つの属性をタグ付けします。この方法は、1つのラベル付けで済むため最も簡単な画像アノテーションの手法ですが、対象物が画像のどこにあるのかは示さないため、情報としては曖昧になりがちです。

物体検出

物体検出では、アノテーターに画像内のラベルを付ける必要のある特定の物体が与えられます。つまり、ある画像に犬がいると分類された場合、画像内のどこに犬があるのかを具体的に示すことで、さらに一歩踏み込んだ情報を提供します。物体検出には、以下のような方法があります。

2Dバウンディングボックス

長方形や正方形を適用して、ターゲットとなるオブジェクトの位置を定義します。画像アノテーションでは最も一般的な手法の1つです。

3Dバウンディングボックス

アノテーションの対象となるオブジェクトに立方体を適用し、オブジェクトの位置と深さを定義します。

ポリゴンセグメンテーション（多角形ポリゴン）

複雑な形状の物体に対して多角形で領域を囲い、アノテーションを行います。前述したバウンディングボックスでは、背景や他の物体など対象物以外の部分が含まれてしまう一方で、ポリゴンセグメンテーションは、手間や時間はかかりますが、より正確で細かい範囲の認識が可能です。

セマンティックセグメンテーション（領域分類）

画像全体や画像の一部の検出ではなく、ピクセル（画素）1つひとつに対して、意味付けをするアノテーションを行います。

画像認識（Image Recognition）の仕組み

画像認識（Image Recognition）とは、AIが画像の内容を理解し、「何が写っているのか」を判断する技術です。

私たち人間は、画像を見た瞬間に直感的に「これは人物の写真で、背景には東京タワーが写っている」と瞬時に理解できます。しかし、AIにとって画像は、数値情報（ピクセルの集合体）でしかありません。

AIが画像を認識するには、単なるピクセルの集合体としてではなく、「意味のある構造を持ったデータ」として理解する必要があります。つまり、画像に写っている人物や建物、動物、物体などを、数値としてどう捉えるかが重要になります。

このとき鍵となるのが、「特徴量（Feature）」という概念です。

画像認識における特徴量とは？

画像認識における特徴量とは、画像の中からAIが注目すべき情報を抽出し、数値化したものです。画像に写る対象を分類・識別する際に、AIはこの特徴量を手がかりにします。

特徴量として抽出される主な情報

色（色の明るさ、色相、分布のパターン）
形状（輪郭、エッジ、位置関係）
質感（表面のざらざら感、なめらかさ、模様の繰り返し）

特徴量の抽出手法

技術の進化とともに、特徴量の抽出方法も大きく進化してきました。現在では、ディープラーニングによる自動抽出が主流です。

従来の特徴抽出

ます。従来の機械学習では、人間が定義したルールに基づいて特徴量を抽出していました。代表的なアルゴリズムとして、SIFTとHOGが挙げられます。これらのアルゴリズムは、画像から特徴量を抽出し

SIFT（Scale-Invariant Feature Transform）

画像内の特徴点（エッジ、角など）を、スケールや回転に影響されずに抽出できるアルゴリズムです。物体の位置や向きが変わっても、認識しやすい特徴量を検出します。

HOG（Histogram of Oriented Gradients）

画像を細かい領域に分割し、それぞれの領域でエッジの方向の分布をヒストグラム化して特徴量に変換します。形状のパターンに強みがあり、主に人物検出などで使われます。

深層学習（ディープラーニング）による特徴抽出

近年の画像認識では、CNN（畳み込みニューラルネットワーク）の登場により、AIが自ら最適な特徴量を学習できるようになりました。

AIは大量の画像データから、複数の層を通じて色、形、構造といった抽象的なパターンを自動で抽出します。これにより、従来の手法に比べて精度が大幅に向上し、画像認識技術は医療、製造、監視など多くの分野で実用化が進んでいます。

特徴量と画像アノテーションの関係

画像認識AIを開発する際には、特徴量を正しく学習させるための教師データ（トレーニングデータ）が必要です。

この教師データを構築するプロセスが「画像アノテーション」です。

アノテーションとは、画像に対して「これはバス」「これは電車」などのラベルや境界線を付ける作業のことです。これにより、AIは画像内の何に注目すればよいかを学習できます。

アノテーションが特徴量学習に与える影響

「バス」と「電車」を分類するAIを作る場合、以下のような違いを学習させる必要があります。

バスにはタイヤがあるが、電車にはない
電車はバスよりも全長が長く、複数の車両で構成されている
バスは1つの物体として映るが、電車は複数に分かれているように見える

これらの違いをAIが正しく学べるようにするには、正確で一貫性のあるアノテーションが不可欠です。

使用される代表的なアノテーション手法には以下があります：

2Dバウンディングボックス：物体を長方形で囲む
3Dバウンディングボックス：立体的な形状も捉える
ポリゴンセグメンテーション：物体の輪郭をより細かく描画し、精密なラベル付けを行う

アノテーション作業を効率化するには？

画像アノテーションは、AI構築と同様に複雑です。AIを適切に動作させるには、大量の高品質な教師データ、そのデータをアノテーションする多様なチーム、実行のための包括的なデータパイプラインが必要です。

十分な社内リソースがない場合、アノテーション企業などに外注することは有効な選択肢となります。これらの企業は、画像データ、専門のアノテーター、ツール、業界経験により、大規模なデータへのアノテーションを迅速に行います。

画像アノテーションの場合、画像には様々な問題があります。画像の明度が暗かったり、対象物が隠れていたり、人間の目では認識できないような画像もあります。このような状況をどう対処するかについては、画像アノテーションプロジェクトを開始する前に決めておく必要があります。

画像アノテーション専門家による３つのアドバイス

Appenでは、画像アノテーションを活用した最先端のAIモデル構築を支援するために、専門のチームがいます。Appenのプロダクトマネージャーであるリズ・ハメルは、画像アノテーションに関して以下のアドバイスを述べています。

要件を明確に定義する

プロジェクトの目標を明確に定義することから始めましょう。アノテーションの形状、メタデータ、オントロジー、フォーマットなど、教師データの要件は、プロジェクトにより決まります。

反復を計画する

教師データの初期要件を定義し、試験運用を行います。繰り返しチューニングを行うことで、エッジケースを発見することができます。この場合、専門のアノテーション企業と協力するのも1つの手でしょう。

拡張性を意識する

AIモデルを使うユーザーが増えるほど、モデルの精度を保つために必要な画像アノテーションの量も増えていきます。必要な量の教師データをすばやく手に入れられるようにしておくことも重要です。

Appenの画像アノテーションサービス

Appenは、継続的なAIの学習や改善に欠かせない画像、文章、発話、音声、映像、その他のデータを収集、アノテーションを行うサービスを提供しています。100万人以上の熟練したクラウドワーカーからなる、グローバルネットワークを活用し、偏りの少ない高品質な教師データを、大規模かつ迅速に提供します。

詳細については、以下のフォームもしくは、contact-japan@appen.comまでメールでお問い合わせください。

お問い合わせ