データ収集サービス
20年以上の実績と専門知識に基づいたグローバルスケールのデータ収集サービス

高品質かつカスタマイズされたデータセットを用い、AIイニシアチブを迅速に支援
当社のデータ収集サービスは、幅広い環境に応じた貴社独自のデータ要件に最適に対応するため、さまざまなデータの種類と収集方法を提案します。
当社はデータ収集を単独のサービスとしてご提供するとともに、ASR(Audio Speech Recognition)発話データベースなどの複数要素で構成されるサービスの一部としても提供。ASR発話データベースには、通常、音声データ、文字起こし、発音辞書、言語特有の文書またはアノテーション画像データセットが含まれます。
導入企業





当社データ収集サービスご利用のメリット:
- データ収集プロセスからジョブの設計、大規模なフィールドオペレーション、データの品質保証、20年以上に渡る深い専門知識に基づいたアノテーション付けをカバーするエンドツーエンドのマネージドサービス
- 100万人以上の厳選されたクラウドワーカーと連携し、180以上の言語および方言を使い、世界中の市場をサポート
- 業界最先端のデータアノテーションプラットフォームと、Appen独自の統合型データ収集ツールにより、迅速なデータ収集/アノテーションとそれらのスケールアップが可能
- すべてのトレーニングデータは、GDPRおよびその他のデータセキュリティ要件などの法的水準に準拠した上で収集を実施
- Appenのクラウドワーカーは、公正な報酬ポリシーに従い、データ収集の作業内容に応じた支払いを受給



画像および映像データ収集
機械学習、パターン認識、コンピュータビジョンソリューションにおけるデータ収集機能を強化

コンピュータビジョン & パターン認識
コンピュータビジョンおよびパターン認識ソリューションでは、画像と映像データ内のニュアンスを正しく解釈するために、何千もの同データを使ったトレーニングを必要とします。公開された画像および映像のデータセットは既にいくつかありますが、貴社プロジェクトの独自要件を満たすことのできる十分な具体性を持ち合わせていない場合があります。さらに、この種の公に入手可能なデータは、アルゴリズムの効果的なトレーニングに必要となるサンプルとしては大きさが十分でない場合があります。
私たちがお手伝いできること
私たち、各プロジェクト特有のニーズに対応するため、お客様と密に協力しながらプログラムをカスタマイズ、開発します。細かな仕様に焦点を当て、参加者の人口統計、背景の視覚、環境要因などを含むプラットフォームに真のデータ収集の多様性を確保します。経験豊富なプロジェクトマネージャーにより提供されるすべてのデータ収集プロジェクトにおいて、高品質を保証しつつ、必要規模の要件を満たす多数のクラウドワーカーを迅速に採用できます。
データ収集作業をするすべてのワーカーは、各プロジェクトの目的について通知を受け、同意書に署名、公正な報酬ポリシーに従い、提供するデータに対して公正に補償されます。当社の特徴として、iOSとAndroid向けに独自の画像および映像データ収集モバイルアプリを構築し、品質保証とアノテーション のためのオンラインプラットフォームを独自開発しました。このツールは、大規模なデータ収集を、言葉通り世界規模で収集することで、より迅速に拡張支援します。

発話データ収集
180以上の言語および方言におよぶ、人によるアノテーション 付けをした発話データを使い、より自然で優れた言語処理、理解、および自動音声認識ソリューションを構築。

自動音声認識
自動音声認識(ASR)システムをトレーニングする際のデータ品質および量は、どちらも重要です。システムが、幅広い環境および文脈において人間の発話を理解し、応答できるようにするためには、高品質の言語データが必要です。さらに、機械学習モデルを効果的にトレーニングし、適度の状況の多様性およびソリューションの正確さを生み出すには、多くのデータ量も必要となります。人間の発話および意図のニュアンスを、アプリケーションが認識できるようになるためのトレーニングおよびテストを効果的にするため、自然言語の発話を収集することが重要です。
私たちがお手伝いできること
複数の大規模な発話収集プログラムを並行して実行している際にも、エンドツーエンドの当社発話データ収集サービスは、効率と品質を保証します。当社サービスには、(スタジオから車内まで)さまざまな音響環境の現場で録音し一元化したデータを含む、スマートフォンアプリによる自然な発話言語の収集などがあります。当社の発話収集サービスは、電話、組み込みデバイス、シングル/マルチスピーカー、プロンプトのバリエーション、発話モダリティ、およびその他のリソースを含む、さまざまなタイプを提供します
当社の発話データ収集サービスは以下を提供します:
- 言語および文化の細部リサーチ
- スクリプトの準備およびローカリゼーション
- 母語話者のクラウドソーシング
- 調整済み、または無編集の録音
- ローカルおよびリモートの発話録音
- 収集したデータの文字起こしおよびアノテーション
- 品質保証およびプロジェクト管理
- データベースの内容に一致する辞書エントリー

文章データ収集
何百万もの高品質の文章データサンプルを収集して、ソリューションをグローバルに拡大

チャットボット、感情分析など
新たな地域市場向けの技術を開発する企業は、ドメイン、言語、および場所固有のデータを収集するスキルを持つ専門家が必要です。新たな市場へ拡大するには、最高レベルの品質を維持しつつ、幅広い設定における文章データ収集プロジェクトの加速経験のあるパートナーが必要です。一般的な活用事例として、自動化したカスタマーサービス向けチャットボットをトレーニングするためのデータや、ブランドまたは製品についての肯定的および否定的なコメントを理解するための感情分析が含まれます。
私たちがお手伝いできること
当社では、専門家によるビジネスリスティング、音楽のタイトル、アーティスト名、略語および頭字語、食品、交通機関、コンピューター関連、または地理的な場所など、あらゆる分野の文章データ収集を提供します。幅広いユーザー層やドメインによる、さまざまな自然言語の文章データ収集が可能です。
例えば、ソフトウェアのユーザーインターフェース、プロンプト、音声対話型デバイスおよび自動電話応答システムの文法仕様、ドメイン特有の用語集、専門用語リスト開発などの事例があります。