機械学習に活用!オープンデータセット一覧
多くの企業がAIプロジェクトを推進するにあたり、ますます重要になっているのがデータです。機械学習に欠かせない学習データセットを提供している機関やサイトを一覧でご紹介します。
機械学習におけるデータセットとは?
データセットは一般的には、コンピュータによって単一の単位として扱われるデータの集まりのことを指します。機械学習においては、データの中から一定のパターンを見つけることを目的としたアルゴリズムの訓練に使用されるデータの集まりのことを意味します。
データセットを活用するメリットとは?
AIを開発するには、機械に学習させる教師データが必要になります。教師データの質が高いほど、またデータの量が多いほど、AIの精度は向上します。一方で、データを集めることは簡単ではありません。そこで、企業や公的機関が公開している無料で使えるオープンデータセットや、ラベリング済みのデータセットが役立ちます。
オープンデータセット一覧
以下ではデータセットを探すのにおすすめのサイトを紹介しています。
データライブラリ
データライブラリは、Web上のあらゆるデータセットを集めたものです。
スポーツ、医療、政府など様々なトピックをカバーする、オンラインで利用可能な最大級のデータセットライブラリーを有しています。
Googleはデータセット検索エンジンを提供しており、データセットを名前から検索することができます。ハーバード大学やWHOなどの国際機関のデータも含まれています。
4,000以上のコミュニティによって投稿されたデータセットが利用可能です。モダリティ、タスク、言語によって簡単に検索することができます。
70以上の機械学習データセットにリンクしており、ソースコードのような有用な情報とプロジェクトのアイデアを掲載しています。例えば、手書きの数字を特徴とするデータセットのリストでは、論文から手書きの数字を認識する画像分類アルゴリズムの作成を提案しています。
無料のデータセットやキュレーションリストが含まれています。データセットは事例ごとに整理されており、ディープラーニング、自然言語処理、ウェブスクレイピングなどのデータセットが利用可能です。
UCIでは、500以上の機械学習データセットが用意されており、ファイルタイプ、タスク、応用分野、テーマごとに検索することができます。データセットの多くには、ベンチマークに利用できる学術論文へのリンクが含まれています。
Github Awesome Public Datasets
機械学習向けのオープンデータセットを公開しています。
Microsoft Azureには、開発者がプロトタイピングやテストに使用できるオープンデータセットのデータベースが公開されています。
アマゾンは、AWSリソースを通じて利用可能なデータセットを紹介するレジストリを公開しています。レジストリには280以上の検索可能なデータセットが登録されています。
学習データで業界をリードするAppenでは、画像、音声、動画、発音など幅広いアノテーション済みデータセットを提供しています。ユーザー要件に個別に対応したデータ作成も可能です。
コンピュータビジョンのデータセット
以下のデータベースやデータセットには、コンピュータビジョンのプロジェクトに役立つ画像データが含まれています。
ImageNetは、WordNetの階層構造に従って整理された名詞の選択であり、各ノードには数千の関連画像があります。このリポジトリのデータは、研究者に無料で提供されています。
著名人を含む、50万枚を超える顔画像の最大のコレクションを提供しています。各画像には、性別と年齢のラベルが添付されています。
無料の画像アノテーションツールを提供するLabelMe社が運営する画像データセットのサイトです。
12万枚以上の画像が利用可能で、各画像にはオブジェクト検出、セグメンテーション、その他の画像アノテーション技術に関連する複数のタグが付けられています。
7万以上の画像データを公開しています。
人間に焦点を当てたアクションをラベル付けしたYouTubeの動画リンクの一部が含まれています。700の人間の行動に対して、65万以上の動画があります。
MITが公開しているデータセットで、400以上のシーンについて1,000万枚以上の画像を公開しています。シーン分類やシーンパースなどのプロジェクトに役立ちます。
オブジェクトの位置の注釈を特徴とする最大級のデータセットです。このデータセットには、オブジェクトのバウンディングボックス、セグメンテーション、その他のアノテーションでラベル付けされた900万枚を超える画像データが公開されています。
MPII Human Pose Datasetは、410人の人間のポーズを撮影した約2.5万枚の画像データが公開されています。
自然言語処理データセット
以下のサイトでは、自然言語処理プロジェクトに使用できる、テキストや音声データを公開しています。感情分析、音声認識、文字起こしなど幅広い用途に対応しています。
Googleのblogger.comから取得した約70万件のブログ記事が含まれています。各記事には、少なくとも200の英単語が含まれています。
Yelp Reviewsはレストランのランキングとレビューをカバーしており、データセットにはこのトピックに関連する情報が豊富に含まれています。
Microsoft Research WikiQA Corpus
Bingの検索データから作成された、質問と回答がペアになったデータセットを公開しています。
1,000時間近い音声とトランスクリプトを含んでいます。女性、男性ともに、複数の言語のデータが公開されています。
セグメンテーションとアライメントが行われた約1,000時間分の音声データが含まれています。
英単語を意味ごとにグループ化したデータベースです。12万近くの単語が含まれています。
Amazonの書籍やキッチン用品、AV機器などの製品カテゴリの口コミから構成されたデータセットです。
150万件以上の分類されたツイートが含まれています。データセットの各行には、ポジティブな感情を表す「1」とネガティブな感情を表す「0」というラベル付けがされています。
業界別データセット
業界特有のデータを提供しているサイトです。
政府機関
米国政府による30万以上のデータが公開されています。学生ローンのデータや医療機関の料金データなどを検索することができます。
世界の飢餓、医療、病気などの重要な項目に関するデータを公開しています。
金融
40年以上の株式市場データが公開されており、データはリアルタイムで更新されています。
自動運転
UCバークレーが作成した、自動運転開発のための10万以上の動画データが公開されています。動画には、物体検出のためのバウンディングボックス、レーンマークなどのアノテーションが付けられています。
Level5は、ライドシェアリング企業であるLyft社によって作成されました。このデータセットは、特定の地理的エリアで複数の自律走行車が捉えたセンサーカメラとLiDARの生データを公開しています。このデータセットには、特定のターゲットオブジェクトの3Dバウンディングボックスがラベル付けされています。
小売・EC
ファッション関連商品の6万枚近い画像と1万枚のテスト画像が公開されています。
ECサイトにおける検索結果やキーワード、関連属性などのデータを公開をしています。
データセットを使用するときの注意点
データセットを使うときの注意点についてご紹介します。
複数のデータセットを組み合わせる
選んだデータセットの一部が、モデルを開発するために必要でないケースもあります。複数のデータセットを組み合わせることも検討してみてください。
APIを活用
多くのデータセットには、APIやライブラリが付属しています。APIを活用することでデータ収集の初期段階で、時間を節約することができます。
事例の参照
人気のあるデータセットを活用したプロジェクトに取り組み、その成果をGitHubなどのリポジトリで公開している人を探す方法もあります。ソースコードやモデルを元に、データを収集する際の参考にするのも良いでしょう。
著作権
ソフトウェアと同様に、データセットにもさまざまなライセンスがあります。目的での利用が禁止されている場合もあるので、データを使う前には注意しましょう。
Appenが提供する学習データセット
Appenは機械学習に必要なアノテーション済みの学習データセットや、要件に合わせたデータの収集からアノテーション、教師データの作成までを行うマネージドサービスを提供しています。
詳細については、以下のフォームもしくは、contact-japan@appen.comまでメールでお問い合わせください。