機械学習用のAIデータセット

AI開発のための既製データセット・ラベル付きデータセット

Appenのラベル付きデータセット

Appenは、100,000時間の音声データ、500,000枚の画像データ、1億ワードのテキストなどを含む、80を超える言語と方言に対応した800以上の認定データセットを提供しています。

ASRデータセット

90以上の言語に対応した100,000時間の音声データ

10,000時間を超える90以上の会話音声データセット

70,000時間を超える120以上の朗読音声データセット

20,000時間を超える20の自由発話音声データセット

70時間の赤ちゃんの泣き声、70時間の犬と猫の泣き声、子供の声などの特殊なデータセット

データセットを見る

大規模言語モデルデータセット

81億トークンの大規模言語モデルデータセット

500万の画像とテキストがペアになったマルチモーダルデータセット（日英韓に対応）

100万の動画とテキストがペアになったマルチモーダルデータセット（日英韓に対応）

100万のChain-of-Thoughtデータセット（日英韓に対応）

データセットを見る

テキストデータセット

98の言語に対応した523万エントリーの発音辞書

22の言語に対応した326万エントリーの品詞辞書

8の言語に対応した100万以上のNERデータセット

データセットを見る

画像データセット

合計600万枚の画像

多言語に対応した12,000枚のOCR画像

2,196枚のマルチラベル画像データベース

680枚の多様なポーズとライティングのポートレート

データセットを見る

動画データセット

乳児の泣き声動画100本 (各1分)

3言語の字幕付き動画（更新一下，新的说法：东亚各国朗读视频，海量开源爬取数据集）

データセットを見る

音声合成データセット

20以上の国籍、400人の声優

覆盖多种不同情绪的音色及应用场景（翻译）

データセットを見る

データセットの活用例

自動運転システム

運転者危険行動識別データセット：運転位置、危険行動、疲労度の検出に活用できます。

乗客安全監視データセット：車内に残された子供、ペット、危険物などを特定に活用できます。

車内音声データセット：音声ナビゲーションやインテリジェント運転体験の実現に活用できます。

車外データセット：車線、障害物、駐車スペースなど車外環境の識別に活用できます。

データセットを見る

カスタマーサポート

自然言語処理データセット：チャットプログラムを生成、効率的なオンラインカスタマーサポートの実現に活用できます。

音声合成データセット：テキストのリアルタイム変換、テキストを自然な音声に変換する音声合成に活用できます。

データセットを見る

スマートファイナンス

ファイナンス業界用OCRデータセット：金融や保険業界の契約書のレビュー、OCRの自動化、効率的で正確なテキスト文字起こしの自動化の実現に活用できます。

データセットを見る

スマートホーム

音声認識データセット：家庭用電子製品の機能的でスマートなインタラクションに活用できます。

障害物画像データセット：ロボット掃除機の物体識別、障害物回避などの機能に活用できます。

データセットを見る

スマートデバイス

顔認識・音声認識データセット：スマートデバイスアプリケーションの展開に活用できます。

データセットを見る

スマートセキュリティ

顔認識・危険行動追跡データセット：AIスマートセキュリティの構築に活用できます。

データセットを見る

データセット一覧

データセットをご利用希望の方は、「利用する」ボタンからお申し込みください。

フィルタ

データ形式

テキスト

音声

辞書

画像

動画

国・地域

日本

複数

アジア

北米

ヨーロッパ

南米

オセアニア

アフリカ

ユースケース

対話型AI

音声分析

自動運転

意味解析

画像認識

翻訳

スマートデバイス

スマートコックピット

チャットボット

コールセンター

キャプション生成

スマートセキュリティ

プロンプトエンジニアリング

文書処理

マルチモーダル

バーチャルアシスタント

ASR

OCR

TTS

LLM

教育

医療

言語モデル

すべてクリア

データセット名	データ形式	言語・方言	国・地域	ユースケース
日本語/日本/音声データセット/単一話者	音声	日本語	日本	音声分析, ASR, バーチャルアシスタント	利用する
日本語/対話音声データセット	音声	日本語	日本	ASR, 音声分析, 対話型AI	利用する
日本/東京/道路映像データセット	動画	日本語	日本	自動運転	利用する
日本語/NERニュースデータセット	テキスト	日本語	日本	言語モデル, LLM	利用する
中国語/日本語/コーパスペアデータセット	テキスト	日本語/中国語	日本	翻訳	利用する
日本語/メニューOCRデータセット	画像	日本語	日本	OCR	利用する
日本語/逆テキスト正規化データセット	テキスト	日本語	日本	言語モデル, LLM, 意味解析	利用する
日本語/日本/発音辞書	辞書	日本語	日本	言語モデル, TTS, ASR	利用する
日本語/日本/品詞辞典	辞書	日本語	日本	言語モデル, TTS, ASR	利用する
日本語/領収書・請求書OCRデータセット	画像	日本語	日本	OCR	利用する

日本語/日本/音声データセット/単一話者

利用する

データ形式

音声

言語・方言

日本語

国・地域

日本

ユースケース

音声分析, ASR, バーチャルアシスタント

データセット名 :

日本語/日本/音声データセット/単一話者

言語・方言 :

日本語

データセットID :

JAP_ASR001_CN

国・地域 :

日本

データセット説明 :

日本語単独話者音声データセット19.38時間。（特定テーマなし）

ユニット :

19.38時間

データ形式 :

音声

ユースケース :

音声分析, ASR, バーチャルアシスタント

収集環境 :

低ノイズ（自宅/オフィス）

日本語/対話音声データセット

利用する

データ形式

音声

言語・方言

日本語

国・地域

日本

ユースケース

ASR, 音声分析, 対話型AI

データセット名 :

日本語/対話音声データセット

言語・方言 :

日本語

データセットID :

JAP_ASR002_CN

国・地域 :

日本

データセット説明 :

2～3人による日本語のビジネス会話/日常会話の録音合計8.5時間分。トピックは政治、経済、社会、スポーツ、文化など。IT、金融、建設、芸術、文学、テクノロジー、食品などの業界におけるビジネスミーティング。

ユニット :

8.8時間

データ形式 :

音声

ユースケース :

ASR, 音声分析, 対話型AI

収集環境 :

低ノイズ（自宅/オフィス）

日本/東京/道路映像データセット

利用する

データ形式

動画

言語・方言

日本語

国・地域

日本

ユースケース

自動運転

データセット名 :

日本/東京/道路映像データセット

言語・方言 :

日本語

データセットID :

VED_2DJP_CN

国・地域 :

日本

データセット説明 :

日本・東京の自動運転学習用2D道路映像30時間分。

ユニット :

30時間

データ形式 :

動画

ユースケース :

自動運転

日本語/NERニュースデータセット

利用する

データ形式

テキスト

言語・方言

日本語

国・地域

日本

ユースケース

言語モデル, LLM

データセット名 :

日本語/NERニュースデータセット

言語・方言 :

日本語

データセットID :

JPY_NER001

国・地域 :

日本

データセット説明 :

XMLファイル21個に含まれるラベル付きニュース文20,629件。

ユニット :

20,629文

データ形式 :

テキスト

ユースケース :

言語モデル, LLM

中国語/日本語/コーパスペアデータセット

利用する

データ形式

テキスト

言語・方言

日本語/中国語

国・地域

日本

ユースケース

翻訳

データセット名 :

中国語/日本語/コーパスペアデータセット

言語・方言 :

日本語/中国語

データセットID :

CHN_JP_corpus_CN

国・地域 :

日本

データセット説明 :

中国語－日本語翻訳用の文23万組。AI翻訳学習に使用。

ユニット :

230,000組

データ形式 :

テキスト

ユースケース :

翻訳

日本語/メニューOCRデータセット

利用する

データ形式

画像

言語・方言

日本語

国・地域

日本

ユースケース

OCR

データセット名 :

日本語/メニューOCRデータセット

言語・方言 :

日本語

データセットID :

IMG_JC_CNRD

国・地域 :

日本

データセット説明 :

日本語メニュー画像10万枚。

ユニット :

100,000枚

データ形式 :

画像

ユースケース :

OCR

収集環境 :

多様な光条件

収集デバイス :

スマートフォンカメラ/カメラ

日本語/逆テキスト正規化データセット

利用する

データ形式

テキスト

言語・方言

日本語

国・地域

日本

ユースケース

言語モデル, LLM, 意味解析

データセット名 :

日本語/逆テキスト正規化データセット

言語・方言 :

日本語

データセットID :

JPN_ITN001

国・地域 :

日本

データセット説明 :

複数のトピックと視点から構成された記述文。全14カテゴリにわたる5,363件のテストケースを含む（住所: 1,307、英数字: 412、基数: 279、通貨: 487、日付: 195、小数: 197、電子情報: 391、分数: 271、識別子: 617、アルファベット: 152、単位: 547、序数: 134、郵便: 172、時間: 202）。

ユニット :

5,363テストケース

データ形式 :

テキスト

ユースケース :

言語モデル, LLM, 意味解析

日本語/日本/発音辞書

利用する

データ形式

辞書

言語・方言

日本語

国・地域

日本

ユースケース

言語モデル, TTS, ASR

データセット名 :

日本語/日本/発音辞書

言語・方言 :

日本語

データセットID :

jpn_JPN_PHON

国・地域 :

日本

データセット説明 :

辞書形式の仕様 • ファイル形式: UTF-8 エンコードのプレーンテキストファイル • 構造: <tab> 文字で区切られた以下の列を含む。 1. 単語/名称 2. トランスクリプション 3. ランキング 4. コメント（任意）

ユニット :

262,000単語

データ形式 :

辞書

ユースケース :

言語モデル, TTS, ASR

日本語/日本/品詞辞典

利用する

データ形式

辞書

言語・方言

日本語

国・地域

日本

ユースケース

言語モデル, TTS, ASR

データセット名 :

日本語/日本/品詞辞典

言語・方言 :

日本語

データセットID :

jpn_JPN_POS

国・地域 :

日本

データセット説明 :

ユニット :

265,265単語

データ形式 :

辞書

ユースケース :

言語モデル, TTS, ASR

日本語/領収書・請求書OCRデータセット

利用する

データ形式

画像

言語・方言

日本語

国・地域

日本

ユースケース

OCR

データセット名 :

日本語/領収書・請求書OCRデータセット

言語・方言 :

日本語

データセットID :

IMG_JP_OCR Invoices_CN

国・地域 :

日本

データセット説明 :

領収書326枚、見積書332枚、注文書334枚を含む画像992枚。

ユニット :

992枚

データ形式 :

画像

ユースケース :

OCR

収集環境 :

多様な光条件

収集デバイス :

スマートフォンカメラ/カメラ

1 / 39

Appenが選ばれる理由

700以上のテキスト、画像、動画、音声のデータセットやラベル付きデータセットを提供

迅速なデプロイ

ラベル付きデータセットがAI機械学習のトレーニングを強力に支援

高いコストパフォーマンス

既製データセットを活用することで、費用対効果を高めることが可能

専門性

データ収集とデータセット分野で20年以上の経験を持つ専門家チーム

幅広いデータ形式

画像、動画、音声、テキストなど幅広いデータ形式に対応

大規模データ

大規模な高品質データで、効率的にモデルのトレーニングを実施

高品質データ

機械学習モデルの品質を向上させ、データのバイアスを低減

データ収集とアノテーション

上記の一覧に適したデータセットがない場合は、お客様の特定のユースケースに合わせたカスタムデータをご提供できます。

お問い合わせ

お問い合わせ

ブログ

05/12/2026

AI安全性評価とは何か？LLMレッドチーミングと回答拒否の重要性