機械学習用のAIデータセット

AI開発のための既製データセット・ラベル付きデータセット

Appenのラベル付きデータセット

Appenは、100,000時間の音声データ、500,000枚の画像データ、1億ワードのテキストなどを含む、80を超える言語と方言に対応した800以上の認定データセットを提供しています。

ASRデータセット

90以上の言語に対応した100,000時間の音声データ

10,000時間を超える90以上の会話音声データセット

70,000時間を超える120以上の朗読音声データセット

20,000時間を超える20の自由発話音声データセット

70時間の赤ちゃんの泣き声、70時間の犬と猫の泣き声、子供の声などの特殊なデータセット


データセットを見る

大規模言語モデルデータセット

81億トークンの大規模言語モデルデータセット

500万の画像とテキストがペアになったマルチモーダルデータセット(日英韓に対応)

100万の動画とテキストがペアになったマルチモーダルデータセット(日英韓に対応)

100万のChain-of-Thoughtデータセット(日英韓に対応)


データセットを見る

テキストデータセット

98の言語に対応した523万エントリーの発音辞書

22の言語に対応した326万エントリーの品詞辞書

8の言語に対応した100万以上のNERデータセット

データセットを見る

画像データセット

合計600万枚の画像

多言語に対応した12,000枚のOCR画像

2,196枚のマルチラベル画像データベース

680枚の多様なポーズとライティングのポートレート

データセットを見る

動画データセット

乳児の泣き声動画100本 (各1分)

3言語の字幕付き動画(更新一下,新的说法:东亚各国朗读视频,海量开源爬取数据集)

データセットを見る

音声合成データセット

20以上の国籍、400人の声優

覆盖多种不同情绪的音色及应用场景(翻译)

データセットを見る

データセットの活用例

自動運転システム

運転者危険行動識別データセット:運転位置、危険行動、疲労度の検出に活用できます。

乗客安全監視データセット:車内に残された子供、ペット、危険物などを特定に活用できます。

車内音声データセット:音声ナビゲーションやインテリジェント運転体験の実現に活用できます。

車外データセット:車線、障害物、駐車スペースなど車外環境の識別に活用できます。


データセットを見る

カスタマーサポート

自然言語処理データセット:チャットプログラムを生成、効率的なオンラインカスタマーサポートの実現に活用できます。

音声合成データセット:テキストのリアルタイム変換、テキストを自然な音声に変換する音声合成に活用できます。


データセットを見る

スマートファイナンス

ファイナンス業界用OCRデータセット:金融や保険業界の契約書のレビュー、OCRの自動化、効率的で正確なテキスト文字起こしの自動化の実現に活用できます。

データセットを見る

スマートホーム

音声認識データセット:家庭用電子製品の機能的でスマートなインタラクションに活用できます。

障害物画像データセット:ロボット掃除機の物体識別、障害物回避などの機能に活用できます。

データセットを見る

スマートデバイス

顔認識・音声認識データセット:スマートデバイスアプリケーションの展開に活用できます。

データセットを見る

スマートセキュリティ

顔認識・危険行動追跡データセット:AIスマートセキュリティの構築に活用できます。

データセットを見る

データセット一覧

データセットにご興味のある方は、ダウンロードをクリックしてください。担当者がご連絡いたします。

フィルタ
Data Type
ASR
TTS
Dictionary
Image
Text
Video
Language/Region
Asia
North America
South America
Ocreania
Multi-language
Europe
Africa
Japan
Use Cases
ASR
Conversational AI
Chatbot
Smart Devices
Call center
Virtual assistant
OCR
LLM
Healthcare
Semantic Analysis
Multimodal
Education
TTS
Translation
Smart Cockpit
Autopilot
Image recognition
Language modeling
Speech analysis
Image Recognition すべてクリア
Japanese OCR invoice Dataset
Download
Dataset ID
IMG_JP_OCR Invoices_CN
Type
Image
Language
Japanese
Country/Area
Japan
Common application
Image recognition
查看更多
Dataset name :
Japanese OCR invoice Dataset
Dataset ID :
IMG_JP_OCR Invoices_CN
Description :
326 different formats 領収書,332 different formats 見積書,334 different formats 注文書
Type :
Image
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
992images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Arabic image Dataset with annotation
Download
Dataset ID
IMG_OCR_ARU002_CN
Type
Image
Language
Arabic
Country/Area
Arab
Common application
Image recognition
查看更多
Dataset name :
Arabic image Dataset with annotation
Dataset ID :
IMG_OCR_ARU002_CN
Description :
Mainly includes the following types of images: billboards, business memos, lists, maps, packaging, slogans, store signs, posters
Type :
Image
Language :
Arabic
Country/Area :
Arab
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
15054images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Arabic Image collection
Download
Dataset ID
IMG_OCR_Arabic001_CN
Type
Image
Language
Arabic
Country/Area
Arab
Common application
Image recognition
查看更多
Dataset name :
Arabic Image collection
Dataset ID :
IMG_OCR_Arabic001_CN
Description :
ADVERTISEMENT:5265 BOARD:1137 BUSINESS-MENU:192 LIST:1047 MAP:18 PACKAGING:307 SLOGAN:26 STORE:34 WRITTER:498
Type :
Image
Language :
Arabic
Country/Area :
Arab
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
8524images
With transcription/annotation or not :
No
Common application :
Image recognition
License plate(Language:Chinese)
Download
Dataset ID
IMG_License Plate_CN
Type
Image
Language
Chinese
Country/Area
China
Common application
Smart Devices, Autopilot, Image recognition
查看更多
Dataset name :
License plate(Language:Chinese)
Dataset ID :
IMG_License Plate_CN
Description :
Road vehicle photos captured by highway/city surveillance cameras&mobile phone flat shots of license plates, multiple perspectives per vehicle
Type :
Image
Language :
Chinese
Country/Area :
China
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
44523
With transcription/annotation or not :
No
Common application :
Smart Devices, Autopilot, Image recognition
Multiple license plate processing(Language:Chinese)
Download
Dataset ID
IMG_CAR LicenseP_CN
Type
Image
Language
Chinese
Country/Area
China
Common application
Smart Devices, Autopilot, Image recognition
查看更多
Dataset name :
Multiple license plate processing(Language:Chinese)
Dataset ID :
IMG_CAR LicenseP_CN
Description :
Yellow card cars and green card cars captured in various scenes and perspectives on sunny/rainy/day/night
Type :
Image
Language :
Chinese
Country/Area :
China
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
5754images
With transcription/annotation or not :
No
Common application :
Smart Devices, Autopilot, Image recognition
Elevator electric vehicle image dataset(Language:Chinese)
Download
Dataset ID
IMG_DDC_CN
Type
Image
Language
Country/Area
China
Common application
Smart Devices, Image recognition
查看更多
Dataset name :
Elevator electric vehicle image dataset(Language:Chinese)
Dataset ID :
IMG_DDC_CN
Description :
An electric vehicle image in an elevator scene, with no more than 5 images of the same electric vehicle appearing. All images are labeled (monitoring perspective)
Type :
Image
Language :
Country/Area :
China
Collection equipment :
Collection environment :
Unit :
17132images
With transcription/annotation or not :
Yes
Common application :
Smart Devices, Image recognition
Photos of new energy vehicles(Language:Chinese)
Download
Dataset ID
IMG_XNY_CN
Type
Image
Language
Country/Area
China
Common application
Image recognition
查看更多
Dataset name :
Photos of new energy vehicles(Language:Chinese)
Dataset ID :
IMG_XNY_CN
Description :
Photos of new energy vehicles
Type :
Image
Language :
Country/Area :
China
Collection equipment :
Mobile phone
Collection environment :
Indoor lighting
Unit :
2642images
With transcription/annotation or not :
No
Common application :
Image recognition
Elevator scene pictures(Language:Chinese)
Download
Dataset ID
IMG_DTJ_CN
Type
Image
Language
Country/Area
China
Common application
Image recognition
查看更多
Dataset name :
Elevator scene pictures(Language:Chinese)
Dataset ID :
IMG_DTJ_CN
Description :
Picture of elevator personnel falling to the ground Picture of personnel smoking Elevator debris: photos of scooters, baby strollers, umbrellas, bags, suitcases, cardboard boxes, garbage bags, gas cylinders, bicycles, and various other debris
Type :
Image
Language :
Country/Area :
China
Collection equipment :
Surveillance camera
Collection environment :
Multiple lighting options
Unit :
51859images
With transcription/annotation or not :
No
Common application :
Image recognition
Flame&Smoke Picture Set(Language:Chinese)
Download
Dataset ID
IMG_HY_CN
Type
Image
Language
Country/Area
China
Common application
Image recognition
查看更多
Dataset name :
Flame&Smoke Picture Set(Language:Chinese)
Dataset ID :
IMG_HY_CN
Description :
This dataset contains graphs of stove flames and outdoor flame smoke
Type :
Image
Language :
Country/Area :
China
Collection equipment :
Surveillance camera
Collection environment :
Multiple lighting options
Unit :
16607images
With transcription/annotation or not :
No
Common application :
Image recognition
Taillight(Language:Chinese)
Download
Dataset ID
IMG_WD_CN
Type
Image
Language
Country/Area
China
Common application
Image recognition
查看更多
Dataset name :
Taillight(Language:Chinese)
Dataset ID :
IMG_WD_CN
Description :
Vehicle dual flashing light 7107, left turn signal 6902, right turn signal 16784
Type :
Image
Language :
Country/Area :
China
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
30793 images
With transcription/annotation or not :
No
Common application :
Image recognition
1 / 3

Appenが選ばれる理由

700以上のテキスト、画像、動画、音声のデータセットやラベル付きデータセットを提供

迅速なデプロイ

ラベル付きデータセットがAI機械学習のトレーニングを強力に支援

高いコストパフォーマンス

既製データセットを活用することで、費用対効果を高めることが可能

専門性

データ収集とデータセット分野で20年以上の経験を持つ専門家チーム

幅広いデータ形式

画像、動画、音声、テキストなど幅広いデータ形式に対応

大規模データ

大規模な高品質データで、効率的にモデルのトレーニングを実施

高品質データ

機械学習モデルの品質を向上させ、データのバイアスを低減

データ収集とアノテーション

上記の一覧に適したデータセットがない場合は、お客様の特定のユースケースに合わせたカスタムデータをご提供できます。

お問い合わせ

機械学習用のAIデータセットに関するご相談はこちらまでお気軽にお問い合わせください。

お問い合わせ

Appen Japan

アッペンジャパン株式会社

東京都千代田区

丸の内1-5-1

新丸の内ビルディング9階

100-6509

TEL 03–6822-2971

@ 2024 APPEN LIMITED
プライバシーポリシー
お問い合わせ
データセット