機械学習用のAIデータセット

AI開発のための既製データセット・ラベル付きデータセット

データセットの活用例

自動運転システム

運転者危険行動識別データセット:運転位置、危険行動、疲労度の検出に活用できます。

乗客安全監視データセット:車内に残された子供、ペット、危険物などを特定に活用できます。

車内音声データセット:音声ナビゲーションやインテリジェント運転体験の実現に活用できます。

車外データセット:車線、障害物、駐車スペースなど車外環境の識別に活用できます。


データセットを見る

カスタマーサポート

自然言語処理データセット:チャットプログラムを生成、効率的なオンラインカスタマーサポートの実現に活用できます。

音声合成データセット:テキストのリアルタイム変換、テキストを自然な音声に変換する音声合成に活用できます。


データセットを見る

スマートファイナンス

ファイナンス業界用OCRデータセット:金融や保険業界の契約書のレビュー、OCRの自動化、効率的で正確なテキスト文字起こしの自動化の実現に活用できます。

データセットを見る

スマートホーム

音声認識データセット:家庭用電子製品の機能的でスマートなインタラクションに活用できます。

障害物画像データセット:ロボット掃除機の物体識別、障害物回避などの機能に活用できます。

データセットを見る

スマートデバイス

顔認識・音声認識データセット:スマートデバイスアプリケーションの展開に活用できます。

データセットを見る

スマートセキュリティ

顔認識・危険行動追跡データセット:AIスマートセキュリティの構築に活用できます。

データセットを見る

データセット一覧

データセットにご興味のある方は、ダウンロードをクリックしてください。担当者がご連絡いたします。

フィルタ
Data Type
ASR
TTS
Dictionary
Image
Text
Video
Language/Region
Asia
North America
South America
Ocreania
Multi-language
Europe
Africa
Japan
Use Cases
ASR
Conversational AI
Chatbot
Smart Devices
Call center
Virtual assistant
OCR
LLM
Healthcare
Semantic Analysis
Multimodal
Education
TTS
Translation
Smart Cockpit
Autopilot
Image recognition
Language modeling
Speech analysis
すべてクリア
Japanese (Japan) Pronunciation Dictionary
Download
Dataset ID
jpn_JPN_PHON
Type
Language
Japanese
Country/Area
Japan
Common application
查看更多
Dataset name :
Japanese (Japan) Pronunciation Dictionary
Dataset ID :
jpn_JPN_PHON
Description :
The file format of the lexicon is a plain TXT file encoded in UTF-8.The lexicon contains the following columns. Each column is separated by a<tab> character: 1.Word/Name 2.Transcription 3.Rank 4.Comment (Optional)
Type :
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Collection environment :
Unit :
262,000words
With transcription/annotation or not :
No
Common application :
Japanese (Japan) Part of Speech Dictionary
Download
Dataset ID
jpn_JPN_POS
Type
Dictionary
Language
Japanese
Country/Area
Japan
Common application
ASR, Language modeling, TTS
查看更多
Dataset name :
Japanese (Japan) Part of Speech Dictionary
Dataset ID :
jpn_JPN_POS
Description :
The file format of the lexicon is a plain TXT file encoded in UTF-8.The lexicon contains the following columns. Each column is separated by a<tab> character: 1.Word/Name 2.Transcription 3.Rank 4.Comment (Optional)
Type :
Dictionary
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Collection environment :
Unit :
265,000words
With transcription/annotation or not :
No
Common application :
ASR, Language modeling, TTS
Japanese OCR invoice Dataset
Download
Dataset ID
IMG_JP_OCR Invoices_CN
Type
Image
Language
Japanese
Country/Area
Japan
Common application
Image recognition
查看更多
Dataset name :
Japanese OCR invoice Dataset
Dataset ID :
IMG_JP_OCR Invoices_CN
Description :
326 different formats 領収書,332 different formats 見積書,334 different formats 注文書
Type :
Image
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
992images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Japanese NER news text
Download
Dataset ID
JPY_NER001
Type
Text
Language
Japanese
Country/Area
Japan
Common application
Language modeling, LLM
查看更多
Dataset name :
Japanese NER news text
Dataset ID :
JPY_NER001
Description :
The file contains 21,000 sentences annotated for Named Entities. The file is of XML format and includes annotation for person, title, organization, location, facility, religion, nationality and geo-political entity.
Type :
Text
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Collection environment :
Unit :
20,629 sentences
With transcription/annotation or not :
Yes
Common application :
Language modeling, LLM
Japanese Inverse text normalisation
Download
Dataset ID
JPN_ITN001
Type
Text
Language
Japanese
Country/Area
Japan
Common application
Language modeling, Semantic Analysis, LLM
查看更多
Dataset name :
Japanese Inverse text normalisation
Dataset ID :
JPN_ITN001
Description :
This dataset contains 5363 test cases across 14 categories, including address, alphanumeric, cardinal, currency, date, fraction, identifier, etc.
Type :
Text
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Collection environment :
Unit :
5363 test cases
With transcription/annotation or not :
No
Common application :
Language modeling, Semantic Analysis, LLM
English (United States) conversational smartphone
Download
Dataset ID
USE_ASR003
Type
ASR
Language
English
Country/Area
America
Common application
Speech analysis, Virtual assistant, ASR
查看更多
Dataset name :
English (United States) conversational smartphone
Dataset ID :
USE_ASR003
Description :
This database contains voice data recorded during 928 sessions. Each pair of 928 unique speakers recorded an average of about 60 minutes of conversation. Each pair of speakers can record up to 14 conversations about different topics. Provided the speaker with a topic for each conversation.
Type :
ASR
Language :
English
Country/Area :
America
Collection equipment :
Mobile phone
Collection environment :
Low background noise (home/office)
Unit :
1000hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
Thai telephone channel
Download
Dataset ID
THA_ASR003_CN
Type
ASR
Language
Thai
Country/Area
Thailand
Common application
Speech analysis, Virtual assistant, ASR
查看更多
Dataset name :
Thai telephone channel
Dataset ID :
THA_ASR003_CN
Description :
The Thai telephone channel mainly covers topics such as electronic technology & digital time & education & politics & economy & sports & shopping.
Type :
ASR
Language :
Thai
Country/Area :
Thailand
Collection equipment :
Telephone
Collection environment :
Low background noise (home/office)
Unit :
1000hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
Arabic image Dataset with annotation
Download
Dataset ID
IMG_OCR_ARU002_CN
Type
Image
Language
Arabic
Country/Area
Arab
Common application
Image recognition
查看更多
Dataset name :
Arabic image Dataset with annotation
Dataset ID :
IMG_OCR_ARU002_CN
Description :
Mainly includes the following types of images: billboards, business memos, lists, maps, packaging, slogans, store signs, posters
Type :
Image
Language :
Arabic
Country/Area :
Arab
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
15054images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Japanese Free Speaking Speech/Business/daily conversation Dataset
Download
Dataset ID
JAP_ASR001_CN
Type
ASR
Language
Japanese
Country/Area
Japan
Common application
Speech analysis, Virtual assistant, ASR
查看更多
Dataset name :
Japanese Free Speaking Speech/Business/daily conversation Dataset
Dataset ID :
JAP_ASR001_CN
Description :
Japanese Free Speaking Speech Database
Type :
ASR
Language :
Japanese
Country/Area :
Japan
Collection equipment :
Mobile phone
Collection environment :
Low background noise (home/office)
Unit :
11.88hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
Indonesian Dialogue Dataset
Download
Dataset ID
IND_DH_ASR001_CN
Type
ASR
Language
Indonesian
Country/Area
Indonesia
Common application
Speech analysis, Virtual assistant, ASR
查看更多
Dataset name :
Indonesian Dialogue Dataset
Dataset ID :
IND_DH_ASR001_CN
Description :
IND_DH_ASR001_CN is the recording of the conversation between Indonesian locals who speak Indonesian as their native language. Topics include: financial consumption, communication, social hot spots, tourism and shopping, sports and entertainment, digital time, local names, education and learning, medical COVID-19, and scientific and technological digital games. This database contains text transcription and labels have been added to the text.
Type :
ASR
Language :
Indonesian
Country/Area :
Indonesia
Collection equipment :
Mobile phone
Collection environment :
Low background noise (home/office)
Unit :
300hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
1 / 37

Appenが選ばれる理由

700以上のテキスト、画像、動画、音声のデータセットやラベル付きデータセットを提供

迅速なデプロイ

ラベル付きデータセットがAI機械学習のトレーニングを強力に支援

高いコストパフォーマンス

既製データセットを活用することで、費用対効果を高めることが可能

専門性

データ収集とデータセット分野で20年以上の経験を持つ専門家チーム

幅広いデータ形式

画像、動画、音声、テキストなど幅広いデータ形式に対応

大規模データ

大規模な高品質データで、効率的にモデルのトレーニングを実施

高品質データ

機械学習モデルの品質を向上させ、データのバイアスを低減

データ収集とアノテーション

上記の一覧に適したデータセットがない場合は、お客様の特定のユースケースに合わせたカスタムデータをご提供できます。

お問い合わせ

機械学習用のAIデータセットに関するご相談はこちらまでお気軽にお問い合わせください。

お問い合わせ

アッペンジャパン株式会社

東京都千代田区

丸の内1-5-1

新丸の内ビルディング9階

100-6509

TEL +81–(0)3–6822-2971

@ 2024 APPEN LIMITED
プライバシーポリシー
お問い合わせ