Text to Speech (音声合成)とは?

03/20/2024

Text to Speechとは

Text to Speech(TTS)は、音声合成、音声生成、音声読み上げ、またはテキスト・トゥ・スピーチと呼ばれます。入力したテキスト形式のデータに、人間の声を合成することで、自然な音声に変換するテクノロジーです。

このテクノロジーは、自動応答システム、コールセンター、オーディオブック、Webサイトの自動読み上げ機能、コンテンツの多言語対応など、近年、幅広い分野で活用されています。


Text to Speechのユースケース

AI時代の音声合成として、次のような活用方法があります。

  • コールセンター:従来の機械的な音声に代わり、動的に生成された自然な人間の声によって、より自然なカスタマーサービスを実現できます。
  • 音声アシスタント:音声を生成することで、スマートフォンの音声アシスタントの声を、より自然にすることが可能です。AppleのSiri、GoogleのGoogleアシスタント、Amazonのアレクサ(Alexa)などの音声アシスタントに活用されています。
  • オーディオブックやeラーニング:オーディオブックやeラーニングのコンテンツに、生成した音声で読みあげる機能を追加することで、学習体験を向上させることができます。

AIとText to Speech

Text to Speechという技術は決して新しいものではありません。Webサイトを読み上げる機能など、社会のあらゆる場所で何年も前から実用化されていますが、従来のText to Speechは、自然な人間の声には聞こえなかったことが難点でした。

今では、AI(人工知能)の発達により、Text to Speechはかつてないほど自然な人間の声を合成または生成できるようになっています。

AIで合成または生成された音声は、現在、より感情的な音声となり、従来のように機械的な声ではなくなりました。また、従来のText to Speechが苦手としていた日本語と外来語または外国語の単語が混ざった時の発音、複合名詞の発音、人間らしい話し方など、従来の課題を解決した音声生成モデルも登場しています。


機械学習とText to Speech

AI音声生成(AI音声合成)技術に活用されているのが、膨大な音声データセットと機械学習です。最先端の音声合生成モデルは膨大なパラメーターをもち、何十何百時間の音声データセットを使用して、機械学習されています。

機械学習で訓練された音声生成AIによって、次のことが実現されています。

  • 自然な声:より自然な音声を生成することができます。
  • 多言語:英語などの主要言語だけでなく、幅広い言語に対応しています。
  • 豊富な声:言語だけでなく、性別、人種、アクセント、方言など、条件に沿った音声生成が可能です。
  • カスタム音声:既成の音声パターンだけでなく、誰かの声またはカスタマイズした声を使用して、オリジナルのAI音声を生成をすることができます。
  • チューニング:声の高さ、発声のスピードなども自由に制御できます。

Appenの教師データ、アノテーションサービス

Appenでは、機械学習の精度を改善するためのデータ収集とアノテーションサービスを行っています。お客様の特定のAIプログラムのニーズに合わせて、画像、動画、音声、オーディオ、テキストなど、複数のデータタイプにわたる高品質な教師データを迅速に提供します。

235以上の言語の専門知識、世界中で勤務する100万人以上の熟練したスタッフ、そして業界最先端のAI支援データアノテーションプラットフォームを運用して、Appenのソリューションはテクノロジー業界、自動車業界、金融サービス業界、小売業、製造業、そして世界中の政府機関のリーダーたちが求めている品質、セキュリティ、スピードを提供しています。

詳細については、以下のフォームもしくは、contact-japan@appen.comまでメールでお問い合わせください。