Amazon Polly


機械学習に関する基本的な内容をまとめてみたものです。機械学習に関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
Amazon Polly

Amazon Pollyの概要

Amazon Polly は、文章をリアルな音声に変換するサービスです。Polly を使用することにより、会話機能を搭載したアプリケーションを簡単に作成することが可能になります。Polly は高度な深層学習テクノロジーを使用した Amazon AI サービスの 1 つで、人間の声のような音声を合成するサービスです。

・Polly には 24 の言語と 47 の音声が含まれているため、用途に最適な音声を選んで、多くの国で使える音声対応のアプリケーションを簡単に構築できます。

・Amazon Polly は安定して応答時間が短いため、リアルタイムの対話が実現できます。

・Polly の音声はキャッシュして保存できるため、オフライン再生や再配布が可能です

・Polly は簡単に使用できます。音声に変換するテキストを Polly API に送ると、すぐに Polly からオーディオストリームがアプリケーションに返され、アプリケーションでそれを直接再生することや、MP3 などの標準オーディオファイルとして保存することが可能です

・標準的な音声合成マークアップ言語 (SSML) を使用して、発音、ボリューム、ピッチ、話す速度など、音声のさまざまな面を制御できます

・カスタム辞書を使用することで、”P!nk”、”ROTFL”、”C’est la vie” (フランス語以外で発声する場合) のような企業名、頭字語、外来語、新語など、特定の単語の発音を修正できます。

Amazon Pollyの主な特徴

自然な音声を再生

Amazon Polly は、深層学習テクノロジーを利用して、47 種類の声を 24 の言語で人間の声のように高品質に再生します。これには、さまざまなアクセントの男性と女性の声が含まれています。Polly はテキストを複数の言語で流暢に発音するため、高品質の音声出力を配信することや、世界中のユーザー向けのアプリケーションを作成することが可能になります。

例えば、”I live in Seattle”と”Live from New York”というフレーズにおける”live”という単語の異なる発音を考慮してくれます。Pollyはこの同形異義語が、同じ綴りだけど全く違う発音をされることを知っています。

応答が速い

Amazon Polly は安定して応答時間が短いため、リアルタイムの対話が実現できます。Polly の API に送信する文章が長くても、音声をアプリケーションにストリームとして返すため、直ちに声を再生できます。

クラウドベースのソリューションのメリット

テキスト読み上げソリューションでは大量のコンピューティングリソースが必要です。特に、デバイスの CPU 能力、RAM、ディスクスペースが必要です。これらの種類の動的な音声による応答は、ユーザーのデバイスで一般的に保存できるものよりもはるかに大量の音声オーディオへのアクセスを必要とします。Amazon Polly はクラウド上にあるため、多種多様な合成音声にアクセスすることが可能です。Polly を使用すると、お客様のアプリケーションは、リアルタイムデータを含むさらに多くの価値ある応答を提供できるとともに、クラウドでテキスト読み上げ変換を実行すると、ローカルで必要なリソースが劇的に減ります。

統合が簡単

Amazon Polly を使用すると、ウェブサイト、モバイルアプリケーション、デバイスに簡単に声を追加できます。Polly では、スピーチに変換する文章を書いて Polly API に送信するだけで、すぐに Polly が音声ストリームを返します。

ユースケース

Webコンテンツへの音声の追加

Amazon Polly を使用すると、ビデオ、プレゼンテーション、またはオンラインのトレーニングコースに音声を簡単に追加することができます。Polly を使用すると、RSS フィード、ニュース、E メールを読んだり、合成された音声をオーディオファイルの形式で保存したりすることができます。

カスタマーセンター

Amazon Polly を使用することにより、自然な声で応答するカスタマーコンタクトセンターを実現することができます。Polly の音声出力を音声自動応答 (IVR) システムを通して再生することもできます。さらに、Polly の API を活用して、サービスステータス、アカウントや請求書に関する問い合わせ、住所、連絡先情報のような自動化されたリアルタイムの情報をBOTなどで配信することができます。

学習コンテンツ

新しい言語の話し方を教えるアプリケーションに Amazon Polly を使用することができます。例えば、エンドユーザーが外国語のフレーズをアプリケーションに入力すると、ネイティブスピーカーによる音声を聞くことができます。

スマホアプリへの音声の追加

Amazon Polly を使用すると、モバイルアプリケーションとモバイルゲームに簡単に音声を追加することができます。Polly では、標準の音声応答をデバイスに保存できるほか、ゲーム内のキャラクターの会話、順位表のランキング、ゲームの招待などの動的でリアルタイムの応答にも利用できます。

料金について

Amazon Polly は従量課金制で、文字あたりの変換のコストが低く、無制限に再生できるため、実質的にどのアプリケーションでも音声の合成を可能にする費用対効果の高い方法です。

AWS 無料利用枠の一環として、Amazon Polly を無料で開始できます。サインアップしていただくと、Amazon Polly を初めて使用するお客様は、最初の 12 か月間は 1 か月あたり最大 500 万文字を無料で利用できます。