テキストツールから自然な発音音声を合成する
おそらく少なくとも一度音声ツールにテキストを使用している.したがって、このポストでは、我々は音声ツールをPythonを使用してオーディオのエクスポート機能を使用して独自のテキストを作成します.
基本的に、IBM Watsonテキストを音声機械学習モデルに使用します.IBMワトソンは、企業がAIに仕事をして、組織が将来の結果を予測して、複雑なプロセスを自動化して、従業員の時間を最適化するのを援助するのを援助します.
テキスト音声モデルから始めるには、IBMクラウドに登録しなければなりません.IBM Cloudに行って、新しい無料のアカウントを作成します.
その後、モデルのLite計画のインスタンスを作成する必要があります.作成するには、Text to Speech modelページに移動し、Createボタンをクリックして自由なインスタンスを作成します.
その後、取得開始ページが表示されます.APIキーとURLであるモデル資格情報を得るために管理ページに移動します.現在登録手続きが完了しました.
まず、あなたのコンピュータにiBMLIGNワトソンをインストールする必要があります.
インポートTextToVersionモデル、Watson認証、およびAPIキーとURLを認証します.
この手順では、文字列とテキストファイルからテキストをどのように話すかを見ていきます.
音声または言語を変更する場合は、このIBM Languages and Voicesドキュメントを参照してください.
たとえば、私がドイツの女性の声
基本的に、IBM Watsonテキストを音声機械学習モデルに使用します.IBMワトソンは、企業がAIに仕事をして、組織が将来の結果を予測して、複雑なプロセスを自動化して、従業員の時間を最適化するのを援助するのを援助します.
IBMクラウドに登録する
テキスト音声モデルから始めるには、IBMクラウドに登録しなければなりません.IBM Cloudに行って、新しい無料のアカウントを作成します.
その後、モデルのLite計画のインスタンスを作成する必要があります.作成するには、Text to Speech modelページに移動し、Createボタンをクリックして自由なインスタンスを作成します.
その後、取得開始ページが表示されます.APIキーとURLであるモデル資格情報を得るために管理ページに移動します.現在登録手続きが完了しました.
用途
まず、あなたのコンピュータにiBMLIGNワトソンをインストールする必要があります.
pip install ibm_watson
Jupyterノートブックを使用している場合は、コマンドを実行する前に、端末で実行されるように感嘆符を追加します.!pip install ibm_watson
認証する
インポートTextToVersionモデル、Watson認証、およびAPIキーとURLを認証します.
from ibm_watson import TextToSpeechV1
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator
APIキーとURLを指定するurl = '<your-api-url>'
apiKey = '<your-api-key>'
authenticator = IAMAuthenticator(apiKey)
tts = TextToSpeechV1(authenticator=authenticator)
tts.set_service_url(url)
テキストを音声に設定する
この手順では、文字列とテキストファイルからテキストをどのように話すかを見ていきます.
文字列から
with open('./speech.mp3', 'wb') as audio_file:
res = tts.synthesize('Hello World! I\'m Thirasha', accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
audio_file.write(res.content)
しばらくすると、そのファイルをオーディオファイルに生成し、ルートディレクトリでspeech.mp3
としてエクスポートします.テキストファイルから
with open('SpeechText.txt', 'r') as f:
text = f.readlines()
改行を削除するtext = [line.replace('\n', '') for line in text]
text = ''.join(str(line) for line in text)
オーディオファイルのエクスポートwith open('./speech.mp3', 'wb') as audio_file:
res = tts.synthesize(text, accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
audio_file.write(res.content)
言語と音声の変更(随意)
音声または言語を変更する場合は、このIBM Languages and Voicesドキュメントを参照してください.
たとえば、私がドイツの女性の声
de-DE_BirgitV3Voice
を選んだならば、そのコードはこのように変わるべきです.with open('./germanspeech.mp3', 'wb') as audio_file:
res = tts.synthesize('Hallo Welt! Ich bin Thirasha', accept='audio/mp3', voice='de-DE_BirgitV3Voice').get_result()
audio_file.write(res.content)
最終的には、テキスト生成ツールに独自の音声を作成している!🎉Reference
この問題について(テキストツールから自然な発音音声を合成する), 我々は、より多くの情報をここで見つけました https://dev.to/thirashapraween/create-a-synthesizes-natural-sounding-speech-from-text-tool-5230テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol