テキストツールから自然な発音音声を合成する

7814 ワード

おそらく少なくとも一度音声ツールにテキストを使用している.したがって、このポストでは、我々は音声ツールをPythonを使用してオーディオのエクスポート機能を使用して独自のテキストを作成します.
基本的に、IBM Watsonテキストを音声機械学習モデルに使用します.IBMワトソンは、企業がAIに仕事をして、組織が将来の結果を予測して、複雑なプロセスを自動化して、従業員の時間を最適化するのを援助するのを援助します.

IBMクラウドに登録する

テキスト音声モデルから始めるには、IBMクラウドに登録しなければなりません.IBM Cloudに行って、新しい無料のアカウントを作成します.
その後、モデルのLite計画のインスタンスを作成する必要があります.作成するには、Text to Speech modelページに移動し、Createボタンをクリックして自由なインスタンスを作成します.
その後、取得開始ページが表示されます.APIキーとURLであるモデル資格情報を得るために管理ページに移動します.現在登録手続きが完了しました.

用途

まず、あなたのコンピュータにiBMLIGNワトソンをインストールする必要があります.

pip install ibm_watson

Jupyterノートブックを使用している場合は、コマンドを実行する前に、端末で実行されるように感嘆符を追加します.

!pip install ibm_watson

認証する

インポートTextToVersionモデル、Watson認証、およびAPIキーとURLを認証します.

from ibm_watson import TextToSpeechV1
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator

APIキーとURLを指定する

url = '<your-api-url>'
apiKey = '<your-api-key>'

authenticator = IAMAuthenticator(apiKey)
tts = TextToSpeechV1(authenticator=authenticator)
tts.set_service_url(url)

テキストを音声に設定する

この手順では、文字列とテキストファイルからテキストをどのように話すかを見ていきます.

文字列から

with open('./speech.mp3', 'wb') as audio_file:
    res = tts.synthesize('Hello World! I\'m Thirasha', accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
    audio_file.write(res.content)

しばらくすると、そのファイルをオーディオファイルに生成し、ルートディレクトリでspeech.mp3としてエクスポートします.

テキストファイルから

with open('SpeechText.txt', 'r') as f:
    text = f.readlines()

改行を削除する

text = [line.replace('\n', '') for line in text]
text = ''.join(str(line) for line in text)

オーディオファイルのエクスポート

with open('./speech.mp3', 'wb') as audio_file:
    res = tts.synthesize(text, accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
    audio_file.write(res.content)

言語と音声の変更(随意)

音声または言語を変更する場合は、このIBM Languages and Voicesドキュメントを参照してください.
たとえば、私がドイツの女性の声de-DE_BirgitV3Voiceを選んだならば、そのコードはこのように変わるべきです.

with open('./germanspeech.mp3', 'wb') as audio_file:
    res = tts.synthesize('Hallo Welt! Ich bin Thirasha', accept='audio/mp3', voice='de-DE_BirgitV3Voice').get_result()
    audio_file.write(res.content)

最終的には、テキスト生成ツールに独自の音声を作成している!🎉

Reference

この問題について(テキストツールから自然な発音音声を合成する), 我々は、より多くの情報をここで見つけました https://dev.to/thirashapraween/create-a-synthesizes-natural-sounding-speech-from-text-tool-5230

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

SpringBootマルチモジュールプロジェクトの作成

TIL