ESPNet で standalone python script で日本語 text-to-speech するメモ

1648 ワード

ESPNet TTS TTS テキストリンク

には日本語の TTS(Transformer or Tacotron2 + parallel wavegan)の pretrained model があります.

ESPnet オフィシャルの Colab で試すことができますが, standalone で動くようにもしましょう.

スクリプトやインストール設定はここにコミットしました.

とりあえず推論するだけであれば, espnet 内で kaldi のビルドは不要っぽいようです.

弁護士法72条を Tacotron2 で text-to-speech しました.

Super coool!

ちょっとおかしいところもありますが, 追加で句点などいれればうまくいくでしょうか.

Transformer だと生成した音声は途中で結果がおかしくなりました(設定を変える必要があるか, 長いフレーズは ESPnet の Transformer では対応していないかもですね).

TODO

Transformer で長いフレーズにも対応する.
ASR(音声認識)を試す
libtorch で C++ で text-to-speech する(=> モバイルで動かしたい)
優秀な若人さまが, ESPNet をお極めなされることで人類史上最速で優秀な ASR + TTS 若人さまへと昇華なされるスキームを確立する旅に出たい

Author And Source

この問題について(ESPNet で standalone python script で日本語 text-to-speech するメモ), 我々は、より多くの情報をここで見つけました https://qiita.com/syoyo/items/cfc7f1af7588ab7963ce

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .