ESPNet で standalone python script で日本語 text-to-speech するメモ


には日本語の TTS(Transformer or Tacotron2 + parallel wavegan)の pretrained model があります.

ESPnet オフィシャルの Colab で試すことができますが, standalone で動くようにもしましょう.

スクリプトやインストール設定はここにコミットしました.

とりあえず推論するだけであれば, espnet 内で kaldi のビルドは不要っぽいようです.

弁護士法72条を Tacotron2 で text-to-speech しました.

Super coool!

ちょっとおかしいところもありますが, 追加で句点などいれればうまくいくでしょうか.

Transformer だと生成した音声は途中で結果がおかしくなりました(設定を変える必要があるか, 長いフレーズは ESPnet の Transformer では対応していないかもですね).

TODO

  • Transformer で長いフレーズにも対応する.
  • ASR(音声認識)を試す
  • libtorch で C++ で text-to-speech する(=> モバイルで動かしたい)
  • 優秀な若人さまが, ESPNet をお極めなされることで人類史上最速で優秀な ASR + TTS 若人さまへと昇華なされるスキームを確立する旅に出たい