Amazon Transcribeでインタビューの文字起こしをしてみる


目的

あるインタビュー音源の文字起こしを自動化出来ないかという検討の過程でAmazon Transcribeが候補に上がり、試してみることにしました。

参考にしたサイト

手順

  1. S3を作成し、翻訳させるための生データを登録します。

ファイルの拡張子はWAV、MP3、MP4、FLACに対応していますので録音時にフォーマットに会うアプリで録音するか、録音後にffmpegなどの変換ソフトを使って変換します。

  1. Amazon Transcribeのコンソール画面で「Create Job」を選択します。

  2. 言語は日本語を選択し、インプットファイルとして先ほど1.で登録したデータを設定し「Next」を実行します。


    必要があればオプションを指定し、「Create」を実行します。

  3. ステータスが「in progress」になっていることを確認します。

  4. 元ファイルが数MBくらいのサイズの場合は数分で「Complete」となり完成です。実際の翻訳結果をファイルとしてダウンロードし、内容を確認してください。固有名詞の翻訳はどうしても不自然な日本語になっていますが、まずまずの精度で翻訳出来ていました。

面白かったのは以下の点です。

  • 文末にマルがついたり、疑問形で終わる会話に?がついていたこと。
  • 英語は全部カタカナ表記となること。
  • 数字は漢数字表記となること。

結果

非常に簡単な手順でかつ数分で実行できるのでなかなか良かったです。
文字起こししてそのまま記事することは出来ませんが、音源を聞いて手動で文字起こしするよりは楽だと感じました。