音声認識比較:東芝のRECAIUSとGoogleのWeb Speechを同じ朗読を再生してみた


音声認識の比較

最近各社が音声認識のためのAPIを積極的に開示している。その中でも日経産業新聞に東芝がRECAIUSという新しい音声認識APIを開発者に提供していると聞き、早速試してみた。

東芝の新しいRECAIUSという音声認識

https://www.toshiba.co.jp/cl/pro/recaius/feature.html
Docomo Developerのやつと似た感じのラインナップではあるが、同時通訳などさらに上を目指しているような印象を受ける。使用するには開発者登録をする。まずメールだけ登録すると、翌営業日にキーが送られてくる。開発者登録の中でも驚くほどシンプル。

Google Web Speech API

ちょっと使ってみたことのあるAPIで、非常に高精度。
https://www.google.com/intl/ja/chrome/demos/speech.html

朗読ファイルを再生して音声認識を比較

読み上げた文章は以下のとおり

案の定、市場の混雑を抜けだす前にトムは彼を見失ってしまった。これからどうすべきかわからなかったので、トムはとりあえず、市場広場から上の路地へと階段が通じている一角で待つことにした。背後の薄暗い路地は静まり返っていて、前方の市場の活気とは奇妙に対照的だった。

RECAIUSでの認識

案の定、上の混雑を抜けだす前にお別れを見失ってしまった。
これからどうすべきか分からなかったのでともとりあえず以上広場から上の路地へと階段が続いてる一角で待つことにした。
介護の薄暗い図書室まで書いていて、前方の一場の活気とは奇妙に対照的だった。

Google Web Speechでの認識

あの上支障の混雑を抜け出す前にとも別れを三勇士なってしまったこれからどうすべきかわからなかったので ともはとりあえず地上広場から上野 ロジエと階段が続いている 一鶴で待つことにした 英語のうすぐらいの事は集まり返っていて 前方の市場の楽器とは 奇妙に対照的だった

感想

どちらも、一般的な会話文の認知の精度にはほとんど差はないくらいの高性能だと言える。例えば一般的な英語のテキストを読み上げてみたところ、文節の区切りなどに違いがあるにしても、99%正確に認識して文字を起こせる。

私はビールを飲むのがコーヒーやお茶よりも好きです。
お母さんはいつも働いています。私はお母さんにお礼を言います。
このような文章は、その他Docomoの音声認識やYahooのでもほぼ完璧だ。

しかし小説の一部のような朗読の場合、文章表現の幅が大きいためか認知度は極端に下がる。今回試した小説の範囲ではRECAIUSのほうが精度は良かったように思う。