Unityで使える音声認識(音声入力)調べてみた


音声認識いっぱいあった

Unityで作ったVRコンテンツの中で、音声入力で文字をおこしたい...!!
ということで色々調べたら、めっちゃ種類があったので自分用にまとめ

日本語聞き取りからの文字起こしがどんな感じか、を中心に書いてるよ
多数の先人の知恵借りてます...大感謝

追加でこんな特徴あるよ、があったら!ぜひ!教えてください!

今の所よさそうなのはWatsonかIntelかな...?

各種紹介(アルファベット順) 

※は参照した意見なので後ろに参照元書いてます

Google Cloud Speech API

Watsonより精度がいいとか※3
POST用の音声データ変換にはSoX(Sound eXchange)というOSSを使うが、Pythonでの使い方紹介が多い印象※1
60日までは無償利用可、以後は利用体系に応じて料金がかかる※1
Unityの有料アセットあった(Google Cloud Speech Recognition [VR\AR\Desktop\Desktop])

IBM Watson Speech to Text

Watson×Unity!初心者でもできる、VR 空間で Unity ちゃんとおしゃべりアプリ!で実施
(↑エラーはコメントアウトしちゃえば良いっぽい)
マイクにしっかり声が入ってればそこそこの精度
IBM Cloundの登録あるのがなんか面倒そう(メモリ量限られた範囲内であれば無料で使える)
文字から喋らせたり翻訳したり、他の機能の拡張は楽そう

Intel RealSense

単語は怪しいこともあるが、7割方文章をそのまま文字に起こしてくれていたので優秀そう
SDKとるときexeだからmacの人注意
資料が豊富※2
自由な会話向き※2
Unityで手っ取り早くマイクの音声を文字列にするで本当に秒で実装できた

Julius

精度を上げるには慣れが必要になりそう※2
限られたキーワード向き※2

UnityEngine.Windows.Speech

Macでは動かない
ネットワーク接続は必須※1
感覚的には認識精度はあまり高くない※1
精度は高い※2
限られたキーワード向き※2

VR Watson Speech Sandbox

めも:Watsonの純正チュートリアル→Unity 2018.2とってきて使ってみる?

Web Speech API

node.jsでサーバたてる必要あり
精度が高い※2
資料が多く導入しやすい※2
自由な会話向き※2

※1:【Unity】公式アセット「Speech-to-Text」の使い方とTips紹介
※2【Unity】音声認識エンジンについて調べてみた
※3Twitterのツイート