音声認識API 料金比較


なにをするにもまずは料金から。
個人でも、使えるかどうか調べてみた。
(20171228現在の情報。料金例は実際の請求料金と異なる可能性あります。)

4大API情報

巨人の肩に乗りたい。

google Cloud Platform

Speech API 料金情報含む
まずはgoogleが提供するSeech API。

料金体系

時間 料金
最初の60min 無料
以後 0.006$/15sec

IBM

IBM watson speech to text

料金体系

時間 料金
最初の1000min 無料
1001minから250,000min 0.02$/min
250,001minから500,000min 0.015$/min
500,000minから1,000,000min 0.0125$/min
1,000,000min以後 0.01$/min

AWS

AWS transcribe 料金

料金体系

時間 料金
最初の60min 無料(利用開始の12か月間)
以後 0.0004$/sec

Microsoft

Azure Bing Speech API 料金

料金体系

時間 料金
最初の5000トランザクション 無料
以後 4$/1000トランザクション

1トランザクションは最大15秒の音声データのリクエストの事のようです。

料金体系2

比較のため、アプリにおいて1トランザクションあたり平均で12秒音声を詰め込めると仮定。

時間 料金
最初の1000min 無料
以後 4$/200min

結局いくらくらいかシミュレーション

(単位:$)

時間 Google IBM AWS MS
1,000 23 0 23 0
100,000 2,399 1,980 2,399 594
1,000,000 23,999 14,980 23,999 5,994
10,000,000 239,999 104,980 239,999 59,994

まとめ

あくまで料金のみについて、

  • ユーザー数が少ないチャレンジフェーズでは無料枠が大きいIBMかMS、
  • 規模が大きくなってくるとMS、
  • GoogleとAWSは料金に大差ないだろう

  • ただし、MSはトランザクション単位の課金なのでアプリで1トランザクション15secをどれだけ有効に使えるかがポイントだと思われます。

以上!私はまずMSにトライしてみようとおもいます。