Vonage Voice APIで Speech Recognition - 3つの改善ポイント


自動音声認識(ASR)の利用により、アプリはIVRを含め様々な音声ボット/アシスタントのユースケースにおける音声入力サポートを可能にしました。この機能により今までのDTMFによるレガシーの数字入力アクションに留まらず、ユーザーからの音声を文字に起こし、その音声インプットに対して設定したビジネスロジックに従いコールフローを実行する事が可能になります。コールフローについては、以下を参照下さい。

今回の記事では、VonageのVoice APIにおいて開発者の方々から多くの要望が上がっていた音声認識(ASR=Automated speech recognition)が一般提供=GAされるにあたり、ベータ段階で開発者の方々から頂いた貴重なフィードバックを反映した3つの改善ポイントをご紹介します。

Call IDを新しい仕様ではオプション化

DTMF入力とは異なり、コール(レッグとも呼ばれます)IDについては、ASRでは必須パラメーターでした。 NCCOをその場で動的に構築する必要性について、開発者の方からのご指摘が上がり以下のように改善しました。

現在の仕様ではuuidパラメータはオプションであり、コールの最初のレッグがデフォルトとして使用されます。これは、エンドユーザーが問い合わせを行い、IVRや音声ボットなどのASRの機能を活用する一般的なユースケースになります。これら一般的なユースケースでは通常PSTNからアプリケーションへのインバウンド、またはアプリケーションからPSTN電話番号へのアウトバウンドのいずれかを前提としており、これらのユースケースでは単一のレッグとなりデフォルトになります。

単一のレッグではないユースケースでは、レッグを明示的に指定する事でより複雑なシナリオの実現も可能です。これは複数の人が会話をしている様なユースケースで、特定のコール=レッグを指定してASRで処理する等が考えられます。

パラメータとしての入力タイプ

以前の仕様では:
* DTMFトーンのみ
* 音声のみ
* その両方を受け入れる
入力アクションを構成するケースではカスタム設定を設定したくない場合でも、それぞれDTMFおよび/または音声オブジェクトを定義する必要がありました。したがって、デフォルトのケースでは、入力アクションを次のように設定する必要がありました。

[
  {
      "action": "input",
      "dtmf": { 
      },
      "speech": {
          "uuid": "0a41d330-853b-4294-8cbb-69e8e65dc9d4"
      }
  }
]

今回の改善では、typeと呼ばれる新しいパラメーターを導入しました。これにより、必要な入力アクションのタイプを明示的に設定可能です。両方の場合は、["dtmf"]、["speech"]または["dtmf"、 "speech"]で設定可能になりました。音声のuuidがオプションになったことを踏まえ、アクティブ化されたDTMFとASRの両方をNCCOオブジェクトでは以下のように簡潔にする改善を行いました。

[
  {
      "action": "input",
      "type": [ "dtmf", "speech" ]
  }
]

以前と同様に、dtmf / speechオブジェクトを使用してカスタムDTMF / ASRパラメータを設定できます。下位互換性を維持する為に、デフォルトのDTMF入力シナリオは引き続きサポートします。

In-APP SDKでのフルサポート

利用可能なすべてのサーバーSDKがASRをサポートするよう改善しました。

これらの改善により、DTMF IVRを自然な音声音声アシスタントに変換したり、最初から作成したりする事が非常に簡単になりました。

VonageのAPIプラットフォームは開発者の方からの声を重要視しており、ベータ版からGA=General availabilityになっても改善は継続します。多くの開発者の方からのフィードバックをお待ちしております!

今回の記事について不明な点や導入にサポートが必要でしたら、是非弊社まで遠慮なくご連絡下さい!

関連記事

参照記事

連絡先

Vonage Japan合同会社
Mail: [email protected]
URL: https://www.vonagebusiness.jp/communications-apis/