Python音声認識実現:SpeechRecognition

2872 ワード

最近音声認識の基本的な知識を学び、Pythonの音声認識機能依存ライブラリも理解している.分かち合いましょう.
 
常用Python音声認識依存ライブラリ
Pythonの依存ライブラリには、既存の音声認識パッケージがあります.次のような機能があります.
  • apiai
  • google-cloud-speech
  • pocketsphinx
  • SpeechRcognition
  • watson-developer-cloud
  • wit

  • このうちSpeechRecognitionは、googleが出したもので、音声からテキストへの変換に専念しています.
    witおよびapiaiは、話し手の意図を識別する自然言語処理機能など、基本的な音声認識を超えた内蔵機能を提供する.
     
    SpeechRecognitionライブラリの利点
    いくつかの主流の音声APIを満たし、柔軟性が高い
    Google Web Speech APIは、SpeechRecognitionライブラリにハードコーディングされたデフォルトのAPI鍵をサポートし、登録する必要がなく使用できます.
    SpeechRecognitionは、マイクへのアクセスやオーディオファイルの最初から処理するスクリプトを構築する必要がなく、数分でオーディオ入力、検索、実行を自動的に完了します.そのため使いやすさが高い.
     
    SpeechRecognitionの識別器
    SpeechRecognitionの核心は識別器クラスである.全部で7つのRecognizer APIがあり、オーディオソースの音声を識別するための複数の設定と機能を含む.
  • recognize_bing():Microsoft Bing Speech
  • recognize_google(): Google Web Speech API
  • recognize_google_cloud():Google Cloud Speech - requires installation of the google-cloud-speech package
  • recognize_houndify(): Houndify by SoundHound
  • recognize_ibm():IBM Speech to Text
  • recognize_sphinx():CMU Sphinx - requires installing PocketSphinx
  • recognize_wit():Wit.ai

  • 以上の7つのうちrecognitionのみsphinx()はCMU Sphinxエンジンとオフラインで動作し、他の6つはインターネットに接続する必要があります.
    また、SpeechRecognitionにはGoogle Web Speech APIのデフォルトのAPIキーが付属しており、直接使用できます.他の6つのAPIは、API鍵またはユーザ名/パスワードの組合せを使用して認証する必要があるため、本明細書ではWeb Speech APIを使用する.
     
    SpeechRecognitionの使用要件
    To use all of the functionality of the library, you should have:
  • Python 2.6, 2.7, or 3.3+ (required)

  • Python 2.6、2.7、3.3以上のバージョンが必要です
  • PyAudio 0.2.11+ (required only if you need to use microphone input, Microphone)

  • PyAudio 0.2を取り付ける必要がある.11+のバージョン
  • PocketSphinx (required only if you need to use the Sphinx recognizer, recognizer_instance.recognize_sphinx)

  • PocketSphinxのインストールが必要です
  • Google API Client Library for Python (required only if you need to use the Google Cloud Speech API, recognizer_instance.recognize_google_cloud)

  • Google API Client Library for Pythonが必要
  • FLAC encoder (required only if the system is not x86-based Windows/Linux/OS X)

  • システムがX 86でない場合、FLAC encoderをインストールする必要があります.
     
    SpeechRecognitionがサポートするファイルタイプ
    サポートされるファイルの種類は次のとおりです.
  • WAV:PCM/PCMフォーマット
  • でなければなりません
  • AIFF
  • AIFF-C
  • FLAC:初期FLACフォーマットである必要があります.OGG-FLAC形式は使用できません
  •  
    SpeechRecognitionのDemoデバッグ
    import speech_recognition as sr
    
    r = sr.Recognizer()
    
    test = sr.AudioFile('/Users/alice/Documents/Work/Blog/AI/    /speechrecognition/audiofiles/test1.wav')
    
    with test as source:
        audio = r.record(source)
    
    type (audio)
    
    r.recognize_google(audio, language='zh-CN', show_all= True)