Python音声認識実現:SpeechRecognition
2872 ワード
最近音声認識の基本的な知識を学び、Pythonの音声認識機能依存ライブラリも理解している.分かち合いましょう.
常用Python音声認識依存ライブラリ
Pythonの依存ライブラリには、既存の音声認識パッケージがあります.次のような機能があります. apiai google-cloud-speech pocketsphinx SpeechRcognition watson-developer-cloud wit
このうちSpeechRecognitionは、googleが出したもので、音声からテキストへの変換に専念しています.
witおよびapiaiは、話し手の意図を識別する自然言語処理機能など、基本的な音声認識を超えた内蔵機能を提供する.
SpeechRecognitionライブラリの利点
いくつかの主流の音声APIを満たし、柔軟性が高い
Google Web Speech APIは、SpeechRecognitionライブラリにハードコーディングされたデフォルトのAPI鍵をサポートし、登録する必要がなく使用できます.
SpeechRecognitionは、マイクへのアクセスやオーディオファイルの最初から処理するスクリプトを構築する必要がなく、数分でオーディオ入力、検索、実行を自動的に完了します.そのため使いやすさが高い.
SpeechRecognitionの識別器
SpeechRecognitionの核心は識別器クラスである.全部で7つのRecognizer APIがあり、オーディオソースの音声を識別するための複数の設定と機能を含む. recognize_bing():Microsoft Bing Speech recognize_google(): Google Web Speech API recognize_google_cloud():Google Cloud Speech - requires installation of the google-cloud-speech package recognize_houndify(): Houndify by SoundHound recognize_ibm():IBM Speech to Text recognize_sphinx():CMU Sphinx - requires installing PocketSphinx recognize_wit():Wit.ai
以上の7つのうちrecognitionのみsphinx()はCMU Sphinxエンジンとオフラインで動作し、他の6つはインターネットに接続する必要があります.
また、SpeechRecognitionにはGoogle Web Speech APIのデフォルトのAPIキーが付属しており、直接使用できます.他の6つのAPIは、API鍵またはユーザ名/パスワードの組合せを使用して認証する必要があるため、本明細書ではWeb Speech APIを使用する.
SpeechRecognitionの使用要件
To use all of the functionality of the library, you should have: Python 2.6, 2.7, or 3.3+ (required)
Python 2.6、2.7、3.3以上のバージョンが必要です PyAudio 0.2.11+ (required only if you need to use microphone input, Microphone)
PyAudio 0.2を取り付ける必要がある.11+のバージョン PocketSphinx (required only if you need to use the Sphinx recognizer, recognizer_instance.recognize_sphinx)
PocketSphinxのインストールが必要です Google API Client Library for Python (required only if you need to use the Google Cloud Speech API, recognizer_instance.recognize_google_cloud)
Google API Client Library for Pythonが必要 FLAC encoder (required only if the system is not x86-based Windows/Linux/OS X)
システムがX 86でない場合、FLAC encoderをインストールする必要があります.
SpeechRecognitionがサポートするファイルタイプ
サポートされるファイルの種類は次のとおりです. WAV:PCM/PCMフォーマット でなければなりません AIFF AIFF-C FLAC:初期FLACフォーマットである必要があります.OGG-FLAC形式は使用できません
SpeechRecognitionのDemoデバッグ
常用Python音声認識依存ライブラリ
Pythonの依存ライブラリには、既存の音声認識パッケージがあります.次のような機能があります.
このうちSpeechRecognitionは、googleが出したもので、音声からテキストへの変換に専念しています.
witおよびapiaiは、話し手の意図を識別する自然言語処理機能など、基本的な音声認識を超えた内蔵機能を提供する.
SpeechRecognitionライブラリの利点
いくつかの主流の音声APIを満たし、柔軟性が高い
Google Web Speech APIは、SpeechRecognitionライブラリにハードコーディングされたデフォルトのAPI鍵をサポートし、登録する必要がなく使用できます.
SpeechRecognitionは、マイクへのアクセスやオーディオファイルの最初から処理するスクリプトを構築する必要がなく、数分でオーディオ入力、検索、実行を自動的に完了します.そのため使いやすさが高い.
SpeechRecognitionの識別器
SpeechRecognitionの核心は識別器クラスである.全部で7つのRecognizer APIがあり、オーディオソースの音声を識別するための複数の設定と機能を含む.
以上の7つのうちrecognitionのみsphinx()はCMU Sphinxエンジンとオフラインで動作し、他の6つはインターネットに接続する必要があります.
また、SpeechRecognitionにはGoogle Web Speech APIのデフォルトのAPIキーが付属しており、直接使用できます.他の6つのAPIは、API鍵またはユーザ名/パスワードの組合せを使用して認証する必要があるため、本明細書ではWeb Speech APIを使用する.
SpeechRecognitionの使用要件
To use all of the functionality of the library, you should have:
Python 2.6、2.7、3.3以上のバージョンが必要です
PyAudio 0.2を取り付ける必要がある.11+のバージョン
PocketSphinxのインストールが必要です
Google API Client Library for Pythonが必要
システムがX 86でない場合、FLAC encoderをインストールする必要があります.
SpeechRecognitionがサポートするファイルタイプ
サポートされるファイルの種類は次のとおりです.
SpeechRecognitionのDemoデバッグ
import speech_recognition as sr
r = sr.Recognizer()
test = sr.AudioFile('/Users/alice/Documents/Work/Blog/AI/ /speechrecognition/audiofiles/test1.wav')
with test as source:
audio = r.record(source)
type (audio)
r.recognize_google(audio, language='zh-CN', show_all= True)