Python音声認識実現:SpeechRecognition

2872 ワード

Python

最近音声認識の基本的な知識を学び、Pythonの音声認識機能依存ライブラリも理解している.分かち合いましょう.

常用Python音声認識依存ライブラリ
Pythonの依存ライブラリには、既存の音声認識パッケージがあります.次のような機能があります.

apiai

google-cloud-speech

pocketsphinx

SpeechRcognition

watson-developer-cloud

wit

このうちSpeechRecognitionは、googleが出したもので、音声からテキストへの変換に専念しています.
witおよびapiaiは、話し手の意図を識別する自然言語処理機能など、基本的な音声認識を超えた内蔵機能を提供する.

SpeechRecognitionライブラリの利点
いくつかの主流の音声APIを満たし、柔軟性が高い
Google Web Speech APIは、SpeechRecognitionライブラリにハードコーディングされたデフォルトのAPI鍵をサポートし、登録する必要がなく使用できます.
SpeechRecognitionは、マイクへのアクセスやオーディオファイルの最初から処理するスクリプトを構築する必要がなく、数分でオーディオ入力、検索、実行を自動的に完了します.そのため使いやすさが高い.

SpeechRecognitionの識別器
SpeechRecognitionの核心は識別器クラスである.全部で7つのRecognizer APIがあり、オーディオソースの音声を識別するための複数の設定と機能を含む.

recognize_bing():Microsoft Bing Speech

recognize_google(): Google Web Speech API

recognize_google_cloud():Google Cloud Speech - requires installation of the google-cloud-speech package

recognize_houndify(): Houndify by SoundHound

recognize_ibm():IBM Speech to Text

recognize_sphinx():CMU Sphinx - requires installing PocketSphinx

recognize_wit():Wit.ai

以上の7つのうちrecognitionのみsphinx()はCMU Sphinxエンジンとオフラインで動作し、他の6つはインターネットに接続する必要があります.
また、SpeechRecognitionにはGoogle Web Speech APIのデフォルトのAPIキーが付属しており、直接使用できます.他の6つのAPIは、API鍵またはユーザ名/パスワードの組合せを使用して認証する必要があるため、本明細書ではWeb Speech APIを使用する.

SpeechRecognitionの使用要件
To use all of the functionality of the library, you should have:

Python 2.6, 2.7, or 3.3+ (required)

Python 2.6、2.7、3.3以上のバージョンが必要です

PyAudio 0.2.11+ (required only if you need to use microphone input, Microphone)

PyAudio 0.2を取り付ける必要がある.11+のバージョン

PocketSphinx (required only if you need to use the Sphinx recognizer, recognizer_instance.recognize_sphinx)

PocketSphinxのインストールが必要です

Google API Client Library for Python (required only if you need to use the Google Cloud Speech API, recognizer_instance.recognize_google_cloud)

Google API Client Library for Pythonが必要

FLAC encoder (required only if the system is not x86-based Windows/Linux/OS X)

システムがX 86でない場合、FLAC encoderをインストールする必要があります.

SpeechRecognitionがサポートするファイルタイプ
サポートされるファイルの種類は次のとおりです.

WAV:PCM/PCMフォーマット

でなければなりません

AIFF

AIFF-C

FLAC:初期FLACフォーマットである必要があります.OGG-FLAC形式は使用できません

SpeechRecognitionのDemoデバッグ

import speech_recognition as sr

r = sr.Recognizer()

test = sr.AudioFile('/Users/alice/Documents/Work/Blog/AI/    /speechrecognition/audiofiles/test1.wav')

with test as source:
    audio = r.record(source)

type (audio)

r.recognize_google(audio, language='zh-CN', show_all= True)

今更 Redisを勉強した

CentOS7にRedisをインストールする