Pythonを使って音声をテキストに変換する方法


音声認識は、コンピュータソフトウェアが口語中の単語とフレーズを識別し、それを読み書き可能なテキストに変換する能力である。では、どうやってPythonで音声をテキストに変換しますか?どのようにSpeechRecognitionライブラリを使ってPythonで音声をテキストに変換しますか?私たちは最初からあらゆるマシン学習モデルを構築する必要はありません。このライブラリは私たちに様々な有名な共通音声認識APIの便利な包装を提供してくれます。
pipを使ってライブラリをインストールする:

pip3 install SpeechRecognition
Okeyは、Pythonファイルを開いて導入します。

import speech_recognition as sr
ファイルから読み込み
現在のディレクトリに英語の音声を含むオーディオファイルがあることを確認します。

filename = “speech.wav”
このファイルはLibri Speechデータセットから取得しましたが、何か欲しいものを持ってきてもいいです。ファイル名を変更するだけで、音声認識器を初期化できます。

# initialize the recognizer

r = sr.Recognizer()
以下のコードはオーディオファイルの読み込みとGoogle Speech Recognitionを使って音声をテキストに変換します。

# open the filewith sr.AudioFile(filename) as source:www.zpedu.com/

# listen for the data (load audio to memory)

audio_data = r.record(source)

# recognize (convert from speech to text)

text = r.recognize_google(audio_data)

print(text)
これは何秒で完成できますか?ファイルをGoogleにアップロードして出力を取得したからです。これは私の結果です。
I believe you're just talking nonsense
マイクから読み取る
これはあなたのコンピュータにPyAudioをインストールする必要があります。以下はあなたのオペレーティングシステムのインストールプロセスに依存します。
ウィンドウ
インストールしてもいいです。

pip3 install pyaudio
のLinux
まず依存項をインストールします。

sudo apt-get install python-pyaudio python3-pyaudio

pip3 install pyaudio
アップルシステム
まずポルタージュをインストールしてから、それをインストールすることができます。

brew install portaudio

pip3 install pyaudio
今はマイクを使って音声を変えましょう。

with sr.Microphone() as source:

# read the audio data from the default microphone

audio_data = r.record(source, duration=5)

print(“Recognizing…”)

# convert speech to text

text = r.recognize_google(audio_data)

print(text)
マイクから5秒聞いて、テキストに変換してみます。
これは前のコードと非常に似ていますが、ここではマイクオブジェクトを使ってデフォルトのマイクからオーディオを読み取り、その後レコード関数でdurationパラメータを使って5秒後に読み取りを停止し、オーディオデータをアップロードしてGoogleに出力テキストを取得します。
また、レコーダ()関数でオフセットパラメータを使用して、数秒オフセットした後に記録を開始することもできます。
また、言語パラメータをaccept_に伝えることができます。google関数は異なる言語を識別します。例えば、スペイン語の音声を識別したいなら、使用できます。

text = r.recognize_google(audio_data, language=”es-ES”)
締め括りをつける
ここでPythonを使って音声をテキストに変換する方法についての記事を紹介します。pythonに関する音声変換テキストの内容は以前の文章を検索したり、下記の関連記事を見たりしてください。これからもよろしくお願いします。