Pydubを使う音声認識ことはじめ

1707 ワード

MP3 brew 音声認識 Python pydub Python テキストリンク

環境：macOS Mojave 10.14.4
目標：一からmp3やwavをnumpy内の配列データに落とし込み, いじれるようにする.

ffmpegのインストール

ターミナル上でffmpegをインストールします.
brew install ffmpeg
ffmpegは結構容量が大きくて, 一部のモジュールだけを取り込む人も多いですが最初の段階ではとりあえず全部入れておくのが後々面倒がなくていいと思います.

pydubの使い方

pydubのインストール

$ pip install pydub

モジュールをインポート

from pydub import AudioSegment
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

mp3の読み込み

formatをいじればwavを読み込むこともできる.

sound = AudioSegment.from_file("xxx.mp3", format="mp3")
#"xxx.mp3"は同じディレクトリにあるようにする.

可視化

data = np.array(sound.get_array_of_samples())
x = data[::sound.channels]
plt.plot(x[::100000]) #数はmp3の容量により適宜調整の必要あり.
plt.grid()
plt.show()

例えば, このコードである曲のmp3を可視化したところ次のようになった.

参考

以下にjupyter上でのコードを掲載しているので、是非参考にしてください.

https://github.com/yohei-freelance/Audio_Transform/blob/master/tutorial_pydub.ipynb

Author And Source

この問題について(Pydubを使う音声認識ことはじめ), 我々は、より多くの情報をここで見つけました https://qiita.com/nyohei_freelance/items/cb7c90734d1dbdfe6174

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .