Pydubを使う音声認識ことはじめ
環境:macOS Mojave 10.14.4
目標:一からmp3やwavをnumpy内の配列データに落とし込み, いじれるようにする.
ffmpegのインストール
ターミナル上でffmpegをインストールします.
brew install ffmpeg
ffmpegは結構容量が大きくて, 一部のモジュールだけを取り込む人も多いですが最初の段階ではとりあえず全部入れておくのが後々面倒がなくていいと思います.
pydubの使い方
pydubのインストール
$ pip install pydub
モジュールをインポート
from pydub import AudioSegment
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
mp3の読み込み
$ pip install pydub
from pydub import AudioSegment
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
formatをいじればwavを読み込むこともできる.
sound = AudioSegment.from_file("xxx.mp3", format="mp3")
#"xxx.mp3"は同じディレクトリにあるようにする.
可視化
data = np.array(sound.get_array_of_samples())
x = data[::sound.channels]
plt.plot(x[::100000]) #数はmp3の容量により適宜調整の必要あり.
plt.grid()
plt.show()
例えば, このコードである曲のmp3を可視化したところ次のようになった.
参考
以下にjupyter上でのコードを掲載しているので、是非参考にしてください.
https://github.com/yohei-freelance/Audio_Transform/blob/master/tutorial_pydub.ipynb
Author And Source
この問題について(Pydubを使う音声認識ことはじめ), 我々は、より多くの情報をここで見つけました https://qiita.com/nyohei_freelance/items/cb7c90734d1dbdfe6174著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .