Pythonで長い会議を見える化〜スペクトログラム描画の応用〜

11131 ワード

numpy scipy matplotlib 音声認識 Python Python テキストリンク

先日の記事「Pythonで音声ファイル（モノラル・ステレオ両対応）のスペクトログラム描画」の応用として、長い会議を1枚の図で見える化してみました。

先日の記事をベースに、以下のような修正を加えました。

2CHステレオ音声の平均をとって1CHにする
stft変換した結果をそのまま表示すると長い会議だと分かりにくくなるため、設定した時間間隔で区切る（半端な部分はゼロ埋めする）
区切った要素をスペクトログラム描画し、縦並びにして表示する

2CHステレオの音声データは早々と潰していますが、最後の表示のところで、区切った分をCHとみなすことで、前回のコードを活かしています。

以下がコードです。

import numpy as np
import matplotlib.pyplot as plt
import soundfile as sf
from scipy import signal as sg

# 入力はwavファイルであること（mp3等は入力前にツールで変換する）
x, fs = sf.read('sample.wav', always_2d=True)
# 2CHの平均をとってモノラル化する
x = x.mean(axis=1)

# stft
nperseg = 256
noverlap = nperseg // 2
f, t, Zxx = sg.stft(x, fs=fs, nperseg=nperseg, noverlap=noverlap)
# 人間の声を分析するため7kHz以上の高音はカット
f = f[f < 7000]
Zxx = Zxx[:len(f)]
# interval単位に時間軸で区切った配列にする
interval = 300  # 5分
window = (interval * fs) // (nperseg - noverlap)
padding_size = window - Zxx.shape[1] % window
if padding_size != window:
    Zxx = np.append(Zxx, np.zeros((Zxx.shape[0], padding_size)), axis=1)
    t = np.linspace(0, Zxx.shape[1]/window*interval, Zxx.shape[1])
Zxx = np.reshape(Zxx.T, (-1, window, Zxx.shape[0])).transpose((0, 2, 1))
t = t[:window]

# スペクトログラムを描画するために相対デシベルを求める
dB = 20 * np.log10(np.abs(Zxx))
# スペクトログラムの描画
num_of_graph = dB.shape[0]
fig, ax = plt.subplots(num_of_graph)
if num_of_graph == 1:
    ax = (ax,)  # グラフ1つの時はaxがスカラーなので調整
for i in range(num_of_graph):
    ax[i].tick_params(labelleft=False)
    ax[i].set_ylabel(f'{interval*i//60}')  # 分で表示
    ax[i].pcolormesh(t, f, dB[i], shading='auto', cmap='jet')
    if i == 0:  # 最初のグラフだけ表題をつけて、全体の表題に見せる
        ax[i].set_title('Meeting spectrogram')
        ax[i].set_ylabel(f'{interval*i//60}(m)')
    if i == num_of_graph - 1:  # 最後のグラフだけx軸ラベルをつける
        ax[i].set_xlabel('Time(s)')
    else:
        ax[i].tick_params(labelbottom=False)
plt.show()

出力結果

会議全体の、会話している部分・静かな部分が、なんとなく分かるようになったと思います。ただし、短時間だけ静かな部分について、話者が切り替わっているのか、それとも同じ話者が間を置いているのか、といった区別は難しそうです。

Author And Source

この問題について(Pythonで長い会議を見える化〜スペクトログラム描画の応用〜), 我々は、より多くの情報をここで見つけました https://qiita.com/toast-uz/items/2f9fc5a436bd1d9e97a5

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .