各種音声オープンデータセット(OpenSLR,kaggle-TIMIT)に関するメモ


音声データーセットに関するメモです。

OpenSLRデーターセット

http://www.opens12lr.org//
以下の4つについて

dev-clean.tar.gz [337M]   (development set, "clean" speech )   Mirrors: [China]  
dev-other.tar.gz [314M]   (development set, "other", more challenging, speech )   Mirrors: [China]  
test-clean.tar.gz [346M]   (test set, "clean" speech )   Mirrors: [China]  
test-other.tar.gz [328M]   (test set, "other" speech )   Mirrors: [China]  

解凍したディレクトリ直下のBOOKS.TXTが音声データーの書き下しになっています。
また中で更に細かくデーターが小分けされてされておりtranscriptが記述されています。

dev-clean

データー形式はflac
359mb

dev-other

データー形式はflac
337MB

test-clean

データー形式はflac
368MB

test-other

音声形式はflacで入っている。
音声データーサイズは352.7MB

kaggel-timitデーターセット

Speak_Recog_Data

これは特にtranscript等はなく音源のみのデーターセットです
.wavで入っています

DARPA TIMIT

以下のようなデーターフォーマットになっています


test_data.csv
test_data.csv
31.7k x 12
train_data.csv
31.7k x 12
PHONCODE.DOC
PROMPTS.TXT
README.DOC
SPKRINFO.TXT
SPKRSENT.TXT
TESTSET.DOC
TIMITDIC.DOC
TIMITDIC.TXT
\data.zip
  --TEST
  --TRAIN

data.zip内にあるTEST内にDRディレクトリ内にtranscriptと一緒に各種.wav音声データーが入っています。
TRAINも同様にtranscriptと一緒に.wavが格納されています。