音声認識|中国語音声認識オープンソースデータセット整理(継続更新)

1279 ワード

1.モデル寸法データ
モデル寸法データファイル:https://github.com/makeplanetoheaven/NlpModel/tree/master/SpeechRecognition/Dataset
ファイル内の各ローは、次の形式でデータを表します.
wav_data_path \t pinyin_list \t hanzi_list 

データ名とデータ量は次のとおりです.
Name
total
train
dev
test
aishell 1
141593
120098
14322
7173
primewords set 1
50902
-
-
-
thchs-30
13388
10000
893
2495
st-cmd
102597
-
-
-
magicdata
608756
572723
11776
24257
aidatatang_200zh
231712
161025
23703
46984
2.モデルトレーニングデータ
【st-cmd、primewords、aishell、thchs-30、magicdata、aidatatang】の6つのデータセットを含み、合計約【1385】時間
すべてのデータセットを使用する必要がある場合は、統合パスの下に解凍し、データが存在するルートディレクトリパスを設定するだけです.
以下、それぞれオープンソースデータおよび対応ダウンロードリンク
Name
total
train
dev
test
link
ちゅうしゅつコード
aishell 1
178h
-
-
-
クリック
primewords set 1
100h
-
-
-
クリック
thchs-30
30h
-
-
-
クリック
st-cmd
122h
-
-
-
クリック
magicdata
755h
712.09h
14.84h
28.08h
クリック
4p13
aidatatang
200h
-
-
-
クリック