音声認識に用いるコーパス データ量、質で分類してみた


音声認識に用いるコーパス

音声認識には音の情報を知覚するための音響モデル、言語情報を知覚するための言語モデルが必要

1.音響モデル
-最低必要なもの
--音響モデルには音声データと音素との対応付がされた辞書が必要

-あったらベター
--書き起こし文
--音声に関する付随情報(発話開始時間、発話終了時間、話者、アクセント、モーラなど)

2.言語モデル
-最低必要なもの
--生のテキストデータ

-あったらベター
--品詞情報が付与されているコーパス
--構文解析木つきのコーパス
--対訳付きのコーパス
--機械翻訳や対話などの自然言語理解の研究を進めるのにタグ情報
--見出し語とその読みと品詞を集めた語彙目録ないし単語・形態素一覧表
--語が複数の意味を持つ場合の語義の説明、格パターンを集めた辞書にする

コーパスに関して、値段と質から勝手に選別してみた(今回は対話にフォーカスしています)

質に関しては個人の主観が入ってますので、予めご注意を

音響モデル用のデータ

質に関しては4段階評価をしています。(4が最高です)

コーパス名 値段
CSJ(話言葉コーパス) 4 2.5万〜50万
JNAS( 新聞記事読み上げ音声コーパス) 3 21,600円(税・送料込)
PASD(「音声対話」 対話音声コーパス ) 2 無料
会議音声データベース (RWCP-SP01) 2 無料
 研究用連続音声データベース (ASJ-JIPDEC) 3 4,860円 

-CSJ

--評価理由
---値段は高いが、研究するのに必要な情報は十分に揃っている。詳細は下記リンクを見ていただきたいほど豊富な情報を含んでいる。

-JNAS

--評価理由
---読み上げテキストがついており、音素バランス文の読み上げ音声、データの量が豊富な点が魅力

重点領域研究「音声対話」 対話音声コーパス (PASD)

--評価理由
---模擬対話の音声を取得が可能で無料なのが良い。データがどの程度詳細に整っているかは不明

会議音声データベース (RWCP-SP01)

--評価理由
---個別話者、全員の音声と多彩な音声データが取得可能であるが、データの質に不安がある。

-研究用連続音声データベース (ASJ-JIPDEC)

--評価理由
---音素バランス文及び読み上げ音声、模擬対話とバラエティ豊富な音声があるため。

言語モデル用のデータ

コーパス名 値段
CSJ(話言葉コーパス) 4 2.5万〜50万
JNAS( 新聞記事読み上げ音声コーパス) 3 21,600円(税・送料込)
BTSによる多言語話し言葉コーパス 3 不明
京都大学テキストコーパス 3 無料

-CSJ

--評価理由
---音響モデルと同様で値段は高いが、音声と同一の言語モデルが付いているので、学習データには頑健な言語モデルが作成可能。ただしドメインによっては追加の言語データを追加する必要がある。

-JNAS

--評価理由
---付随の読み上げテキストを流用可能だが付随情報が少ない。

-BTSによる多言語話し言葉コーパス

--評価理由
---会話の観点から音声をテキストに直しているため、解析が行いやすい

-京都大学テキストコーパス

--評価理由
---あらかじめ形態素解析および構文・関係の付加情報があるため解析の準備が必要ない

基本的に付随情報が付いているものは音声でも言語情報でも量が少ないのが現状なので、付随情報がなくても学習できるもしくは付随情報を自動で付与する仕組みがないと厳しいですね。
おそらくいくつか論文で出されていると思うので、情報収集をしたいと思います。