自然言語/音声認識学習用データのまとめ


自然言語処理、また音声認識を学習するためのデータは各種の研究機関などから提供されています。
ここでは、それらのデータのありかをまとめておきます。他にもあるぞ、という情報がありましたらぜひお寄せください。

高度言語情報融合フォーラム(有料)

多様な言語資源、音声資源、ソフトウェアツールを提供してくれている団体です。ただし、ダウンロードには会員登録が必要です(入会金10万円だが、年会費などはなし)。

データセットはこちらから参照できます。研究機関限定ですが、楽天のデータなどもあります。

ALAGIN 言語資源・音声資源サイト 資源

それと、毎年開催されている音声認識・音声対話技術講習会に優先枠で申し込むことができます。この講習会は音声対話を行おうとしている人なら一回入っておくといい講習会なので、こちらもおすすめです。

コーパス開発センター(有料)

その名が正に体を表すサイト。書き言葉、話し言葉など豊富なコーパスを提供してくれています。データを取得するには申請+支払が必要ですが、書き言葉のオンライン検索は無料で試すことができます。

少納言 KOTONOHA 「現代日本語書き言葉均衡コーパス」

音声資源コンソーシアム

多くの音声資源が無償で提供されています。マルチモーダル情報つき、音声の感情評定といったデータも無償で手に入れることができます。

IEMOCAP DATABASE

動画だけでなく、モーションキャプチャー情報などのマルチモーダル情報に対し感情のアノテーションが行われたデータを提供しています。
研究論文、およびデータを取得するための申し込みは以下から行えます。

IEMOCAP RELEASE

NII 情報学研究データリポジトリ(研究者限定)

研究者向けに提供されている様々なデータがまとめられています。最近提供されたデータセットも公開されているので、ここを最初に見るのが一番良いかも。

言語情報処理ポータル

JAISTがまとめている自然言語処理に関する情報ポータル。この中の、下記ページに日本の言語資源・ツールについてまとめられています。

日本の言語資源・ツールのカタログ

有用なのは、言語資源に付随してそのユースケース(その言語資源を利用した論文)が分かるようになっている点。こちらを参照すれば、利用してどんなことができるのか、どう利用すればよいのか知見が得られるようになっています。

オープンデータ

自然言語/音声認識のデータではないですが、オープンデータについてもまとめておきます。観光案内などの需要が増えれば、ここにも自然言語資源や音声資源が登録されてくる・・・と思います。