文章を特徴量ベクトルに変換する日本語の学習済みモデルまとめ


概要

  1. input:日本語の文章、output:実数で回帰したい。
  2. そのためにまず、文章を特徴量ベクトルに変換したい。
  3. アンサンブル学習で性能を高めるために、異なるモデル、異なるデータセットで学習した、学習済みモデルがたくさん欲しい
  4. 学習済みモデルを探した。

文章

Universal Sentence Encoder (multilingual)

BERT (multilingual)

nnlm

doc2vec

単語

Word2Vec

Wikipediaで学習

FastText

Wikipedia + Common Crawl (mecab)

Wikipedia (mecab NEologd)

Byte-Pair Encoding

Wikipedia

Wikipedia2Vec

Wikipedia

その他文章特徴量

品詞、ひらがな、カタカナ、英数字の回数または割合

エントロピー

単語長

文章難易度

帯はrubyのファイルがダウンロードできなくなっていた。

ネガポジ

kaggleで見つけたテクニック

kaggle: Toxic Comment Classification Challenge まとめ

やはり、埋め込みベクトルのアンサンブルが重要らしい。

あと、翻訳によるdata augmentation。

参考リンク