文章を特徴量ベクトルに変換する日本語の学習済みモデルまとめ
概要
- input:日本語の文章、output:実数で回帰したい。
- そのためにまず、文章を特徴量ベクトルに変換したい。
- アンサンブル学習で性能を高めるために、異なるモデル、異なるデータセットで学習した、学習済みモデルがたくさん欲しい
- 学習済みモデルを探した。
文章
Universal Sentence Encoder (multilingual)
BERT (multilingual)
nnlm
doc2vec
単語
Word2Vec
Wikipediaで学習
FastText
Wikipedia + Common Crawl (mecab)
Wikipedia (mecab NEologd)
Byte-Pair Encoding
Wikipedia
Wikipedia2Vec
Wikipedia
その他文章特徴量
品詞、ひらがな、カタカナ、英数字の回数または割合
エントロピー
単語長
文章難易度
帯はrubyのファイルがダウンロードできなくなっていた。
ネガポジ
kaggleで見つけたテクニック
kaggle: Toxic Comment Classification Challenge まとめ
やはり、埋め込みベクトルのアンサンブルが重要らしい。
あと、翻訳によるdata augmentation。
参考リンク
Author And Source
この問題について(文章を特徴量ベクトルに変換する日本語の学習済みモデルまとめ), 我々は、より多くの情報をここで見つけました https://qiita.com/engineer/items/4b65862df31631907929著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .