文章を特徴量ベクトルに変換する日本語の学習済みモデルまとめ

3706 ワード

自然言語処理機械学習日本語自然言語処理テキストリンク

概要

input:日本語の文章、output:実数で回帰したい。
そのためにまず、文章を特徴量ベクトルに変換したい。
アンサンブル学習で性能を高めるために、異なるモデル、異なるデータセットで学習した、学習済みモデルがたくさん欲しい
学習済みモデルを探した。

文章

Universal Sentence Encoder (multilingual)

BERT (multilingual)

nnlm

doc2vec

単語

Word2Vec

Wikipediaで学習

FastText

Wikipedia + Common Crawl (mecab)

Wikipedia (mecab NEologd)

Byte-Pair Encoding

Wikipedia

Wikipedia2Vec

Wikipedia

その他文章特徴量

品詞、ひらがな、カタカナ、英数字の回数または割合

エントロピー

単語長

文章難易度

帯はrubyのファイルがダウンロードできなくなっていた。

ネガポジ

kaggleで見つけたテクニック

kaggle: Toxic Comment Classification Challenge まとめ

やはり、埋め込みベクトルのアンサンブルが重要らしい。

あと、翻訳によるdata augmentation。

参考リンク

Author And Source

この問題について(文章を特徴量ベクトルに変換する日本語の学習済みモデルまとめ), 我々は、より多くの情報をここで見つけました https://qiita.com/engineer/items/4b65862df31631907929

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

LeetCodeの有効な括弧C++版

Acfun自動チェックインプログラム