特許文章版 分散表現:word2vecの学習済モデル
分散表現公開
分散表現N番煎じですが特許版のword2vecの学習済モデルを公開します。
通常のword2vecのモデルよりも特許の分散表現生成については有効(なはず)!
特許版word2vec学習モデル(.model)91.4MB注意
特許版word2vec学習モデル(.model.wv.vectors.npy)1500MB注意
特許版word2vec学習モデル(.model.trainables.syn1neg.npy)1500MB注意
- 2013~2015年に日本国特許庁で発行された全公開公報(150万件ほど)の全文を用いて学習
- 次元数は300次元
です。
使い方は他の公開モデルと大体同じ↓
上記3つのファイルを同じフォルダに入れて、
/path/to/model/patent_w2v_d300_20191125.modelを適宜ファイルの場所に置き換えてもらい、
使ってください。
from gensim.models.word2vec import Word2Vec
model_path = '/path/to/model/patent_w2v_d300_20191125.model'
model = Word2Vec.load(model_path)
読み込みできれば、分散表現を作るなり、
word=""
results = model.wv.most_similar(positive=[word])
for r in results:
print(r)
などで類似語を抽出するなり。
追加:colaboratoryで試せるようにしました。
スマホから実行できるのでお気に入り。
ちなみに特許文章でking+woman-manを実行すると「school」でした。どゆこと?
positive = "king,woman" #@param {type:"string"}
negative = "man" #@param {type:"string"}
model.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)
[('school', 0.5598236918449402),
('fields', 0.559217095375061),
('encrypted', 0.5571601986885071),
('employee', 0.5557701587677002),
('CropMark', 0.5551367998123169)]
今後
- 普通のword2vecモデルとの性能比較は別途行う予定です。
- モデルの精度向上予定です。
- 英語についても・・・
Author And Source
この問題について(特許文章版 分散表現:word2vecの学習済モデル), 我々は、より多くの情報をここで見つけました https://qiita.com/niship2/items/3b2592fd32bf557909c9著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .