特許文章版 分散表現:word2vecの学習済モデル


分散表現公開

分散表現N番煎じですが特許版のword2vecの学習済モデルを公開します。
通常のword2vecのモデルよりも特許の分散表現生成については有効(なはず)!

特許版word2vec学習モデル(.model)91.4MB注意
特許版word2vec学習モデル(.model.wv.vectors.npy)1500MB注意
特許版word2vec学習モデル(.model.trainables.syn1neg.npy)1500MB注意

  • 2013~2015年に日本国特許庁で発行された全公開公報(150万件ほど)の全文を用いて学習
  • 次元数は300次元

です。
使い方は他の公開モデルと大体同じ↓
上記3つのファイルを同じフォルダに入れて、
/path/to/model/patent_w2v_d300_20191125.modelを適宜ファイルの場所に置き換えてもらい、
使ってください。

from gensim.models.word2vec import Word2Vec
model_path = '/path/to/model/patent_w2v_d300_20191125.model'
model = Word2Vec.load(model_path)

読み込みできれば、分散表現を作るなり、

word=""
results = model.wv.most_similar(positive=[word])
for r in results:
    print(r)

などで類似語を抽出するなり。

追加:colaboratoryで試せるようにしました。

スマホから実行できるのでお気に入り。

ちなみに特許文章でking+woman-manを実行すると「school」でした。どゆこと?

positive = "king,woman" #@param {type:"string"}
negative = "man" #@param {type:"string"}
model.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)
[('school', 0.5598236918449402),
 ('fields', 0.559217095375061),
 ('encrypted', 0.5571601986885071),
 ('employee', 0.5557701587677002),
 ('CropMark', 0.5551367998123169)]

今後

  • 普通のword2vecモデルとの性能比較は別途行う予定です。
  • モデルの精度向上予定です。
  • 英語についても・・・

バージョンアップしました!