retrofitting論文まとめ


はじめに:

  • 本記事では、NLPにおける単語埋め込みのファインチューニング手法の一つであるretrofitting[1]についてまとめる
  • 本論文を読む動機としては、Fasttextなどによる既存の単語埋め込み手法へのファインチューニングを行いたかったからである
  • 関連語対のデータを持っていたため、これを用いて単語埋め込みを改善できる手法を探していた

abstract:

  • [1]からの引用

Vector space word representations are learned from distributional information of words in large corpora. Although such statistics are semantically informative, they disregard the valuable information that is contained in semantic lexicons such as WordNet, FrameNet, and the Paraphrase Database. This paper proposes a method for refining vector space representations using relational information from semantic lexicons by encouraging linked words to have similar vector representations, and it makes no assumptions about how the input vectors were constructed. Evaluated on a battery of standard lexical semantic evaluation tasks in several languages, we obtain substantial improvements starting with a variety of word vector models. Our refinement method outperforms prior techniques for incorporating semantic lexicons into word vector training algorithms.

どんなもの?

  • ベクトル空間による単語の分散表現は有益ではあるが、WordNet, FrameNet, Paraphrase Databaseなどの意味辞書に含まれる情報を活用できてはいない
  • 実際に、Word2Vecなどは分布仮説に基づいてベクトル空間を決定するため、対義語や多義語に疎く、対義語であるのに同じような分散表現になってしまう
  • そこで、意味辞書からの関係情報を用いてベクトル空間を改良する方法を提案する
    • リンクした単語が類似したベクトル表現を持つように促す

先行研究と比べてどこがすごい?

  • 入力ベクトルの構築方法について指定はなく、post-processing stepとして本手法である”retrofitting”を適用することができる
    • すなわち、事前学習に用いるモデルは任意のもので構わない
  • WordNetなどの語彙資源を利用してより質の高いベクトル空間を得られるグラフベースの学習手法である
  • 処理速度は高速で、10万語(ベクトル長300)のグラフに対して約5秒で処理が完了する

技術や手法の肝はどこ?

  • 言語モデルによって得られた後の分散表現に対して語彙資源を活用してベクトルの補正を行うところ
    • 後処理的に補正を行うことができるため、本手法を試すことが容易になっている

どうやって有効だと検証した?

  • 使用する語彙資源:lexicons(意味辞書)として、PPDB、WordNet、FrameNetを用いている
  • 以下の評価セットに対してスピアマンの順位相関係数を測定している
    • WS-353[2]
    • RG-65[3]
    • MENデータセット[4]
  • さらに、以下の評価セットに対してAccuracyを測定している
    • 構文関係(Syntatic Relation: SYN-REL)の評価にMikolovらによるデータセット[5]
    • 関連語選択(Synonim Selection: TOEFL)の評価にTOEFLの問題[6]
    • センチメント分析(Sentiment Analysis: SA)の評価にSocherらによるデータセット[7]
  • 複数の言語で評価した結果、ベクトル空間の改善を確認することができた
    • 本論文では日本語における評価は行われていないが、田口らによる関連研究[8]で効果が確認されている

議論はある?

  • ベクトル長が大きい場合には、retrofittingによってより多くの意味的情報を補足できる可能性があると予測しており、実際にベクトル長の表現力に追随してretrofitting後も意味的情報を捕捉できている
  • 以下は、[1]より引用
image1.png
  • retrofitting後の類似性のあるペアのベクトルは同じ方向を向くように整列される
  • 以下は、[1]より引用

次に読むべき論文は?

  • 日本語におけるretrofittingの検証を行っている[8]の論文

参考文献

[1] Faruqui, M., Dodge, J., Jauhar, S. K., Dyer, C., Hovy, E. and Smith, N. A.: Retrofitting Word Vectors to Semantic Lexicons, Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, pp. 1606–1615 (2015).

[2] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. 2001. Placing search in context: the concept revisited. In WWW, New York, NY, USA

[3] Iryna Gurevych. 2005. Using the structure of a conceptual network in computing semantic relatedness. In Proceedings of IJCNLP.

[4] Elia Bruni, Gemma Boleda, Marco Baroni, and NamKhanh Tran. 2012. Distributional semantics in technicolor. In Proceedings of ACL.

[5] Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. 2013b. Linguistic regularities in continuous space word representations. In Proceedings of NAACL.

[6] Thomas K Landauer and Susan T. Dumais. 1997. A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological review.

[7] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of EMNLP.

[8] 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸: 同義語を考慮した日本語の単語分散表現の学習, 情報処理学会研究報告, Vol.2017-NL-233 No.17, 2017.