GoogleColaboratoryでMeCabとmecab-ipadic-NEologdを使う


この記事の内容

GoogleColaboratoryのnotebookで以下を行う
・MeCabをインストールして使う(No module named 'MeCab'への対応)
・mecab-ipadic-NEologd をインストールして使う

MeCabをインストールして使う

MeCabとは
 オープンソースの日本語形態素解析エンジン。
 http://taku910.github.io/mecab/
GoogleColaboratoryでMeCab(テキストの形態素解析をするライブラリ)をインストールして
いざMeCabを使おう(import MeCabしよう)とすると、
ない(No module named 'MeCab')となる。
これは、ライブラリがインストールされた場所が、pythonがライブラリを探しにいく先に含まれていないことから起きている。
この場合は、ライブラリをインストールした場所をsys.pathに追加すればよい。
※これは他のライブラリでno moduleになった場合についてもいえる。

・まずMeCabをインストール
!apt install aptitude
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3==0.7

・インストールしたMeCabの場所を確認
!pip show mecab-python3
⇒ Locationの行に、以下のようにして場所が表示される
  Location: /usr/local/lib/python3.7/dist-packages

・パスを追加
import sys
sys.path.append("/root/.local/lib/python3.7/site-packages")

・MeCabをインポート
import MeCab

・以下のようにしてMeCabを自由に使う
tagger = MeCab.Tagger("-Owakati")
sample = "今日はいい天気ですね"
print(tagger.parse(sample))

mecab-ipadic-NEologd をインストールして使う

mecab-ipadic-NEologd とは
 日本語形態素解析辞書で、MeCab で使える。
 週2回以上更新されていて新語・固有表現に強く、語彙数が多い。
 https://github.com/neologd/mecab-ipadic-neologd
で、MeCabからこれを使う方法。

・mecab-ipadic-neologdをインストール
!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a

・mecab-ipadic-neologdがある場所を確認
!echo mecab-config --dicdir"/mecab-ipadic-neologd"
⇒ 以下のように場所が表示される 
  /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd

・MeCabでmecab-ipadic-neologdをパス指定して読み込み
tagger = MeCab.Tagger('mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd')

以上です。