形態素解析:韓国語:その1:mecab-koをインストール


韓国語を形態素解析したいけど、
何がいいかなと探していたところ、mecab韓国語版を見つけました。
というのはもう2年前の話なのだが、それはさておいて。

mecab-koとは

mecabを韓国語の形態素解析用に多少コードを改変しているようです。

Bitbucketにて公開されています。
https://bitbucket.org/eunjeon/mecab-ko/src/master/

何をどう改変したのかはコミットログを見て、、、も、私は分かりません
(README読む限りでは、空白文字の扱いが違うっぽい)

インストール

ひとまずMacbook Airにインストールします。
- mecab-ko本体をインストール
- 韓国語用辞書をインストール

mecab-ko本体をインストール

Macであれば、homebrewであっさりインストールできます。
といってもREADMEにソースコンパイルの手順書いてるので、
Linuxへのインストールも苦ではないです。

$ brew install mecab-ko
==> Downloading https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
==> Downloading from https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=Db
######################################################################## 100.0%
==> ./configure --prefix=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2 --sysconfdir=/usr/local/etc
==> make install
🍺  /usr/local/Cellar/mecab-ko/0.996-ko-0.9.2: 21 files, 4.3MB, built in 1 minute 15 seconds

韓国語用の辞書をインストール

mecab-ko-dicという名前で、Bitbucketで配布されています。
https://bitbucket.org/eunjeon/mecab-ko-dic/

インストール手順は2パターン記載があります。
automakeのバージョンが1.11でない場合、
autogen.shを実行する手順であればちゃんとインストールできそう。

$ wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz
$ tar zxfv mecab-ko-dic-2.1.1-20180720.tar.gz 
$ cd mecab-ko-dic-2.1.1-20180720
$ ./autogen.sh
$ ./configure 
$ make
$ make install

これで下記ディレクトリに辞書がインストールされます。

$ ls /usr/local/lib/mecab/dic/mecab-ko-dic/
char.bin    left-id.def model.bin   rewrite.def sys.dic
dicrc       matrix.bin  pos-id.def  right-id.def    unk.dic

mecab-koを使う

mecabコマンドで起動できます。
韓国プロ野球(KBO)のニュースの見出しを形態素解析してみます。

ニュース記事:
https://www.koreabaseball.com/News/Preview/View.aspx?bdSe=38482

記事見出し「승리 목마른 소사, 한화 상대로 9승 도전」

$ mecab
승리 목마른 소사, 한화 상대로 9승 도전
승리  NNG,행위,F,승리,*,*,*,*
목마른   VA+ETM,*,T,목마른,Inflect,VA,ETM,목마르/VA/*+ᆫ/ETM/*
소사  NNG,*,F,소사,*,*,*,*
,   SC,*,*,*,*,*,*,*
한화  NNG,*,F,한화,*,*,*,*
상대  NNG,*,F,상대,*,*,*,*
로 JKB,*,F,로,*,*,*,*
9   SN,*,*,*,*,*,*,*
승 NNBC,*,T,승,*,*,*,*
도전  NNG,*,T,도전,*,*,*,*
EOS

とりあえず形態素解析できましたが、、
なるほどハングル読めないからよく分からん。

(続く)