MeCabの辞書への語彙追加方法【Windows 10, Ubuntu 18.04】


はじめに

本記事では、MeCabの辞書にオリジナルの語彙を追加し、新たなユーザ辞書を作成する方法を記述します。

  • 対象のOSは、Windows 10とUbuntu18.04です
  • 作成したユーザ辞書をPythonで利用する方法も記載しています

参考のように、参考になる記事はたくさんありますが、毎回調べている気がしたので自分の環境用に整理しました。

追加方法

Windows 10

C:\Program Files\MeCab\binへパスが通っている前提

コマンド
> mecab-dict-index -f utf-8 -t utf-8 -d <辞書のディレクトリ>  -u <作成する辞書> <追加する語彙>
---
(実行例) > mecab-dict-index -f utf-8 -t utf-8 -d "C:\Program Files\MeCab\dic\ipadic" -u ipcdic_plus_keyakizaka.dic keyakizaka.csv
reading keyakizaka.csv ... 456
emitting double-array: 100% |###########################################|

done!

ubuntu 18.04

コマンド
$ /usr/lib/mecab/mecab-dict-index -f utf-8 -t utf-8 -d <辞書のディレクトリ> -u <作成する辞書> <追加する語彙>
---
(実行例) $ /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic/ -f utf-8 -t utf-8 -u ipcdic_plus_keyakizaka.dic keyakizaka.csv
reading keyakizaka.csv ... 456
emitting double-array: 100% |###########################################| 

done!

メモ

  • <作成する辞書>は任意のファイル名
  • <辞書のディレクトリ>の探し方
    • windows: たぶんC:\Program Files\MeCab\dic\ipadicにある
    • ubuntu: 紹介しているサイトごとに結構違う?のでfind / -name "dicrc"とかで探すと良い
  • <追加する語彙>の作り方

Pythonで辞書を読み込み

pythonでmecabパッケージをインストールしている状態で以下のように定義すれば、作成した辞書を使うことができます。

pythonスクリプト
import MeCab
mecab = MeCab.Tagger (r"-Ochasen -u ipcdic_plus_keyakizaka.dic") # ここで作成した辞書を読み込む

実行例

参考