WindowsでNEologd辞書を比較的簡単に入れる方法ーユーザー辞書編


はじめに

MeCabの形態素解析用の辞書のNEologd辞書を導入にWSL(Windows Subsystem for Linux)+Ubuntuを使っていたのですが、git for Windowsと7-zipで比較的簡単に導入できました。

2020/2/10追記
これはユーザー辞書編です。
ユーザー辞書でかなりの固有名詞が解析できるようになりますが、
システム辞書については以下のリンクをご覧ください。
https://qiita.com/zincjp/items/e491f1712a701ad91a4f

環境

Windows10 64bit 言語:日本語
MeCab 0.996-32bit

導入するもの

git for Windows 2.20.1 64-bit
7-Zip 18.06 64-bit

導入手順

MeCabにPATHを通す

MeCabの実行ファイルのある以下のフォルダを環境変数を設定しPATHを通す。
C:\Program Files (x86)\MeCab\bin

7-zipのインストールと環境変数への設定

7-zipのインストール

ダウンロードしてきたNEologd辞書はxz形式で圧縮されているので、展開するために7-zipを使います。
以下のサイトより7-zip 64bitをダウンロードしインストール。
https://sevenzip.osdn.jp/

7-zipにPATHを通す

以下を環境変数に設定
C:\Program Files\7-Zip

git for Windowsのインストール

以下のサイトを参考にgit for Windows 64bitをインストールする
https://qiita.com/taiponrock/items/632c117220e57d555099

NEologd辞書のダウンロードとコンパイル

gitより辞書をダウンロード

管理者でコマンドプロンプト立ち上げ以下のコマンドで作業フォルダへ移動

cd %homepath%

続いて以下のコマンドでNEologd辞書をダウンロード

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

NEologd辞書ファイルの確認

コマンドプロンプトより以下コマンドでC:\Users(ユーザー名)\mecab-ipadic-neologd\seedに移動しファイルを確認。

cd mecab-ipadic-neologd\seed
dir

NEologd辞書ファイルの展開

これら.csv.xzファイルを以下のコマンドで7-zipで展開。

7z X *.xz

辞書ファイルのコンパイル

SHIFT-JIS辞書の作成

以下コマンドでSHIFT-JIS辞書(NEologd.日付.dic)を作成し、MeCabの辞書フォルダに移動する。
以下コマンド内NEologd.20190128.dicとmecab-user-dict-seed.20190128.csvの
"20190128"は辞書ファイルについている日付です。
ダウンロードしたものと合わせてください。

mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic" -u NEologd.20190128.dic -f utf-8 -t shift-jis mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrcファイルの編集

mecabの辞書はC:\Program Files (x86)\MeCab\etcにあるmecabrcで指定できる。
以下の記述をmecabrcに記載し、NEologd辞書はユーザー辞書として設定します。
dicdir = $(rcpath)..\dic\ipadic
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\Neologd.20190128.dic

UTF-8辞書の作成

PythonではUTF-8の辞書が必要なので以下コマンドでUTF-8辞書(NEologd.日付-u.dic)を作成する。

mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8" -u NEologd.20190128-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128-u.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrcファイルの編集

UTF-8用のmecabrc-uファイルを作成し、以下の記載でNEologd辞書をユーザー辞書に設定します。
dicdir = $(rcpath)..\dic\ipadic-UTF8
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\NEologd.20190128-u.dic

解析の実行は以下サイトを参考に「欅坂46が赤いきつねを食べている。」等の文章で解析してみてくださいませ。

参考

NEologd辞書のURL

編集履歴

2020/02/11
パス名を表記を変更しました。編集前の表記でも問題ないですが最近のわかりやすさを優先しました。
(編集前)c:\PROGRA~2\MeCab\dic\ipadic
(編集後)"c:\Program Files (x86)\MeCab\dic\ipadic"