WindowsでNEologd辞書を比較的簡単に入れる方法ーユーザー辞書編
はじめに
MeCabの形態素解析用の辞書のNEologd辞書を導入にWSL(Windows Subsystem for Linux)+Ubuntuを使っていたのですが、git for Windowsと7-zipで比較的簡単に導入できました。
2020/2/10追記
これはユーザー辞書編です。
ユーザー辞書でかなりの固有名詞が解析できるようになりますが、
システム辞書については以下のリンクをご覧ください。
https://qiita.com/zincjp/items/e491f1712a701ad91a4f
環境
Windows10 64bit 言語:日本語
MeCab 0.996-32bit
導入するもの
git for Windows 2.20.1 64-bit
7-Zip 18.06 64-bit
導入手順
MeCabにPATHを通す
MeCabの実行ファイルのある以下のフォルダを環境変数を設定しPATHを通す。
C:\Program Files (x86)\MeCab\bin
7-zipのインストールと環境変数への設定
7-zipのインストール
ダウンロードしてきたNEologd辞書はxz形式で圧縮されているので、展開するために7-zipを使います。
以下のサイトより7-zip 64bitをダウンロードしインストール。
https://sevenzip.osdn.jp/
7-zipにPATHを通す
以下を環境変数に設定
C:\Program Files\7-Zip
git for Windowsのインストール
以下のサイトを参考にgit for Windows 64bitをインストールする
https://qiita.com/taiponrock/items/632c117220e57d555099
NEologd辞書のダウンロードとコンパイル
gitより辞書をダウンロード
管理者でコマンドプロンプト立ち上げ以下のコマンドで作業フォルダへ移動
cd %homepath%
続いて以下のコマンドでNEologd辞書をダウンロード
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
NEologd辞書ファイルの確認
コマンドプロンプトより以下コマンドでC:\Users(ユーザー名)\mecab-ipadic-neologd\seedに移動しファイルを確認。
cd mecab-ipadic-neologd\seed
dir
NEologd辞書ファイルの展開
これら.csv.xzファイルを以下のコマンドで7-zipで展開。
7z X *.xz
辞書ファイルのコンパイル
SHIFT-JIS辞書の作成
以下コマンドでSHIFT-JIS辞書(NEologd.日付.dic)を作成し、MeCabの辞書フォルダに移動する。
以下コマンド内NEologd.20190128.dicとmecab-user-dict-seed.20190128.csvの
"20190128"は辞書ファイルについている日付です。
ダウンロードしたものと合わせてください。
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic" -u NEologd.20190128.dic -f utf-8 -t shift-jis mecab-user-dict-seed.20190128.csv
mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"
move NEologd.20190128.dic "C:\Program Files (x86)\MeCab\dic\NEologd"
mecabrcファイルの編集
mecabの辞書はC:\Program Files (x86)\MeCab\etcにあるmecabrcで指定できる。
以下の記述をmecabrcに記載し、NEologd辞書はユーザー辞書として設定します。
dicdir = $(rcpath)..\dic\ipadic
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\Neologd.20190128.dic
UTF-8辞書の作成
PythonではUTF-8の辞書が必要なので以下コマンドでUTF-8辞書(NEologd.日付-u.dic)を作成する。
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8" -u NEologd.20190128-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20190128.csv
mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"
move NEologd.20190128-u.dic "C:\Program Files (x86)\MeCab\dic\NEologd"
mecabrcファイルの編集
UTF-8用のmecabrc-uファイルを作成し、以下の記載でNEologd辞書をユーザー辞書に設定します。
dicdir = $(rcpath)..\dic\ipadic-UTF8
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\NEologd.20190128-u.dic
解析の実行は以下サイトを参考に「欅坂46が赤いきつねを食べている。」等の文章で解析してみてくださいませ。
参考
NEologd辞書のURL
編集履歴
2020/02/11
パス名を表記を変更しました。編集前の表記でも問題ないですが最近のわかりやすさを優先しました。
(編集前)c:\PROGRA~2\MeCab\dic\ipadic
(編集後)"c:\Program Files (x86)\MeCab\dic\ipadic"
Author And Source
この問題について(WindowsでNEologd辞書を比較的簡単に入れる方法ーユーザー辞書編), 我々は、より多くの情報をここで見つけました https://qiita.com/zincjp/items/c61c441426b9482b5a48著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .