mmseg 4 j-solrをSolr 4に統合する.10.4
2462 ワード
1:プロジェクトアドレス:
https://github.com/chenlb/mmseg4j-solr
https://github.com/chenlb/mmseg4j-solr/wiki
2:solrのshcema.xml:
tokenizerのパラメータ: dicPathパラメータ-solr_homeに対する相対パスをサポートするカスタム拡張辞書を設定する. modeパラメータ-分詞モード.
カスタム辞書がない場合はdicPathパラメータは省略できます
3:
単純な分詞はtextSimple(分詞の粒度は正確だが時間がかかる)を使用し、複雑な分詞はtextComplex(分詞の粒度は正確だが時間がかかる)を使用する.
4:
ダウンロード先:http://yun.baidu.com/s/1dD7qMFf#dir/path=%2Fmmseg4j-solr
ダウンロード後、mmseg 4 j-solr-2..0-with-mmseg 4 j-coreを解凍する.zip
mmseg 4 j-core-1.10.0.JArとmmseg 4 j-solr-2.0.2.JArをsolrに置くwar/WEB-INF/libディレクトリ
solrはmmseg 4 j-core-1.10.0を自動的に使用する.JArのdataディレクトリの下の分詞ファイル
mmseg 4 jの辞書:(UTF-8の強制使用):
data/chars.dicは単語と語彙の頻度で、一般的には変更する必要はありません.1.5バージョンではmmseg 4 jのjarに追加されています.私たちはそれに関心を持つ必要はありません.もちろん、辞書ディレクトリにこのファイルを置いて上書きすることができます.
data/units.dicは単語の単位で、デフォルトはjarパッケージの中を読んで、あなたもカスタマイズしてそれを上書きすることができて、この機能は試行して、もしそれが好きでないならば、空のunitsを使うことができます.dicファイル(あなたの辞書ディレクトリの下に置く)はそれを上書きします.
data/words.dicは辞書ファイルで、1行1語で、もちろんあなたも自分のものを使うことができて、1.5バージョンはsogou辞書を使って、1.0のバージョンはrmmsegが持っている辞書を使っています.
data/wordsxxx.dic 1.6版は複数の辞書ファイルをサポートし、dataディレクトリ(または定義したディレクトリ)の下で「words」接頭辞と「.dic」が接尾辞のファイルを読みます.例えば:data/words-my.dic.
utf-8ファイルには、BOMを持たないものと持たないものがあるため、辞書の第1の動作は空行またはBOM形式のutf-8ファイルであることを推奨します.
5:
solrは、データの一部をインデックスした後にIK Analysis分詞をmmseg 4 jに変換することをサポートする
https://github.com/chenlb/mmseg4j-solr
https://github.com/chenlb/mmseg4j-solr/wiki
2:solrのshcema.xml:
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
</analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
</analyzer>
</fieldtype>
<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/custom/path/to/my_dic" />
</analyzer>
</fieldtype>
tokenizerのパラメータ:
カスタム辞書がない場合はdicPathパラメータは省略できます
3:
単純な分詞はtextSimple(分詞の粒度は正確だが時間がかかる)を使用し、複雑な分詞はtextComplex(分詞の粒度は正確だが時間がかかる)を使用する.
4:
ダウンロード先:http://yun.baidu.com/s/1dD7qMFf#dir/path=%2Fmmseg4j-solr
ダウンロード後、mmseg 4 j-solr-2..0-with-mmseg 4 j-coreを解凍する.zip
mmseg 4 j-core-1.10.0.JArとmmseg 4 j-solr-2.0.2.JArをsolrに置くwar/WEB-INF/libディレクトリ
solrはmmseg 4 j-core-1.10.0を自動的に使用する.JArのdataディレクトリの下の分詞ファイル
mmseg 4 jの辞書:(UTF-8の強制使用):
data/chars.dicは単語と語彙の頻度で、一般的には変更する必要はありません.1.5バージョンではmmseg 4 jのjarに追加されています.私たちはそれに関心を持つ必要はありません.もちろん、辞書ディレクトリにこのファイルを置いて上書きすることができます.
data/units.dicは単語の単位で、デフォルトはjarパッケージの中を読んで、あなたもカスタマイズしてそれを上書きすることができて、この機能は試行して、もしそれが好きでないならば、空のunitsを使うことができます.dicファイル(あなたの辞書ディレクトリの下に置く)はそれを上書きします.
data/words.dicは辞書ファイルで、1行1語で、もちろんあなたも自分のものを使うことができて、1.5バージョンはsogou辞書を使って、1.0のバージョンはrmmsegが持っている辞書を使っています.
data/wordsxxx.dic 1.6版は複数の辞書ファイルをサポートし、dataディレクトリ(または定義したディレクトリ)の下で「words」接頭辞と「.dic」が接尾辞のファイルを読みます.例えば:data/words-my.dic.
utf-8ファイルには、BOMを持たないものと持たないものがあるため、辞書の第1の動作は空行またはBOM形式のutf-8ファイルであることを推奨します.
5:
solrは、データの一部をインデックスした後にIK Analysis分詞をmmseg 4 jに変換することをサポートする