solr(二)分詞

1840 ワード

solr環境を構成すると(solr環境構築を参照)、solr中国語の分詞を追加できます.その手順は次のとおりです.
             1)IK中国語分詞のダウンロード
                  http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
 
              2)解凍したstopword.dic,IKAnalylyzer.cfg.xml,IKAnalylyzer 2012 FF_u 1.jarはtomcat webappに関連するsolrインスタンスのlibフォルダの下(WEB-INFのlib)に追加します.
 
              3)${catalina_home}solr_を修正configsolrcollection 1confschema.xmlファイル、ラベルに分詞器を追加します.
<fieldType name="text_ik" class="solr.TextField">
  <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
  <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

 
             4)追加が完了したら、この分詞器を用いたフィールドを設定するには、nameフィールドとして暫定的に設定しましょう.やはりこのxmlの一番上に修正して、以前のtext_Generalをtext_に変更ik.
 
<!-- <field name="name" type="text_general" indexed="true" stored="true"/>-->
<field name="name" type="text_ik" indexed="true" stored="true"/>

 
  5)tomcatを再起動し、solrを開き、collection 1を選択し、Analysisをクリックし、右のページに下図のように設定し、関連する分詞情報を表示します.
 
 
    solr(二)分词_第1张图片