第二章:IKに基づく知能分詞、細粒度分詞、同義語、停用語

2079 ワード

1.IKAnalyzer 2012 FFをダウンロードするu1_完全版、http://download.csdn.net/detail/insist211314/9263965
2.solr.にファイルを入れるwarのWEB-INF/lib下
3.IKAnalyzer.cfg.xml、ext.dic、stopword.dicはWEB-INF/classesディレクトリの下に置いて、注意:classesディレクトリはなくて、手動で作成する必要があります
4.同義語と無効語の構成

  
  
	IK Analyzer     
	 
	ext.dic; 
	
	stopword.dic; 
	

5.schemaを構成する.xml
  
     
         
         
     
     
              
         
         
     

注意:isMaxWordLengthはtrue表現でインテリジェント分詞を行い、逆に細粒度分詞である
6.テスト、キーワード検索「ノート1台」
ext.dicファイル内容
  
   

stopword.dicファイル内容
 

synonyms.txtファイル内容
    =>            

7.solr adminを使用してテストを行い、キーワード「1台のノート」を検索する
第二章:基于IK的智能分词、细粒度分词、同义词、停用词_第1张图片
IKT:IKのTokenizerを用いた解析の結果
ST:StandardTokenizer解析を用いた結果
LCF:LowercaseFilterを使用した解析の結果
参考資料:
http://blog.csdn.net/clj198606061111/article/details/21289897
http://onlyonetoone.iteye.com/blog/2155740