Elasticsearch(4)hanlp中国語分詞プラグインのインストール

1488 ワード

分詞とテンプレートベースのインテリジェントカスタマーサービスシステムを作るためにhanlp分詞器を導入し、直接整:hanlp分詞は中国語分詞に対して開発された分詞庫である.
Elasticsearch統合hanlpはhanlpを直接ダウンロードすることはできません.elasticsearch-hanlpプラグインを統合する必要があります.
githubではes-hanlpのプラグインが多く、多くはピットです.
ダウンロード https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin#elasticsearch-hanlp
ソースをダウンロード:自分のESバージョンとhanlpバージョンに基づいて変更し、パッケージをコンパイルします.自分の必要に応じて分詞器をコード修正することができます.
elasticsearch-hanlp
現在サポートされている分詞のタイプ:
  • hanlp/hanlp-standard:標準分詞
  • hanlp-index:インデックス分詞
  • コンパイル、インストール、テスト
    ファイルパスは自分のインストールパスで設定されています
  • コンパイル、パッケージングプラグイン
  • gradle -p es-plugin jar buildPluginZip
    
  • コマンドを使用してプラグイン
  • をインストールする.
    ES_HOME/bin/elasticsearch-plugin install file:///home/hldev/hldata/data/hanlp-ext/es-plugin/build/distributions/elasticsearch-hanlp-5.4.3.zip
    
  • 修正  ES_HOME/config  目次の  jvm.options  ファイル1行追加(hanlp.propertiesプロファイルの読み取りに必要)
  • -Djava.security.policy=file:///  ES  /plugins/elasticsearch-hanlp/plugin-security.policy
    
  • 最後にES/bin/elasticsearch.in.shファイルを修正してES_CLASSSPATHを
  • に変更
    ES_CLASSPATH="$ES_HOME/lib/elasticsearch-5.4.3.jar:$ES_HOME/lib/*:$ES_HOME/plugins/elasticsearch-hanlp/"
    

    最後にelasticsearchを実行すればよい
    テスト方法:
    分詞効果をテストするには、次の2つの方法を使用します.
    GET /_analyze?pretty
    {
      "analyzer" : "hanlp",
      "text" : ["             "]
    }