Python jieba分詞

1772 ワード

1.jieba分詞のインストール
pip install jieba    #      ,         

2.接頭辞の仕方:jieba.Cut()とjieba.cut_for_search()
2.1 jieba.cut()
     :         。
     : cut_all        。
        :
           :           ,      ;
          :                   ,      ,          ;
     :HMM            HMM   

2.2 jieba.cut_for_search()
      :         ,       ,     ,          。

以上の2つの方法で単語を切り、返される結果は反復可能なgeneratorオブジェクトであり、遍歴またはリストに変換して処理することができる.jieba.lcutおよびjieba.lcut_for_searchはlistに直接戻ります
3.カスタム辞書の追加:jieba.load_userdict()
            ,     utf-8

             (       ):
            :  
            :  (      )
            :   (     )

4.キーワード抽出:jieba.analyse.extract_tags()
4.1キーワード抽出
 from jieba import anallyse
jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())

   :sentence,     
   :topK      TF/IDF         ,    20。
   :withWeight:            ,    False。
   :allowPOS:         ,     ,      。
   :jieba.analyse.TFIDF(idf_path=None)    TFIDF   ,idf_path   IDF     。

4.2キーワード抽出停止語
           (Stop Words)                   。
jieba.analyse.set_stop_words(file_name) #file_name          

5.辞書の調整:add_word()、del_word()とsuggest_freq()
     add_word(word, freq=None, tag=None)   del_word(word)            .

     suggest_freq(segment, tune=True)           ,   (   )    。

    :           HMM            。

6.並列分詞(マルチプロセス分詞)
   python multipprocessing  ,     windows。
 jieba.enable_parallel(4) #         ,        。
 jieba.disable_parallel()   #         。

注:私のレベルは限られています.もし間違いがあれば、指摘を歓迎します.引用があれば、出典を明記してください!!