Python jieba分詞

1772 ワード

1.jieba分詞のインストール

pip install jieba    #      ，

2.接頭辞の仕方:jieba.Cut()とjieba.cut_for_search()
2.1 jieba.cut()

     :         。
     : cut_all        。
        ：
           ：           ，      ；
          ：                   ,      ，          ；
     ：HMM            HMM

2.2 jieba.cut_for_search()

      ：         ，       ，     ，          。

以上の2つの方法で単語を切り、返される結果は反復可能なgeneratorオブジェクトであり、遍歴またはリストに変換して処理することができる.jieba.lcutおよびjieba.lcut_for_searchはlistに直接戻ります
3.カスタム辞書の追加:jieba.load_userdict()

            ，     utf-8

             （       ）：
            ：  
            ：  （      ）
            ：   （     ）

4.キーワード抽出:jieba.analyse.extract_tags()
4.1キーワード抽出

 from jieba import anallyse
jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())

   ：sentence，     
   ：topK      TF/IDF         ，    20。
   ：withWeight:            ，    False。
   ：allowPOS:         ，     ，      。
   ：jieba.analyse.TFIDF(idf_path=None)    TFIDF   ，idf_path   IDF     。

4.2キーワード抽出停止語

           （Stop Words）                   。
jieba.analyse.set_stop_words(file_name) #file_name

5.辞書の調整:add_word()、del_word()とsuggest_freq()

     add_word(word, freq=None, tag=None)   del_word(word)            .

     suggest_freq(segment, tune=True)           ，   （   ）    。

    ：           HMM            。

6.並列分詞(マルチプロセス分詞)

   python multipprocessing  ，     windows。
 jieba.enable_parallel(4) #         ，        。
 jieba.disable_parallel()   #         。

注:私のレベルは限られています.もし間違いがあれば、指摘を歓迎します.引用があれば、出典を明記してください!!

2018-10-23 Day18

ネットワーク変更後にインターネットに接続できない…