Python jieba分詞
1772 ワード
1.jieba分詞のインストール
2.接頭辞の仕方:jieba.Cut()とjieba.cut_for_search()
2.1 jieba.cut()
2.2 jieba.cut_for_search()
以上の2つの方法で単語を切り、返される結果は反復可能なgeneratorオブジェクトであり、遍歴またはリストに変換して処理することができる.jieba.lcutおよびjieba.lcut_for_searchはlistに直接戻ります
3.カスタム辞書の追加:jieba.load_userdict()
4.キーワード抽出:jieba.analyse.extract_tags()
4.1キーワード抽出
4.2キーワード抽出停止語
5.辞書の調整:add_word()、del_word()とsuggest_freq()
6.並列分詞(マルチプロセス分詞)
注:私のレベルは限られています.もし間違いがあれば、指摘を歓迎します.引用があれば、出典を明記してください!!
pip install jieba # ,
2.接頭辞の仕方:jieba.Cut()とjieba.cut_for_search()
2.1 jieba.cut()
: 。
: cut_all 。
:
: , ;
: , , ;
:HMM HMM
2.2 jieba.cut_for_search()
: , , , 。
以上の2つの方法で単語を切り、返される結果は反復可能なgeneratorオブジェクトであり、遍歴またはリストに変換して処理することができる.jieba.lcutおよびjieba.lcut_for_searchはlistに直接戻ります
3.カスタム辞書の追加:jieba.load_userdict()
, utf-8
( ):
:
: ( )
: ( )
4.キーワード抽出:jieba.analyse.extract_tags()
4.1キーワード抽出
from jieba import anallyse
jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())
:sentence,
:topK TF/IDF , 20。
:withWeight: , False。
:allowPOS: , , 。
:jieba.analyse.TFIDF(idf_path=None) TFIDF ,idf_path IDF 。
4.2キーワード抽出停止語
(Stop Words) 。
jieba.analyse.set_stop_words(file_name) #file_name
5.辞書の調整:add_word()、del_word()とsuggest_freq()
add_word(word, freq=None, tag=None) del_word(word) .
suggest_freq(segment, tune=True) , ( ) 。
: HMM 。
6.並列分詞(マルチプロセス分詞)
python multipprocessing , windows。
jieba.enable_parallel(4) # , 。
jieba.disable_parallel() # 。
注:私のレベルは限られています.もし間違いがあれば、指摘を歓迎します.引用があれば、出典を明記してください!!