2次python-jiebaライブラリ(必須)
5014 ワード
文書ディレクトリ jiebaライブラリ(「結巴」ライブラリ) jiebaライブラリの3つの分詞モード 精確モード:jieba.lcut() 検索エンジンモード:jieba.lcut_for_search() フルモード:jieba.lcut(s, cut_all=True) jieba.add_word()
jiebaライブラリ(「結巴」ライブラリ)重要な第三者中国語分詞関数ライブラリ 中国語テキストの単語はスペースまたは句読点で分割されていないため、中国語および類似の言語には重要な分詞問題がある 中国語辞書を用いて、分割された語と分詞辞書を比較し、図構造と動的計画方法によって最大確率のフレーズ を見つけた.
jiebaライブラリの3つの分詞モード精確モード:テキスト分析に適し、冗長性が低い 全モード:文の中のすべての可能な語はすべて分けて、速度はとても速くて、しかし蜂起の問題を解決することができなくて、冗長度は最高 検索エンジンモード:正確なモードに基づいて、長語を に再分割する.
正確なモード:jieba.lcut()
最もよく使われる中国語の分詞関数
検索エンジンモード:jieba.lcut_for_search()
まず正確なパターンを行い,それから総裁語の切り分けに入る
フルモード:jieba.lcut(s, cut_all=True)
本当によく考えていないで、検索エンジンのモードを採用して、冗長度は中等です
jieba.add_word()
jieba辞書に新しい単語を追加するために使用
jiebaライブラリ(「結巴」ライブラリ)
jiebaライブラリの3つの分詞モード
正確なモード:jieba.lcut()
最もよく使われる中国語の分詞関数
>>> import jieba
>>> jieba.lcut(" ")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
[' ', ' ', ' ', ' ']
検索エンジンモード:jieba.lcut_for_search()
まず正確なパターンを行い,それから総裁語の切り分けに入る
>>> jieba.lcut_for_search(" ")
[' ', ' ', ' ', ' ', ' ', ' ']
フルモード:jieba.lcut(s, cut_all=True)
>>> jieba.lcut(" ", cut_all=True)
[' ', ' ', ' ', ' ', ' ', ' ', ' ']
本当によく考えていないで、検索エンジンのモードを採用して、冗長度は中等です
jieba.add_word()
jieba辞書に新しい単語を追加するために使用
>>> jieba.lcut(" python ")
[' ', ' ', ' ', ' ', 'python ']