2次python-jiebaライブラリ(必須)

5014 ワード

コンピュータの2級python等級の試験

文書ディレクトリ

jiebaライブラリ(「結巴」ライブラリ)

jiebaライブラリの3つの分詞モード

精確モード:jieba.lcut()

検索エンジンモード:jieba.lcut_for_search()

フルモード:jieba.lcut(s, cut_all=True)

jieba.add_word()

jiebaライブラリ(「結巴」ライブラリ)

重要な第三者中国語分詞関数ライブラリ

中国語テキストの単語はスペースまたは句読点で分割されていないため、中国語および類似の言語には重要な分詞問題がある

中国語辞書を用いて、分割された語と分詞辞書を比較し、図構造と動的計画方法によって最大確率のフレーズ

を見つけた.
jiebaライブラリの3つの分詞モード

精確モード:テキスト分析に適し、冗長性が低い

全モード:文の中のすべての可能な語はすべて分けて、速度はとても速くて、しかし蜂起の問題を解決することができなくて、冗長度は最高

検索エンジンモード:正確なモードに基づいて、長語を

に再分割する.
正確なモード:jieba.lcut()
最もよく使われる中国語の分詞関数

>>> import jieba
>>> jieba.lcut("         ")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['  ', '   ', '  ', '  ']

検索エンジンモード:jieba.lcut_for_search()
まず正確なパターンを行い,それから総裁語の切り分けに入る

>>> jieba.lcut_for_search("         ")
['  ', '  ', '  ', '   ', '  ', '  ']

フルモード:jieba.lcut(s, cut_all=True)

>>> jieba.lcut("         ", cut_all=True)
['  ', '  ', '  ', '   ', '  ', '  ', '  ']

本当によく考えていないで、検索エンジンのモードを採用して、冗長度は中等です
jieba.add_word()
jieba辞書に新しい単語を追加するために使用

>>> jieba.lcut("         python  ")
['  ', '   ', '  ', '  ', 'python  ']

Python基礎学習9--python標準ライブラリ

CentOS 6.9 > X11 connection rejected because of wrong authentication. | Error: Can't open display: localhost:10.0 > サーバー再起動後にX11転送可能