2次python-jiebaライブラリ(必須)


文書ディレクトリ
  • jiebaライブラリ(「結巴」ライブラリ)
  • jiebaライブラリの3つの分詞モード
  • 精確モード:jieba.lcut()
  • 検索エンジンモード:jieba.lcut_for_search()
  • フルモード:jieba.lcut(s, cut_all=True)
  • jieba.add_word()


  • jiebaライブラリ(「結巴」ライブラリ)
  • 重要な第三者中国語分詞関数ライブラリ
  • 中国語テキストの単語はスペースまたは句読点で分割されていないため、中国語および類似の言語には重要な分詞問題がある
  • 中国語辞書を用いて、分割された語と分詞辞書を比較し、図構造と動的計画方法によって最大確率のフレーズ
  • を見つけた.
    jiebaライブラリの3つの分詞モード
  • 精確モード:テキスト分析に適し、冗長性が低い
  • 全モード:文の中のすべての可能な語はすべて分けて、速度はとても速くて、しかし蜂起の問題を解決することができなくて、冗長度は最高
  • 検索エンジンモード:正確なモードに基づいて、長語を
  • に再分割する.
    正確なモード:jieba.lcut()
    最もよく使われる中国語の分詞関数
    >>> import jieba
    >>> jieba.lcut("         ")
    Building prefix dict from the default dictionary ...
    Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
    Loading model cost 1.007 seconds.
    Prefix dict has been built successfully.
    ['  ', '   ', '  ', '  ']
    

    検索エンジンモード:jieba.lcut_for_search()
    まず正確なパターンを行い,それから総裁語の切り分けに入る
    >>> jieba.lcut_for_search("         ")
    ['  ', '  ', '  ', '   ', '  ', '  ']
    

    フルモード:jieba.lcut(s, cut_all=True)
    >>> jieba.lcut("         ", cut_all=True)
    ['  ', '  ', '  ', '   ', '  ', '  ', '  ']
    

    本当によく考えていないで、検索エンジンのモードを採用して、冗長度は中等です
    jieba.add_word()
    jieba辞書に新しい単語を追加するために使用
    >>> jieba.lcut("         python  ")
    ['  ', '   ', '  ', '  ', 'python  ']