python「結巴」分詞(jieba)

371 ワード

#-*- coding: UTF-8 -*- 
import jieba

str = jieba.cut("               ,          ",cut_all=False)

s=list(str)
print s      #  [u'\u5c0f', u'\u660e'...]
for i in range(len(s)):
	print s[i].encode("utf-8")   #          [u'\u5c0f', u'\u660e'...]

cut_allはTrue(フルモード)でもFalse(デフォルトモード/精密モード)でも構いません