pythonの自然言語処理ツールnltk

732 ワード

nltkナチュラル言語処理ツールパッケージを使用すると、単語の頻度の統計を簡単に実現できます.以下のコードは、すべての単語の中で最も多くの出現回数を出力する最初の100単語を実現します.

__author__ = '20130907'
#coding:utf-8
import nltk
filename = r"C:\Users\20130907\Desktop\freqword\suuplysplit.txt"
f = open(filename,'r')
ofile = r"C:\Users\20130907\Desktop\freqword\freqword.txt"
of = open(ofile,'w')
words = []
line = f.readline()
while(line):
    words += line.split()
    line = f.readline()
#print words
#for w in words:
#    of.write(w)
of.write('
')
freq_dist = nltk.FreqDist(words)
#print freq_dist.keys()[:2]
f.close()
of.write('FreqWord
')
for x in freq_dist.keys()[:100]:
    of.write(x)
    of.write(' ')
of.close()

SQL Server 2008マスターデータベース破損解決の概要

既存のテーブルにコンストレイントを追加(練習1)