【Python】コード実装TF-IFアルゴリズム文書を量子化(os.listdir())
使用するデータはクラシックな20 Newsgroupデータです
データセットリンク:http://qwone.com/~jason/20 Newsgroups/(遅いのでScienceインターネットなど他の方法でダウンロードすることをお勧めします)
完全なコードを直接入力:
この例では、480件の英語ドキュメントを読み取り、量子化に最終的に480*31412次元のDataFrameタイプデータを取得し、後続のPCA降格および関連分類アルゴリズムの実際の必要に応じてndarrayタイプ、マトリクスタイプ(scipy.sparse.csr_matrix)などに変換することができる.
Python os.listdir()メソッド
データセットリンク:http://qwone.com/~jason/20 Newsgroups/(遅いのでScienceインターネットなど他の方法でダウンロードすることをお勧めします)
完全なコードを直接入力:
# -*- coding: utf-8 -*-
import os
import math
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
def TF(wordSet,split):
tf = dict.fromkeys(wordSet, 0)
for word in split:
tf[word] += 1
return tf
def IDF(tfList):
idfDict = dict.fromkeys(tfList[0],0) # key, 0
N = len(tfList) #
for tf in tfList: #
for word, count in tf.items(): #
if count > 0 : #
idfDict[word] += 1 # tj df+1
for word, Ni in idfDict.items(): # df idf
idfDict[word] = math.log10(N/Ni) #N,Ni 0
return idfDict # IDF
def TFIDF(tf, idfs): #tf ,idf
tfidf = {}
for word, tfval in tf.items():
tfidf[word] = tfval * idfs[word]
return tfidf
if __name__ == "__main__":
#1
text=[]
name_all = os.listdir(r'20news-bydate-train/alt.atheism/')
for i in range(len(name_all)):
name = "20news-bydate-train/alt.atheism/" + name_all[i]
f = open(name,"rb")
str1=f.read()
text.append(str1)
f.close()
#2
wordSet = {}
split_list = []
for i in range(len(text)):
split =str(text[i]).split(' ')
split_list.append(split)
wordSet = set(wordSet ).union(split)# set
#3
tf = []
for i in range(len(split_list)):
tf.append(TF(wordSet,split_list[i]))
#4
idfs = IDF(tf)
#5 tf*idf = tfidf
tfidf = []
for i in range(len(tf)):
tfidf.append(TFIDF(tf[i], idfs))
print(pd.DataFrame(tfidf)) # DataFrame
この例では、480件の英語ドキュメントを読み取り、量子化に最終的に480*31412次元のDataFrameタイプデータを取得し、後続のPCA降格および関連分類アルゴリズムの実際の必要に応じてndarrayタイプ、マトリクスタイプ(scipy.sparse.csr_matrix)などに変換することができる.
Python os.listdir()メソッド