【Python】コード実装TF-IFアルゴリズム文書を量子化(os.listdir())

11680 ワード

使用するデータはクラシックな20 Newsgroupデータです
データセットリンク:http://qwone.com/~jason/20 Newsgroups/(遅いのでScienceインターネットなど他の方法でダウンロードすることをお勧めします)
完全なコードを直接入力:

# -*- coding: utf-8 -*-
import os 
import math
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

def TF(wordSet,split):
    tf = dict.fromkeys(wordSet, 0)
    for word in split:
        tf[word] += 1
    return tf

def IDF(tfList): 
    idfDict = dict.fromkeys(tfList[0],0) #  key，    0
    N = len(tfList)  #      
    for tf in tfList: #           
        for word, count in tf.items(): #           
            if count > 0 : #                   
                idfDict[word] += 1 #    tj      df+1  
    for word, Ni in idfDict.items(): #     df        idf
        idfDict[word] = math.log10(N/Ni)  #N,Ni    0
    return idfDict   #       IDF  

def TFIDF(tf, idfs): #tf  ,idf     
    tfidf = {}
    for word, tfval in tf.items():
        tfidf[word] = tfval * idfs[word]
    return tfidf
    
if __name__ == "__main__":
    #1     
    text=[] 
    name_all = os.listdir(r'20news-bydate-train/alt.atheism/')
    for i in range(len(name_all)):
        name = "20news-bydate-train/alt.atheism/" + name_all[i]
        f = open(name,"rb")
        str1=f.read()
        text.append(str1)
        f.close()
    #2          
    wordSet = {}
    split_list = []
    for i in range(len(text)):
        split =str(text[i]).split(' ')
        split_list.append(split)
        wordSet = set(wordSet ).union(split)#  set       
    #3              
    tf = []
    for i in range(len(split_list)):
        tf.append(TF(wordSet,split_list[i]))
    #4            
    idfs = IDF(tf)
    #5 tf*idf = tfidf  
    tfidf = []
    for i in range(len(tf)):
        tfidf.append(TFIDF(tf[i], idfs))
    
    print(pd.DataFrame(tfidf))  #    DataFrame

この例では、480件の英語ドキュメントを読み取り、量子化

【Python】代码实现TF-IDF算法将文档向量化（os.listdir()）_第1张图片

に最終的に480*31412次元のDataFrameタイプデータを取得し、後続のPCA降格および関連分類アルゴリズムの実際の必要に応じてndarrayタイプ、マトリクスタイプ(scipy.sparse.csr_matrix)などに変換することができる.
Python os.listdir()メソッド

JAva初心者Scannerで数字と文字列を入力する方法

GEF connectionスタイルを破線に設定