aclImdbデータセット構造と小ファイル統合

7520 ワード

aclImdbデータセットには以下の構造がありますaclImdb|-test|--neg|--pos|-train|--neg|--posは訓練セットとテストセットに分けることができます.訓練セットとテストセットの下には2つのファイルがあります.それぞれnegで、posはそれぞれ消極的で、積極的な言論を表しています.この2つのフォルダの下には小さなtxtファイルがたくさんあります.各コメントはtxtファイルです.私はすべてのファイルを1つのtxtファイルに統合します.行で区分され、コードは次のとおりです.
class HandData:
    def handData(self,dirname):
        all_files = {}
        for root, dirs, files in os.walk(dirname, topdown=False):
            self.dirs = dirs
            all_files["all"] = dirs
        for i in range(len(self.dirs)-1):
            for _, _, files in os.walk(os.path.join(dirname,self.dirs[i]), topdown=False):
                all_files[self.dirs[i]] = files

        with open("pos.txt","w",encoding="utf8") as f:
            for i in all_files["pos"]:
                with open(os.path.join(os.path.join(dirname,"pos"),i),encoding="utf8") as fe :
                    f.write(fe.read()+"
"
) with open("neg.txt","w",encoding="utf8") as f: for i in all_files["neg"]: with open(os.path.join(os.path.join(dirname,"neg"),i),encoding="utf8") as fe : f.write(fe.read()+"
"
) fileHander = HandData() fileHander.handData("aclImdb/train")