aclImdbデータセット構造と小ファイル統合
7520 ワード
aclImdbデータセットには以下の構造がありますaclImdb|-test|--neg|--pos|-train|--neg|--posは訓練セットとテストセットに分けることができます.訓練セットとテストセットの下には2つのファイルがあります.それぞれnegで、posはそれぞれ消極的で、積極的な言論を表しています.この2つのフォルダの下には小さなtxtファイルがたくさんあります.各コメントはtxtファイルです.私はすべてのファイルを1つのtxtファイルに統合します.行で区分され、コードは次のとおりです.
class HandData:
def handData(self,dirname):
all_files = {}
for root, dirs, files in os.walk(dirname, topdown=False):
self.dirs = dirs
all_files["all"] = dirs
for i in range(len(self.dirs)-1):
for _, _, files in os.walk(os.path.join(dirname,self.dirs[i]), topdown=False):
all_files[self.dirs[i]] = files
with open("pos.txt","w",encoding="utf8") as f:
for i in all_files["pos"]:
with open(os.path.join(os.path.join(dirname,"pos"),i),encoding="utf8") as fe :
f.write(fe.read()+"
")
with open("neg.txt","w",encoding="utf8") as f:
for i in all_files["neg"]:
with open(os.path.join(os.path.join(dirname,"neg"),i),encoding="utf8") as fe :
f.write(fe.read()+"
")
fileHander = HandData()
fileHander.handData("aclImdb/train")