CelebAデータセットを訓練セット、検証セット、テストセットに分割
2369 ワード
合計データは202599枚の画像で、ここでは訓練セット162770(割合0.8)、検証セット19867(割合0.098)、テストセット19962(割合0.096)に分かれている.
ここでは、接続を確立する方法を採用します.
この接続を確立したファイルは、実際のファイルとして読み込むこともできます:train_dirは上のファイルで、接続記号が含まれていますが、PILのImage関数で画像として読み取ることができます.
ここでは、接続を確立する方法を採用します.
rel_link = os.path.relpath(in_file, out_dir) # out_file in_file
os.symlink(rel_link, link_file) # link_file rel_link ,
# check, if file exists, make link
def check_link(in_dir, basename, out_dir):
in_file = os.path.join(in_dir, basename)
if os.path.exists(in_file):
link_file = os.path.join(out_dir, basename)
rel_link = os.path.relpath(in_file, out_dir) # from out_dir to in_file
os.symlink(rel_link, link_file)
def add_splits(data_path):
images_path = os.path.join(data_path, 'Img/img_align_celeba')
train_dir = os.path.join(data_path, 'splits', 'train')
valid_dir = os.path.join(data_path, 'splits', 'valid')
test_dir = os.path.join(data_path, 'splits', 'test')
if not os.path.exists(train_dir):
os.makedirs(train_dir)
if not os.path.exists(valid_dir):
os.makedirs(valid_dir)
if not os.path.exists(test_dir):
os.makedirs(test_dir)
# these constants based on the standard CelebA splits
NUM_EXAMPLES = 202599
TRAIN_STOP = 162770
VALID_STOP = 182637
for i in range(0, TRAIN_STOP):
basename = "{:06d}.jpg".format(i+1)
check_link(images_path, basename, train_dir)
for i in range(TRAIN_STOP, VALID_STOP):
basename = "{:06d}.jpg".format(i+1)
check_link(images_path, basename, valid_dir)
for i in range(VALID_STOP, NUM_EXAMPLES):
basename = "{:06d}.jpg".format(i+1)
check_link(images_path, basename, test_dir)
if __name__ == '__main__':
base_path = '../DATA/CelebA'
add_splits(base_path)
この接続を確立したファイルは、実際のファイルとして読み込むこともできます:train_dirは上のファイルで、接続記号が含まれていますが、PILのImage関数で画像として読み取ることができます.
for ext in ["jpg", "png"]:
paths = glob("{}/*.{}".format(train_dir, ext)) # is a list
if ext == "jpg":
tf_decode = tf.image.decode_jpeg
elif ext == "png":
tf_decode = tf.image.decode_png
if len(paths) != 0:
break
with Image.open(paths[0]) as img: # all images at the same size 178 x 218
w, h = img.size
shape = [h, w, 3]