tenssorflow入門:TFRecordDatasetが長くなるデータのbatch読み取り詳細


前の記事tenssorflow入門:tfrecordとtf.data.TFRecordDatasetの使用では、tf.data.TFRecordDataseを使ってtfrecordファイルをbatchで読み込み、datasetのbatchを使って行う方法を紹介しました。しかし、各データの長さが異なる場合(音声、ビデオ、NLPなどの分野によく見られる)、直接にbatch方法でデータを取得できない場合、2つの解決方法があります。
1.データをtfrecordに書き込む時、まずデータpadを統一の長さにしてからtfrecordに書き込む。この方法の問題は、大量のデータの長さが最大の長さよりもはるかに小さいと、格納空間の無駄が大量に発生することである。
2.datasetの中のpadded_を使用するbatchメソッドで行います。パラメータpadded(u)shapes((zhi)は、レコードごとに各メンバーがpadになる形を指定し、メンバーがscalarであれば[]を使い、リストであれば[mx_]を使う。lengthは、arrayであれば、[d 1,…,dn]を使用し、各メンバーの順序がscalarデータ、listデータ、arrayデータであれば、padded(u)を使用する。sharpes=([],[mx_]length、[d 1,…,dn])この方法の関数は以下のように説明されている。

padded_batch(
 batch_size,
 padded_shapes,
 padding_values=None #             ,          
)
mnistデータを用いて例示すると、まずmnistをtfrecordに書き込む前に、mnistデータを変更して、各mnist画像のサイズが異なるようにする。

import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
 
mnist = read_data_sets("MNIST_data/", one_hot=True)
 
 
def get_tfrecords_example(feature, label):
 tfrecords_features = {}
 feat_shape = feature.shape
 tfrecords_features['feature'] = tf.train.Feature(float_list=tf.train.FloatList(value=feature))
 tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape)))
 tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label))
 return tf.train.Example(features=tf.train.Features(feature=tfrecords_features))
 
 
def make_tfrecord(data, outf_nm='mnist-train'):
 feats, labels = data
 outf_nm += '.tfrecord'
 tfrecord_wrt = tf.python_io.TFRecordWriter(outf_nm)
 ndatas = len(labels)
 print(feats[0].dtype, feats[0].shape, ndatas)
 assert len(labels[0]) > 1
 for inx in range(ndatas):
 ed = random.randint(0,3) #         ,      
 exmp = get_tfrecords_example(feats[inx][:-ed], labels[inx])
 exmp_serial = exmp.SerializeToString()
 tfrecord_wrt.write(exmp_serial)
 tfrecord_wrt.close()
 
import random
nDatas = len(mnist.train.labels)
inx_lst = range(nDatas)
random.shuffle(inx_lst)
random.shuffle(inx_lst)
ntrains = int(0.85*nDatas)
 
# make training set
data = ([mnist.train.images[i] for i in inx_lst[:ntrains]], \
 [mnist.train.labels[i] for i in inx_lst[:ntrains]])
make_tfrecord(data, outf_nm='mnist-train')
 
# make validation set
data = ([mnist.train.images[i] for i in inx_lst[ntrains:]], \
 [mnist.train.labels[i] for i in inx_lst[ntrains:]])
make_tfrecord(data, outf_nm='mnist-val')
 
# make test set
data = (mnist.test.images, mnist.test.labels)
make_tfrecord(data, outf_nm='mnist-test')
datasetでバッチデータをロードし、解析データにはtf.VarLenFeature(tf.datatype)を使用し、tf.FixedlenFeature([],tf.datatype)ではなく、tf.sparse_に合わせます。tensor_to_dense関数は以下のように使います。

import tensorflow as tf
 
train_f, val_f, test_f = ['mnist-%s.tfrecord'%i for i in ['train', 'val', 'test']]
 
def parse_exmp(serial_exmp):
 feats = tf.parse_single_example(serial_exmp, features={'feature':tf.VarLenFeature(tf.float32),\
 'label':tf.FixedLenFeature([10],tf.float32), 'shape':tf.FixedLenFeature([], tf.int64)})
 image = tf.sparse_tensor_to_dense(feats['feature']) #  VarLenFeature      sparse_tensor,        
 label = tf.reshape(feats['label'],[2,5]) # label  [2,5],   array    padding
 shape = tf.cast(feats['shape'], tf.int32)
 return image, label, shape
 
def get_dataset(fname):
 dataset = tf.data.TFRecordDataset(fname)
 return dataset.map(parse_exmp) # use padded_batch method if padding needed
 
epochs = 16
batch_size = 50 
padded_shapes = ([784],[3,5],[]) # image pad 784, label pad [3,5],shape   scalar,     
# training dataset
dataset_train = get_dataset(train_f)
dataset_train = dataset_train.repeat(epochs).shuffle(1000).padded_batch(batch_size, padded_shapes=padded_shapes)

以上のこのtenssorflow入門:TFRecordDatasetが長くなるデータのbatchを読みます。詳しくは小編で皆さんに共有された内容です。参考にしてもらいたいです。どうぞよろしくお願いします。