kerasが持参したデータセット

10387 ワード

CIFAR 10小画像分類


データセットは32 x 32カラートレーニング画像50000枚で、10カテゴリ以上、10000枚のテスト画像を表示します.

使用方法:

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

戻り値:
2タプル:
x_train,x_test:形状(num_samples,3,32,32)を有するRGB画像データのuint 8配列.
y_train,y_test:uint 8は、形状(num_samples,)のカテゴリラベル配列(範囲0-9の整数)を有する.


CIFAR 100小画像分類


データセットは32 x 32カラートレーニング画像50000枚で、100以上のカテゴリ、10000枚のテスト画像を表示します.

使用方法:

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

戻り値:
2タプル:
x_train,x_test:形状(num_samples,3,32,32)を有するRGB画像データのuint 8配列.
y_train,y_test:uint 8には、形状(num_samples,)のカテゴリラベル配列があります.


パラメータ:
label_mode:「良い」または「粗い」.

IMDB映画評論情緒分類


データセットはIMDBからの2万5000本の映画評論で、情緒(プラス/マイナス)で表記されている.コメントは前処理され、各コメントは一連の語インデックス(整数)に符号化される.便宜上、語彙は、データセットの全体的な周波数、例えば整数「3」によって、データの中で3番目に頻繁な語を符号化する.これにより、「最初の10,000語の最も一般的な語のみを考慮しますが、最初の20語の最も一般的な語を除外します」などの高速フィルタ処理が可能になります.
慣例として、「0」は特定の単語ではなく、未知の単語を符号化するために使用されます.

使用方法:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

戻り値:
2タプル:
x_train,x_test:シーケンスリスト、インデックスリスト(整数).num_wordsパラメータが特定の場合、可能な最大インデックス値はnum_words-1.maxlenパラメータを指定した場合、可能な最大シーケンス長はmaxlenです.
y_train,y_test:整数ラベルリスト(1または0).


パラメータ:
パス:ローカルにデータがない場合(at '~/.keras/datasets/' + path)、この場所にダウンロードされます.
num_words:整数またはなし.最もよく使われる語彙を考える.あまり頻繁でない単語は、oov_charシーケンスデータの値として表示されます.
skip_top:整数.無視する最も一般的な単語(oov_charがシーケンスデータに値として表示されます).
maxlen:int.最大シーケンス長.より長いシーケンスは切断されます.
seed:int.再生可能なデータ洗浄用のシード.
start_char:int.シーケンスの先頭にこの文字がマークされます.0は通常入力文字であるため、1に設定します.
oov_char:int.num_wordsまたはskip_topの制限により削除された語は、この文字に置き換えられます.
index_from:int.このインデックスとより高いインデックスで実際の単語をインデックスします.

ロイター通信newswire話題分類


ロイター通信の11228のニュースデータセットには46のテーマが表示されています.IMDBデータセットと同様に、各ラインは一連のワードインデックス(同じ約束)として符号化される.

使用方法:

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

規格はIMDBデータセットと同じですが、追加されました.
test_split:float.テストデータとして使用するデータセットのスコア.
このデータセットには、シーケンスを符号化するためのワードインデックスも用意されています.
word_index = reuters.get_word_index(path="reuters_word_index.json")

戻る:キーが単語(str)、値がインデックス(整数)の辞書.たとえば、word_index["giraffe"]は、1234を返します.
パラメータ:
パス:ローカルにインデックスファイルがない場合(at '~/.keras/datasets/' + path)、この場所にダウンロードされます.

手書き数字のMNISTデータベース


データセットには、10個の数字の60000個の28 x 28階調画像と、10000個の画像のテストセットが含まれています.

使用方法:

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

戻り値:
2タプル:
x_train,x_test:uint 8は、形状(num_samples,28,28)の階調画像データ配列を有する.
y_train,y_test:uint 8には、形状(num_samples,)の数値ラベル配列(範囲0-9の整数)があります.


パラメータ:
パス:ローカルにインデックスファイルがない場合(at '~/.keras/datasets/' + path)、この場所にダウンロードされます.

ファッション記事のファッションMNISTデータベース


データセットには、ファッションカテゴリ10個の28 x 28階調画像60000個と、10000個の画像のテストセットが含まれています.このデータセットはMNISTの直接置換として使用できる.クラスラベルは次のとおりです.
タブ
説明
0
Tシャツ/トップ
1
ズボン
2
引き寄せる
3
ワンピース
4
コーティング

ホノルル
6
シャツ着
7
運動靴
8

9
足首ブーツ

使用方法:

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

戻り値:
2タプル:
x_train,x_test:uint 8は、形状(num_samples,28,28)の階調画像データ配列を有する.
y_train,y_test:uint 8には、形状(num_samples,)のラベル配列(範囲0-9の整数)があります.


ボストンの家屋価格回帰データセット


データセットは、カーネギーメロン大学が維持しているStatLibライブラリから取得されます.
1970年代後半、サンプルはボストン郊外の異なる位置に13の家屋属性を含んだ.目標は1つの場所の家屋の中位値(単位:k$).

使用方法:

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

パラメータ:
パス:ローカルキャッシュデータセットのパス(〜/.keras/データセットに対して).
seed(シード):試験分割を計算する前にデータを混洗するために使用されるランダムシード.
test_split:テストセットとして保持されているデータのほんの一部です.

戻り:Numpy配列のメタグループ:(x_train, y_train), (x_test, y_test).