機械学習の実装の勉強の記録①(Kerasのデータセット)


はじめに

基本的に自分のためのブログです。
MarkDownなど、書き方に慣れてないのであしからず。

筆者のスペック

  • 物理学専攻出身で、ただし統計はど素人。
  • Pythonでの実装経験は素人レベル
  • 機械学習はなんだかんだとこれまで勉強会(岡谷先生の青本輪講)やセミナー(Google中井先生講師)には参加していたが、Kaggle参加は数回程度。
  • インプレス Python 機械学習プログラミングをいちおう一通り読了。ただし実装経験に乏しい状態。
  • 2020年10月のG検定合格

動機

2020年度10月のG検定に合格した。
ただ、この資格を取っても何か機械学習の実装ができるようになったり、
データサイエンティストみたいな仕事がこなせるようになったりするわけではない。
このため、自分のために勉強のついでにまとめていくことにする。

今回はKerasのデータセットをまとめる。
前にKaggleに参加した際、データ形式や変換のところでいきなり躓き、
なかなか前に進まなかったため、
とっかかりとして整備されているデータセットを知っておくことは重要だ。

Kerasとは

Kerasは,Pythonで書かれた,ディープラーニングに特化したTensorFlowのラッパー。
簡単にモデルを構築したりできる(らしい。)
詳細は以下参照。
https://keras.io/ja/#keras

Kerasのデータセット

詳細は以下を参照だが、どんなデータセットが用意されているか箇条書きしておく。
https://keras.io/ja/datasets/

  • CIFAR10 画像分類
  • CIFAR100 画像分類
  • IMDB映画レビュー感情分類
  • ロイターのニュースワイヤー トピックス分類
  • MNIST 手書き数字データベース
  • Fashion-MNIST ファッション記事データベース
  • ボストンの住宅価格回帰データセット