メンターとパンサーを人工知能に区別させてみた


挨拶

こんにちは。iPhoneメンターのへむへむです。
寒い冬にはやっぱりおでんですよね。しらたきはほどかずシャキシャキ食べる派です。

突然ですがLife is Tech ! 関係者のみんなは次のメンターを知っていますか?

知らないそこのあなた...!
ええ、知らなくて当然です。この方はお笑い芸人 パンサー の向井さんです。

メンターはこっちです。そう、このアドベントカレンダー初日を書いてくれました。Webデザインメンターのちゃんちーです。

に、似てる!!(ということにします。)

これは困りました...これではWebデザインで質問をしたい時、ちゃんちーを呼べばいいのか向井さんを呼べばいいのかわからない! そんな混乱した事態になってしまいます。

いや、俺iPhoneコースだし、Webの質問とかしないし...
って思ったそこのあなた!!!!

次の写真を見てください。

どん!

キャンプやスクールで大活躍中、最近はあのランニングクラブでHADO world cupに出場し世界一の座に輝いたiPhoneメンターのフンジンです。(参考)

ん、んん?

次のGoogle画像検索結果をみてください。

ふん..じん?
ではありません。この方はお笑い芸人パンサーの尾形さんです。

に、似てる!!(ということにします。)

ここで大きな問題が生じてしまいました。
え、フンジンなの??尾形さんなの??ちゃんちー??向井さん??え、そもそもメンターだっけパンサーだっけ? 問題です。

今回はこの深刻な問題を、流行りの人工知能の技術を用いて解決したいと思います。

概要

メンターちゃんちーとパンサー向井さんを画像認識によって識別する。(使用言語はPython)
1.画像を収集
2.画像を切り取り増やす
3.Kerasでdeep learning
(コードはgithubにあげており、本記事ではコードにはほぼ触れません。データ集めからテストまでのdeep learningのニュアンスを伝えていければと思います。)

※今回の内容は以前のインターン先でお世話になった方のこの記事をすごく参考にしました。違うライブラリを使ってはいますが、コードに興味がある人はこっちも合わせてみるとよいと思います。

1.画像を収集する

一般に言われる機械学習(今回はdeep learning)は大量のデータから隠れたパターンをみつけるというのが本質です。そのため、データが欠かせないのです。
今回必要なデータは
・ ちゃんちーの顔写真
・ 向井さんの顔写真
です。

ちゃんちーの顔写真は次のようにして集めました。

簡単ですね!すぐにdropboxで共有してくれました!
写りが良い写真が多かったことは秘密にしておきます!

次はパンサー向井さんの写真です。
こちらは幸いGoogle検索でごまんとでてきます!

これを一つ一つ右クリック->ダウンロードしてもいいのですが、エンジニアは3回以上繰り替えす行動はしないものです。
なので Google Custom Search API を使って一気にまとめてダウンロードします。この辺のコードもgithubにあげてますので、自分も楽して画像集めたいっ!って人は確認ください。

このようにしてちゃんちーの画像48枚、向井さんの画像54枚が集まりました。

2.画像を切り取り増やす

まず、私たちが欲しいのはちゃんちーと向井さんの顔の画像です。いまの画像のままだと背景や洋服などが多く写真に写り込んでしまっていて、それらが学習に悪影響を与えるかもしれません。
なので1.で集めた画像から顔画像を切り取る作業が必要です。実は画像を扱うために使用するライブラリ(Open CV)には顔認識をしてくれる便利な機能があります

が、しかし、顔がきちんと正面を向いていない写真がデータにあったりなど、全てをちゃんと切り取ってくれるか不安だったため 手で一枚一枚クロッピングしました。(102枚)

エンジニアは3回以上繰り替えす行動はしないものです。

・・・
さて、
これでおよそ50枚ずつ顔写真が手に入ったわけですが、実はこれでは データが足りません。ここでデータを増やす過程に入ります。

データを増やす方法は次の三つです。
・ 画像を上下左右に数ピクセルずつずらす。
・ 画像をその平面内で少しずつ回転させる。
・ 画像を反転させる

こうすることで、機械により普遍的に人物の特徴量を学習させます。

さて、こうすることでわずか100枚ほどの画像を1200枚ほどに増量させることができました。
これだけあればトイプログラムとしては十分なので、いよいよ deep learningに入ります。

(ファイル名に意味はないです。)

3.Kerasでdeep learning

ディープラーニング、深層学習、といった言葉はもうお馴染みだと思いますが、いざやってみようとして調べると複雑な数式だったりに遭遇して実装を避けてしまう人が多いのではないのでしょうか? 確かにちゃんと精度をあげたりするにはそういった知識も必要ですが、遊んでみる分には必要ありません。

deep learningには便利なライブラリがたくさんあります。むしろありすぎます。
Tensorflow, Chainer, Caffe, Theano, Keras,,,,
これらのライブラリの使い心地を比較した記事はたくさんありますので、興味あれば調べてみてください。

個人的には
・MLPのback propagationなどの背景アルゴリズムをTheanoでしっかり実装してみる
・CNNを使って画像認識など複雑なことをしたくなったのでTheano(とTensorflow)をバックグラウンドで使えるラッパーライブラリのKerasで遊ぶ
の流れで学習をしてきたので、今回はKerasで実装します。
(コードをみればわかりますが、本当に表面的な実装だけを行えばよく、今回のように軽い実験を行うには最適なライブラリだと思います。Kerasについては ここ が参考になります。)

deep learningをめっちゃ噛み砕いて言うと
様々な役割を持ったレイヤー(層)を積み重ねて、そこにinputとoutputを与えて、きちんとinputに対応したoutputがでるようにレイヤーを鍛える
となります。

各レイヤーがどのような役割をもってるの?とか考え始めるとどんどん数式の世界に入っていくので今回はあまり深入りしません。これをコードにすると次のような感じです。なんとなくmodel.addで層をたくさん積み重ねているのがわかると思います。

def build_deep_cnn(num_of_classes=2):

   model = Sequential()
   model.add(Convolution2D(96, 3, 3, border_mode='same', input_shape=(3, 32, 32)))
   model.add(Activation('relu'))model.add(Convolution2D(128, 3, 3))
   model.add(Activation('relu'))
   model.add(MaxPooling2D(pool_size=(2, 2)))
   model.add(Dropout(0.5))

   model.add(Convolution2D(256, 3, 3, border_mode='same'))
   model.add(Activation('relu'))

   model.add(Convolution2D(256, 3, 3))
   model.add(Activation('relu'))
   model.add(MaxPooling2D(pool_size=(2, 2)))
   model.add(Dropout(0.5))

   model.add(Flatten())
   model.add(Dense(1024))
   model.add(Activation('relu'))
   model.add(Dropout(0.5))

   model.add(Dense(num_of_classes))
   model.add(Activation('softmax'))

   return model

Convolution2DとかMaxPooling2Dとかがいろんな役割ってことですね!

さてこうやってmodelを準備したらあとは2.で集めたデータを持ってきて
model.fit(train_X, train_y,[option])
とするだけです。今回は俗に言う教師あり学習をおこなっており、train_Xが入力の画像データ、train_yが正解データ(ちゃんちーor向井さん)になっています。

こうして実行すると、つぎのようにどんどんKerasが出力を吐いてくれます。

Epochというのは学習回数です。今回はトータルで50回学習を繰り返しています。注目して欲しいのはval_lossの値で、これは誤差の値です。すなわち、ちゃんちーと向井さんを誤判断した回数の指標で、少ないほど精度が高いと言えます。上の図をみると学習を繰り返すにつれて値が小さくなるのがわかり、しっかりと機械がちゃんちーと向井さんを区別し始めていることがわかります。

ある程度進むとval_lossの値が減らなくなって、学習の終わりが近づいてきます。
Kerasでは自動的に学習の終わりを検知してまだEpochが最後までいっていなくても終了してくれる便利な機能があります。

モデルの学習が終わったら最後は
model.predict_classes(test_X)
をして、テストデータに対し予測を行います。今回はテストデータに対する正解ラベルtest_yも既知なのでそれを元にどのくらいの精度だったかを調べます。
上記の画像の最後の一行がその精度にあたり、87.6%でちゃんちーと向井さんを見分けていることがわかります。

考察

この87.6%という値はあまり高くはありません。今回のようにCNNを利用したdeep learningでは90後半の精度は出て欲しいものです。データの少なさが原因だと思います。

参考までにこの人工知能が見分けられなかったちゃんちーの画像の一部をリストアップします。

フンジンと尾形さんの区別について

こちらは試してないのですが、上と全く同じ方法で区別可能ですね!

まとめ

どうだったでしょうか?
実際にデータを集め、それを加工し、プログラムに投げ結果を考察する、人工知能で画像認識を行う全体の流れをわかってもらえたでしょうか。
人工知能・機械学習の勉強などをしているとすでに用意されたデータセット(有名どころだと手書き数字のMNIST)を使ってチュートリアルを行うと思います。たしかにアルゴリズムの勉強にはそのステップが大事なのですが、やはり学んだことは身近なことに応用してみたいですよね。 deep learningを身近なことに使用してみたい!アイデアはあるんだけど!という人の参考になれば幸いです。

これでちゃんちーと向井さん、フンジンと尾形さんをきっちり見分けることができましたね!キャンプやスクールで困った時ももう大丈夫です!メンターとパンサーの区別がつくと思います。

あ、あれ?

パンサーって

トリオ?

そうです。
まだ一人残っていました。

パンサーの菅さんです!!!

でも安心してください。
菅さんに似ているメンターはいませんでした。(2016年12月4日現在、へむへむ調べ)
今後加入されたらきちんと人工知能に学習させたいと思います。

はい!以上になります!
質問・意見などあったらどしどしお願いします。

明日は関西からの刺客ありたくさんです!
なにやら面白そうなタイトルです。12月は毎日が楽しみですね!

ではでは!

(本記事のパンサーの画像は全てgoogle画像検索結果のスクリーンショットです。)