Azure Machine Learning を使って2015年度の千代田区の犯罪発生件数を未来予測する【回帰分析】


Azure Machine Learningを使って2015年度の千代田区の犯罪発生件数を予測してみます。
オープンデータが叫ばれる昨今、血税を無駄遣いする政府は一行にまともなデータを提供しない・・と思っていましたが意外と23区のホームページにはデータがいろいろ公開されていたのでそれを使います。

予測元データ収集

千代田区のホームページから犯罪発生件数と人口推移データを取得します

犯罪発生件数はなぜか千代田区のHPには1年前が最新になっているので
最新の平成26年のデータは警視庁からとってきます
http://www.keishicho.metro.tokyo.jp/toukei/keiho/pdf/keiho2.pdf

行政のデータはExcelやPDFなのでCSV形式に落とし込みます

平成17年から平成26年までの千代田区の犯罪発生件数と人口推移から平成27年(2015年度)の犯罪発生件数を予測します。

使用する過去データの相関性を想定する

今回は最初から犯罪発生件数と人口推移の関連性に当たりをつけましたが、犯罪発生件数にはもっと別の数値推移も関係するかもしれませんが今回は人口推移に絞りました。
それでも犯罪発生件数と人口増加推移に関係性がなかったら意味のない分析となるので、グラフ化して関連性がそれなりにあるかを確認しておきます。

犯罪発生件数と人口推移

青軸が犯罪発生件数
緑軸が人口推移数

これだけだとピーンとこないので、人口推移を人口増加推移に変更します

犯罪発生件数と人口増加推移

青軸が犯罪発生件数
緑軸が人口増加推移数

ここから読み取れるのは

  • 犯罪発生件数は人口の数とは関係なく年々下がっている
  • 犯罪発生件数は年々さがっているものの、その数は人口増加推移に左右されている
  • 人口増加が多い年は犯罪発生件数は下がり幅が弱くなり、むしろ去年より大きくなったりしている

千代田区の人口増加推移と犯罪発生件数に関連性があるとわかったところでAzureMLの回帰分析で未来予測をしてみます

AzureMLで未来予測を実践する

AzureMachineStudioでの操作は動画をとっていますのでそちらも参考にしてください
https://www.youtube.com/watch?v=-7YTTOlbS8I

ここからAzureML Studioにログイン
https://studio.azureml.net/

モデルを作成

過去データから分析モデルを作成します
Datasetsに予め過去データCSVをアップロードしておきます

犯罪率千代田区.csv
平成,年度,犯罪発生件数,総人口,人口増加数
17,2005,5442,42968,1292
18,2006,5246,43933,965
19,2007,5068,44954,1021
20,2008,4475,45461,507
21,2009,4277,46060,599
22,2010,4156,47138,1078
23,2011,3813,47887,749
24,2012,3612,48538,651
25,2013,3735,52284,3746
26,2014,3593,54160,1876

[Saved Datasets]->[My Datasets]->犯罪率千代田区をキャンバスに配置

[Data Transformation]->[Manipulation]->[Project Column]を配置

(わりと重要)解析対象のカラムを選択

[Project Column]のLaunch column selectorを押して解析対象のカラムを選択します。
今回は西暦よりは年度のほうが精度は高かったです。
この形式だとAzureがDate型と認識しないので、ただの数値扱いになります。
精度をさらに高めるならDate型(2015-01-01など)にして実践しましょう。
解析結果が芳しくなかった場合はここのカラムを減らしたり増やしたりします。

トレーニングモデルを配置

[Machine Learning]->[Train]->[Train Model]を選択しキャンバスに配置します

解析アルゴリズム(線形回帰)を選択

[Machine Learning] -> [Initialize Model]->[Linear Regression]を選択

Train Model の対象カラム(未来予測をしたいカラム)を選択

Train Model の Launch column selectorを押下して「犯罪発生件数」を入力します。
この画面は入力補完が効くのでなんかのキーを押せば候補がでてきます。

RUNを押下し一度モデルを作成する

RUNを押してモデルを作成します。
緑のチェックが出れば完了。

作成したモデルを使って過去データとの比較をしてみる

予測が正しくできるモデルが作成できたか確認するために、過去データ(平成17年〜25年のデータを使って犯罪発生件数予測をしてみます。(過去に作成したモデルをもっていたとして未来予測できたかを検証)

[Machine Learning]->[Score]->[Score Model]を選択し
Train Modelと犯罪発率千代田区.csvに連結し再びRUNします
数秒で処理は完了するはずです。

緑のチェックがついたらScore Model を右クリックし
[Scored Dataset]->[Visialize]を選択

結果からかなり精度の高いモデルが作成できたのがわかります。
実際の過去データと100人もほとんどズレていません。

compare to で 「予測データと犯罪発生件数」を比較してもデータが少ないにもかかわらずほぼ斜めに垂直になっています

実際に未来予測を行う

実際に未来予測として2015年度の犯罪発生件数を予測したいと思います。
千代田区のHPには平成27年-2015年の人口増加データはすでにあるため犯罪発生件数は予測可能になります。

予測対象のCSVを作成

平成27年の犯罪発生件数を0にしたデータを作成します。

chiyodaku_furure_crime_rate.csv
平成,年度,犯罪発生件数,総人口,人口増加数
27,2015,0,56873,2713

Train Model と chiyodaku_furure_crime_rate.csvをくっつける

Project Columnsはすでにあるものをコピーして貼り付けます。

RUNを実行

結果を確認

緑のチェックがついたらScore Model を右クリックし
[Scored Dataset]->[Visialize]を選択

2015年度の千代田区の犯罪発生件数は3672人と予測されました。
実際にあってるかは2015年度が終わるまでわからないですがあってるか楽しみ?です。

最後に予測したデータをグラフにくっつけて推移を確認する.

今年度は人口増加が去年より多いので犯罪発生件数も少し多そうです。
納得の結果が解析できました。

まとめ

政府が数は限られてはいるもののオープンデータや一見役にたたなそうなデータを公開してるのでそれを利用して機械学習プラットフォームの学習に使ってみるのがお薦めです。
特にAzureMLはRやPython、Sparkなどのプラットフォームも用意する必要もなく、データだけあればブラウザですぐにアイディアを試せるので是非挑戦してみてください。