ハーバード大のWEB講座でRを使ったデータサイエンス入門をやってみる Part.6 グラフ作成


過去の投稿

第一回
第二回
第三回
第四回
第五回

データサイエンスといえばデータの可視化、つまりグラフ作成が重要になってきます。まずは単純に殺人件数と人口のグラフを作ってみます。

> poplation_in_millions <- murders$population/10^6
> total_gun_murders <- murders$total
> plot(poplation_in_millions, total_gun_murders)

素早くグラフが出てきました。人口と殺人件数に正の相関があることが見て取れます。
ここで気になったのは殺人件数って一件当たりの人数数えてますか?とか事故と事件、正当防衛とかどうやって区別してますか?ってところですが、そういった点も含めて可視化して検証をすることが
必要なのでしょう。(マイケル・ムーアの映画で年間1万数千人とか言ってたような気がする。)

次にヒストグラムを作ってみます。どんな意味だっけ...。
(「ヒストグラムとは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう。 」 wiki より参照)
こちらについては別の講座で詳しくやるよ、とのことでした。
シンプルにhist でプロット(作図)することができます。rateをmurdersの中に追加した状態じゃないといけないので、これ読んでやってくれている人の中で日が開いた人は注意しましょう

hist(murders$rate)

一個だけイレギュラーなデータがあるので調べてみましょう。

> murders$state[which.max(murders$rate)]
[1] "District of Columbia"

District of Columbia(ワシントンD.C.)が飛びぬけて危険...。不安はぬぐえませんでした。

もう一つ、boxplot という機能もあります。google翻訳では箱ひげ図と訳されました。株でよくあるロウソク足みたいなやつですかね?

> boxplot(rate~region, data =murders)

これについてはどんな意味があるのか説明はされませんでした。最大値、最小値と平均値みたいなのかなとも思いましたが、Southの飛び出た点はそれだと説明できないし...。
でも4つの地域にまとめたグラフが一瞬で出てくるのは便利ですね。
この操作はggplotというパッケージをインストールして使えるものになりますが、便利なので初心者にはマストな機能なのでしょう。

このあとのグラフの小テストとアセスメントはまあまあ簡単なような気がします。ただ、例によって問題が何言っているのかつかめないと何していいのかわからず途方にくれます。簡単にできる問題の簡単さからすると難易度は結構低めのような気がするんですけどね...。
これで3章が終わって次回最終章ではプログラミング要素の入った使い方を学びます。

第七回へ続く