ヒストグラム(度数分布表)


ヒストグラム(度数分布表)

  • 問題提起

    • ヒストグラム(度数分布表)とは何だろうか。
    • 何に使うものか。
  • ヒストグラムの用途

    • データの分布を可視化したいときに用いる。
      • 可視化することで、各種統計値(平均や分散など)よりも詳しくデータの分布を知ることができる。
  • ヒストグラムの仕様例(データは仮のもの)

    • データの説明
      • 20個のポットで同じ種類の花を育てた。
      • 咲いた花の数のデータを取った。
      • 花の数の分布をヒストグラムで可視化すると、何がわかるだろうか。
    • データ
ポットNo 花の数
1 10
2 9
3 12
4 10
5 10
6 9
7 7
8 14
9 11
10 12
11 18
12 17
13 15
14 15
15 16
16 16
17 15
18 14
19 13
20 15
  • 上記データから作成したヒストグラム

    • 横軸: 咲いた花の数
    • 縦軸: 咲いた花の数の度数

      • 10個の花が咲いたポットは3つあり、15個の花が咲いたポットは4つある。
  • pythonでヒストグラムを作成するコードの例

      import matplotlib.pyplot as plt
      x = [10, 9, 12, 10, 10, 9, 7, 14, 11, 12, 18, 17, 15, 15, 16, 16, 15, 14, 13, 15]
      fig = plt.figure()
      ax = fig.add_subplot(1, 1, 1)
      ax.hist(x)
      fig.show()
      plt.savefig('sample_histogram.png')
    
    • たくさんのヒストグラムを作成するときなど、pythonは便利。
  • ヒストグラムから読み取れること

    • 同じ種類の花を育てたのに、ヒストグラムには2つの山が存在する。
      • 10個くらいの花が咲いたポットと、15個くらいの花が咲いたポットが多い
    • なぜだろうか?
      • もしかして、生育環境など、条件が異なっていたのではないか?
    • 統計量との違い
      • 平均値や標準偏差からでは、こういった疑問を持つことができない。
      • 可視化することで初めて分かる。
    • 調査の結果、分布の差の理由がわかるかもしれない。
      • 例えば、この20のポットは、異なる栽培条件の元で育てられたものだった。
        • ポット1~10はひなたに置いて育てた。
        • ポット1~10は日陰に置いて育てた。
        • まとめ
  • ヒストグラムは、データの分布を可視化することに使える。

  • 可視化することで、平均や標準偏差よりも詳しくデータについて知ることができる。