[記録用] Day.1 統計学のお勉強


日記

完全独習 統計学入門という統計学の勉強を始めるにあたっての入門書で
勉強を始めた。
統計学を勉強し始めた理由は、数学がもともと好きだったのが2割で、世の中のおもしろい規則性とか関係性を見出したいが3割で、
将来役立つから早めにできるようになりたいが5割です。
今日は90minくらいやって、本の半分くらいやりました。
正規分布と標準正規分布の違いや意味についての理解に苦しんだけど、
なんとなくわかった気がする。

たぶん練習問題たくさんとかないといけないんだろうなー。
過去問とかも平行してやりはじめよう。

>以下、エッセンスとしてメモしたもの

統計学は主に2つのパーツから成り立っている
- 記述統計|あるデータの中から特徴や傾向を掴むこと。起源は古代にまで遡る。
- 推測統計|部分から全体を推測する。|20Cになってから確立された方法論

この筆者は標準偏差が統計学でもっとも重要なことだと理解している。
標準偏差は、データが平均値の周辺にどのくらいの広がりや散らばりを持っているかを表す統計量のこと。
標準偏差を理解しないと、それ以降発展しずらい。

この本では確率を使わない。
統計|過去に起きたことに関する記述(観測されたデータの集まり)
確率|未来に起きることに関する記述
これらの違いは、時間軸を行き来することで消滅していく。
これらに対して同じ計算手法を行うため、混乱が起こる。

縮約
1.グラフ化
2.1つの数字で特徴を代表(代表する数字を統計量という)

1.グラフ化
・度数分布表
階級を決めて、階級値を決めて、度数を出して、相対度数を出して、累積度数を出す。
縮約によって、ローデータである細かい各数値が失われる代わりに、大まかな傾向/特徴が見出せる

グラフ化のデメリットとして、1.読み手により解釈が別れてしまう。→図だから。2.スペースを取りすぎること
そのために統計量がある(分散/標準偏差/平均/etc..)

平均値の捉え方
・データは数値的に広がっているが、その広がりの中から1点を全データを代表する数値として選び出したもの
データは平均値の周辺に分布している。

・多く現れるデータは平均値に与える影響が大きい。

メモ:幾何平均があまりわからん

標準偏差の捉え方
・データは平均値を基点にしてその前後に広がっているもの。
・しかし、その広がりがどの程度であるかはわからないため、それを明らかにするのが標準偏差
・バスの事例。全てのデータを二乗平均する。

標準偏差とは波の大きさである。 (サーファーにとって

S.Dがわかると、
1セットのデータの中にある1つのデータの意味がわかる。
2複数のデータのセットを比較して出てくる違いがわかる

テストの点数で、平均点とどれくらい離れているかは重要ではなく、
標準偏差、つまりデータの散らばりにおいて、どの辺に自分がいるのかが重要。