統計の2種類の方法論


統計の2種類の方法論


統計の種類


統計は,処理データの目的に応じて,技術統計値と推理統計値に大別できる.

▼技術統計(Descriptive Statistics)


...収集されたデータを要約、説明、説明する統計方法.
mean、標準dev、min、1 Q、median、3 Q、maxなどの記述データの値(または統計値).
import pandas as pd
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,4,6,8,10]})

#summary statistics구하기
df.describe()

集中化傾向


収集したデータはどこに集中していますか?⭐️
例)平均値、中心値、最頻値

かくさんど


収集したデータはどのように伝播しますか?⭐️
例)標準偏差、四分位(1 Q、対等、3 Q)

テクノロジー統計データの可視化


boxplot
bagplot
villen plot(boxplotでデータの分布を表す)

クリーンアップ用語


Mean:平均値
Median:中心値
モード:NULL
範囲はんい:範囲(最大から最小)はんい(さいだいからさいしょう)
Var:拡散
SD:標準偏差
Kurtosis:スパイク(データ分布はどこですか?)
Skewness:外部(データは末尾に大量に分布していますか?)

▼推理統計(Inforential Statistics)


収集したデータに基づいて任意のものを推定し予測するための統計方法.
限られたデータ,すなわちサンプルを用いているため,真偽を明確に示すことは困難である.
推理統計の結果は正確には現実的とは言えないが,我々が知っている(収集したデータ,サンプル)を利用して知らない(募集団)の特性を推定しているので重要である.

人口=全集団(募集団)
parameter=人口から欲しいもの
sample=クラスタ全体の一部
統計=sampleの計算
すいていりょう
標準偏差=標準偏差
ひょうじゅんごさ
例えば、t-test、chi-square test等を用いる.