[TIL]CLTと信頼区間
3141 ワード
CLT (Central Limit Theorem)
CLT,すなわち中心極限定理は,試料のデータが多ければ多いほど,試料の平均値が正規分布に近づく.グラフに時計が表示されますが、この時計に関するキーワードは「平均」です
ここで、平均とは、募集団から抽出したサンプル(sample)を平均することを意味する.サンプルを数回平均化しない場合、サンプルの平均分布は正規分布に近似する.
募集団がどんな分布であっても,試料の平均分布は正規分布に従い,これが中心限界の定理である.複数の募集団から単独で抽出した標本であっても関係ないが,独立して抽出するという仮説が必要である.
信頼区間
信頼区間は我々が観測した合理的な推定値の範囲である.信頼率が大きいほど、区間が広くなります.
サンプルのサイズが小さくなるため、サンプルの平均分布は常に完全に正規化されないため、z分布ではなくt分布を使用してデータの中間95%を検索することが多い.
t−分布はz−分布と同様に単一ピーク(単一ピーク)の連続確率分布であり,情報量に応じて図形の形状を変化させるサンプリング分布を表す有用な方法である.
サンプルサイズが小さいほど情報が少なくなり,データが多くない場合,推定値が不確定であることを示すためにt分布の末尾が厚くなる.しかし、得られたデータが多ければ多いほど、t分布はz分布と同じになる.
信頼区間の可視化
今日の課題では,信頼区間を可視化する問題がある.可視化時のplt.barを使って可視化を実現すべきだったのですが、知らない関数+紛らわしい関数があったので見つけて整理してみました.
df.sample()
df.sample法はdfからランダムにサンプリングする方法である.前回も使った方法ですが、今日使うなら、これの使い方がわかりません.整理しなおした
df.sample(
n = 추출할 표본 개수,
frac = 추출할 표본 비율,
replace = 복원 추출 여부 (True or False),
weights = 가중치 부여 (column name),
random_state = 난수 발생 초기값,
axis = 0(index 기준) or 1(column기준)
)
# random_state는 이 코드를 다시 돌려도 무작위로 뽑았던 값과 똑같은 값이 나오게 만들어준다.
np.std()
np.std法は,指定した軸に沿って標準偏差関数を用いて所与のアレイの標準偏差を計算した.
import numpy as np
np.std(
array,
axis = 0(index 기준) or 1(column 기준) or None,
dtype = float64
)
stdメソッドは、所与の配列の標準偏差または指定された軸に沿って標準偏差を持つ配列を返します.t.interval()
課題では,t.interval法を用いて信頼区間の関数を求めるべきであろう.t.intervalキーワードで検索しようとしたが、ほとんどが英語で少し...慌てた.だから公式文書を参考にしましょう.私は公式文書を見て、ガチャガチャと書いてある.
interval(alpha, df, loc=0, scale=1)
Endpoints of the range that contains fraction alpha [0, 1] of the distribution
訳してみると「分布する点数α[0,1]を含む範囲の終点」というのがわかり、さらに戸惑う.😐🤔😓😟
だからたぶん信頼区間の関数を求めて…!
私は宿題をする時、ノートを参考にして、理解の内容を書いて、以下のようにします!
from scipy.stats import t
CI = t.interval(
.95 (95% 신뢰구간),
dof (자유도),
loc = mean (평균의 평균),
scale = std_err(표준 오차)
)
plt.axhline()
plt.axhlineメソッドは、軸に沿って水平線を描く方法です.軸vline(軸に沿った垂直線)、hline(指定点に沿った水平線)、vline(指定点に沿った垂直線)の3つの類似の方法もある.
import matplotlib.pyplot as plt
plt.axhline(y = 수평선의 위치, xmin, xmax, colors, linestyle)
上記のコードでは、xminとxmaxの値は0~1です.0は左端、1は右端を表します.これをよく理解していない場合は、サンプルコードを作成して一度返すことをお勧めします.字面的には、私もよくわかりませんが、直接数字を入れてコードを回してみましたが、これはこのように働いていたのでしょうか.コードを直接見返すことをお勧めします!!plt.bar()
plt.barは柱状図を作る方法で、明らかに一度使った方法ですが、今日初めて見たパラメータを見て、整理する必要があると思って整理しました.
import matplotlib.pyplot as plt
plt.bar(x, height, color, xerr, yerr, capsize, edgecolor, linewidth)
plt.barにxerrまたはyerrをパラメータとして追加するとerrorbarを追加できます.xerrをパラメータとして追加すると、errorbarがx方向に描画され、yerが追加されると、errorbarがy方向に描画されます.errorbarに帽子をかぶるように、capsizeは以下のレベルの短線を生成します.
edgecolorは、棒グラフの枠線に色を追加するパラメータで、linewidthは枠線の厚さを指定するパラメータです.
Reference
この問題について([TIL]CLTと信頼区間), 我々は、より多くの情報をここで見つけました https://velog.io/@woooa/TIL-CLT와-신뢰구간テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol