[TIL] #1.2.3 Confidence Interval


ANOVA


複数のグループを同時に比較

numpy


リファレンス

scipy

from scipy.stats import f_oneway

f_oneway(x, y, z)
リファレンス

だいすうのほうそく


sampleデータの数が大きいほど、sampleの統計値は募集団の母数に近い.

Method Chaining


メソッドがオブジェクトを返す場合は、メソッドの戻り値であるオブジェクトから別の関数を呼び出すことができます.

中心限界の定理(CLT)


試料のデータが多ければ多いほど,試料の平均値は正規分布に近づく.

しんらいど


100区間があり、少なくともある数の95区間が含まれている場合、その区間を95%信頼区間と呼ぶ.
より正確には、信頼度95%の信頼区間である.

numpy

from scipy import stats

"""
  표본 평균에 대한 신뢰구간을 계산.
  
  입력 값 : 
    data - 여러 개로 이루어진 (list 혹은 numpy 배열) 표본 관측치
    confidence - 신뢰구간을 위한 신뢰도 
  
  반환 되는 값:
    (하한, 상한구간)으로 이루어진 tuple
  """
  
def confidence_interval(data, confidence=0.95): #신뢰도 95%
    data = np.array(data)
    mean = np.mean(data) #평균
    n = len(data) #표본크기
    std_err = stats.sem(data) #표준오차
    interval = std_err * stats.t.ppf((1 + confidence) / 2, n-1) #ppf : inverse of cdf
    
    return(mean - interval, mean + interval)

scipy

from scipy.stats import t

n = len(sample) #크기
dof = n-1 #자유도
mean = sample.mean() #평균
sample_std = np.std(sample, ddof = 1) #표준편차
std_err = sample_std / n ** 0.5 #표준오차, sample_std / sqrt(n)

CI = t.interval(.95, dof, loc = mean, scale = std_err)
リファレンス