基礎統計(2)変異推定



💡 へんいすいてい

  • 変異推定は、データ値がどれだけ密集しているかまたは分布しているかを示す散布度である.
  • 📈 へんさ

  • 観測値と位置推定値の差
  • は簡単に言えば回帰式における実際の観測値と我々の推定値の違いである.
  • 📈 へいきんぜったいへんさ

  • 変異を測定する1つの方法は、偏差のスケール値を推定することであり、偏差には負数と正数があり、偏差の和は常にゼロであるため、偏差絶対値を与え、両者の平均値を求める.これが平均絶対偏差です.
  • との平均偏差の絶対値の平均を指す.
  • 平均を求める->測定値ごとの平均距離を求め、絶対値(絶対偏差)->すべての偏差を加える->(偏差フィット)/(測定値の個数)
  • (最も有名で最もよく用いられる推定方法は平方偏差の分散と標準偏差を利用することである)

    📈 ぶんさん

  • 分散とは、私が持っている資料(データ)が平均値を中心に伝播する距離を指す.
  • の平均値の2乗和をn−1で割った値.nはデータ個数/(偏差二乗フィッティング)/(n-1)
  • を表す.
  • 分子は「二乗和」分母を「自由度」と呼ぶ.
  • n−1に分けたのは分子から平均値を減算したため、平均値を減算したためn−1であった.
  • 📈 ひょうじゅんへんさ

  • 分散の意味と同じですが、Scaleの違いがあります.
  • 標準偏差は分散平方根である.
  • 分散については平方の和であるため値が大きくなるため,値の大きさに根を加えて小さくするのが標準偏差であり,意味は分散と同じであると考えられる.
  • 本のディレクトリは、既存のデータと同一のスケール(scale)であるため、分散よりも
  • の解釈が容易である.
  • は実際には式の複雑な標準偏差がより好きであり、平均絶対偏差よりも数学的観点で二乗する値が絶対値で計算した値よりも統計モデルを処理しやすい傾向にある.
  • (超差、標準偏差、平均絶対偏差はいずれもOutlier(特益値、極端値)に分割されない.ここで,分散と標準偏差は二乗偏差を用いて計算されるため,特益値に敏感である.

    📈 中位絶対偏差(MAD)

  • の中間値からずれた割引中値(abs(観測値-中央値)
  • 偏差値が末尾極値(極端値)の影響が小さい場合、平均偏差ではなく中心値の絶対偏差が使用されます.(中心値は末尾値の影響で平均値より小さいため).
  • # statsmodels Download
    !pip install statsmodels
    
    # import
    from statsmodels import robust
    
    # make DataFrame
    state = pd.DataFrame({'State':['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California', 'Colorado', 'Connecticut', 'Delaware'],
                  'Population':[4779736, 710231, 6392017, 2915918, 37253956, 5029196, 3574097, 897934],
                  'Murder': [5.7, 5.6, 4.7, 5.6, 4.4, 2.8, 2.4, 5.8],
                  'Abbreviation':['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE']})
    
    # MAD구하기
    robust.scale.mad(state['Population'])
    
    >>>
    2576836.044572552
    
    # 실제로 해당데이터의 표준편차는 12105745.29585633 으로 MAD가 훨씬 robust한 결과를 얻는것을 알 수 있다.

    📈 範囲

  • データのピークとピークの差
  • 📈 四分位範囲(IQR)

  • 変異を測定する最も代表的な方法の4分の1の範囲は、25パーセントと75パーセントの違いを見ることである.
  • の75パーセントと25パーセントの差を指します.
  • # make DataFrame
    state = pd.DataFrame({'State':['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California', 'Colorado', 'Connecticut', 'Delaware'],
                  'Population':[4779736, 710231, 6392017, 2915918, 37253956, 5029196, 3574097, 897934],
                  'Murder': [5.7, 5.6, 4.7, 5.6, 4.4, 2.8, 2.4, 5.8],
                  'Abbreviation':['AL', 'AK', 'AZ', 'AR', 'CA', 'CO', 'CT', 'DE']})
                  
    state['Population'].quantile(0.75) - state['Population'].quantile(0.25)
    >>>
    2958479.25
    

    📈 じゅんじとうけいりょう

  • 最小から最大に並べ替えるデータ値に基づいて
  • を計量する.

    変異を測定する方法

  • 変異を測定する最も代表的な方法は、四分範囲(IQR)、25番目のパーセンテージ、75番目のパーセンテージの違いを見ることである.
  • 両端の固定値を消去して表示するため、異常値の影響は小さい.
  • Pythonで
  • IQRを使用する場合、IQR()関数を使用できます.
  • または.quantile(0.75) - .分割数(0.25)で計算することもできます.
  • (定理:分散と標準偏差は変異測定でよく用いられる方法または群外値に敏感な欠点であるため、平均絶対偏差と中間値の中位数絶対偏差を中間値とパーセンテージから求めるとより安定である.)