統計検定2級覚え書き(前半)


統計検定2級の勉強のための覚え書き。ノートにまとめておくより記事にしといたほうが見返しやすいので。

分類は統計検定2級の出題範囲表に沿う。

統計検定2級について

問題数:35問程度
試験時間:90分
合格水準:100点満点で70 点以上、難易度を考慮して調整されることがある。

テキスト

  • 2018, 2019年の問題
    (2021年5月現在、公式サイトよりDL可能)
  • 統計WEB/統計学の時間
    実質的な教科書その1。
  • 東京大学教養学部統計学教室偏, 統計学入門, 東京大学出版会, 1991, 307p
    実質的な教科書その2。3000円くらい。

この記事の作図に使ったもの

1. データソース

1-1.身近な統計

2. データの分布

2-1. データの分布の記述

度数分布表

【過去問】
2019年6月の問1
2018年6月の問1

ヒストグラム

【過去問】
2019年11月の問2[3]

3. 1変数データ

3-1. 中心傾向の指標

平均値、中央値、再頻値の違いを覚えておく。

3-2. 散らばりなどの指標

箱ひげ図

【過去問】
2019年11月の問1
2018年6月の問1

ローレンツ曲線とジニ係数

ローレンツ曲線:累積相対度数の組で描いた曲線。
ジニ係数:完全平等線とローレンツ曲線で囲まれた領域の面積を2倍したもの。大きいほど不平等(格差が大きい)。

(ジニ係数)=2×(オレンジ色の面積)。
オレンジ色の面積は底辺1高さ1の三角形から青色の面積を引いて求める。

【過去問】
2018年6月の問3

歪度

正負がどの分布形を表しているかを覚える。

  • 歪度(skewness):分布の非対称性の大きさを表す指標。
  • 歪度=0:左右対称
  • 歪度>0:右裾が長い or 左に偏った
  • 歪度<0:左裾が長い or 右に偏った

【過去問】
2021年6月の問1
2019年11月の問11

尖度

正負がどの分布形を表しているかを覚える。

  • 尖度(kurtosis):分布の尖り具合もしくは裾の広がり具合を表す指標。
  • 尖度=0:正規分布
  • 尖度>0:正規分布よりとがっている
  • 尖度<0:正規分布より丸く鈍い

t分布は自由度が増えるほど正規分布に近づくので、尖度も0に近づく。

(正規分布の尖度を0ではなく3とする流儀もある)

【過去問】
2018年11月の問11

3-3. 中心と散らばりの活用

標準偏差

元のデータを定数倍すると標準偏差は定数倍になる。

もっと詳しく

【過去問】
2019年6月の問3[2]

標準化(z得点)

平均$\bar{x}$、標準偏差$S$のときの標準化得点$z_i$は

z_i=\frac{x_i-\bar{x}}{S}

である。$x_i$から$z_i$への変換を標準化(z変換)という。平均0、分散1になって扱いやすくなる。

もっと詳しく

【過去問】
2019年6月の問3[1]

変動係数

平均$\bar{x}$、標準偏差$S$の変動係数$C.V.$は下式で表される。

C.V.= \frac{S}{\bar{x}}

もっと詳しく

【過去問】
2019年6月の問2[3]

#4. 2変数以上のデータ
##4-1. 散布図と相関

不偏分散

s_x^2=\frac{\sum^n_{i=1}(x_i-\bar{x})}{n-1}\\
s_y^2=\frac{\sum^n_{i=1}(y_i-\bar{y})}{n-1}

(不偏)共分散

$x$と$y$の共分散$s_{xy}$

s_{xy}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n-1}=\frac{(\sum_{i=1}^n x_i y_i)-\bar{x}\bar{y}}{n-1}

相関係数

相関係数は2変数間の直線的な関係の強さを示す。相関係数の絶対値が大きいほど関係性が強い。ただし、散布図上で直線に乗っていない場合は相関係数が大きくても関係性が強いとはいえない。

r=\frac{s_{xy}}{s_x s_y}=\frac{\sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum^n_{i=1}(x_i-\bar{x})^2}\sqrt{\sum^n_{i=1}(y_i-\bar{y})^2}}

もっと詳しく

【過去問】
2021年6月の問6
2018年11月の問2
2018年6月の問2

見かけ上の相関(擬相関)

直接の因果関係がない変数A,Bについて相関が見られること。裏に隠れた変数が存在する。

偏相関係数

偏相関係数とは第3の因子の影響を除いた相関係数のこと。残差をとってもとめたりする。

【過去問】
2019年6月の問4
2018年6月の問2[3]

4-2. カテゴリカルデータ

2元クロス表

人数 はい いいえ 合計
属性A 40 10 50
属性B 10 40 50
合計 50 50 100

2元クロス表の相関係数(ファイ係数)

人数 $y_i$=0 $y_i$=1 合計
$x_i$=0 $a$ $b$ $a$+$b$
$x_i$=1 $c$ $d$ $c$+$d$
合計 $a$+$c$ $b$+$d$ $n$

行要素と列要素の相関係数$r$は下式から求められる。ファイ係数と呼ばれる。

r=\frac{ad-bc}{\sqrt{a+b}\sqrt{c+d}\sqrt{a+c}\sqrt{b+d}}

4-1の式で計算するよりちょっと楽。

【過去問】
2021年6月の問8

5. データの活用

5-1. 単回帰と予測

回帰係数とt値

(t値)=\frac{(回帰係数)}{(標準偏差)}

【過去問】
2017年11月の問2

決定係数

相関係数の二乗。

5-2. 時系列データの処理

変化率(成長率)

基準年の指数の比較年の指数からの変化率

(基準年の指数)=(比較年の指数)×(1+変化率$r$)

【過去問】
2021年6月の問2
2021年6月の問4
2019年11月の問3
2018年11月の問3
2018年6月の問4

指数化

下表のようなデータが与えられたとする。

基準年の数量 基準年の価格 比較年の数量 比較年の価格
1 $q_{0,1}$ $p_{0,1}$ $q_{t,1}$ $p_{t,1}$
2 $q_{0,2}$ $p_{0,2}$ $q_{t,2}$ $p_{t,2}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$N$ $q_{0,N}$ $p_{0,N}$ $q_{t,N}$ $p_{t,N}$
ラスバイレス価格指数

基準年の価格と比較年の価格をそれぞれ基準年の数量で重み付けして平均を求め、比をとるイメージ。消費者物価指数はラズパイレス指数の代表例。

P_L=\frac{\sum_{i=1}^N q_{0,i} p_{t,i}}{\sum_{i=1}^N q_{0,i} p_{0,i} } \times 100

比較年の数量は使わないことに気をつける。

パーシェ指数
P_P=\frac{\sum_{i=1}^N q_{t,i} p_{t,i}}{\sum_{i=1}^N q_{t,i} p_{0,i} } \times 100

ラスバイレス指数とは逆に、基準年の数量を使わない。

フィッシャー指数
P_F=\sqrt{P_L \times P_P}

もっと詳しく

【過去問】
2021年6月の問3
2018年11月の問4
2017年11月の問4

コレログラム

【過去問】
2019年11月の問5
2017年11月の問3

トレンド

傾向変動:長期的にわたる持続的な変化。
循環変動:周期変動のうち周期が一定ではないが周期的に繰り返される変動。
季節変動:周期変動のうち1年周期で繰り返される変動。
不規則変動:傾向変動、循環変動、季節変動以外の予測困難な変動。

【過去問】
2019年11月の問4

平滑化(移動平均)

対象となるデータを中心として前後$n$個分の平均を計算する。

もっと詳しく

【過去問】
2018年11月の問3

6. 推測のためのデータ収集法

6-1. 観察研究と実験研究

観察研究:対象に対し、あるがままの状態を観察し、調査すること。被験者自らが処理を選択する。
実験研究(介入研究):対象に対し、何らかの介入による効果を調査すること。実験者が被験対象に処理を割り当てる。

【過去問】
2017年11月の問6

6-2. 標本調査と無作為抽出

標本誤差と非標本誤差

標本誤差:標本調査の標本のとり方による、偶然に生じる誤差
非標本誤差:標本誤差以外の、誤回答や未回答などに起因する誤差

標本誤差の例

  • ある制度の認知度についての標本調査において、標本から得られた認知度と母集団の認知度が一致しないという、母集団の一部しか抽出しないことによる誤差

非標本誤差の例

  • 調査がプライベートな質問項目を含むとき、質問に答えない人や実際とは異なる回答をする人もいることで生じる誤差
  • ある地域におけるインターネット調査において、インターネットを使わない人たちの回答が得られないことで生じる誤差
  • 自動音声による電話調査において、質問の意味がわかりにくかったり、聞き取りにくかったりすることによって不正確な回答を含むことで生じる誤差

【過去問】
2015年11月の問7

標本抽出法

各抽出法の方式と標本の偏りが生まれ得る状況を覚えておく。

単純無作為抽出
対象となる母集団から無作為に選ぶ。実際には、無作為性を担保するのは難しい。
系統抽出
通し番号を振って最初の1つを無作為に選び、そこから一定の周期で選ぶ。通し番号に周期性があると標本が偏る可能性がある。
多段抽出
母集団を(都道府県・市町村・地区のような)段階構造に分け、それぞれの段階で無作為抽出を行う。 標本サイズが小さいと偏りが生まれる可能性がある。
例:全都道府県を母集団として調査するとき、東京都と大阪府だけ抽出すると母集団の分布に対して標本が偏る可能性がある。
クラスター(集落)抽出
母集団をクラスター(集落)に分ける
いくつかのクラスターを無作為抽出する
抽出されたクラスターを全数調査する
層化(層別)抽出
母集団をいくつかの部分集団(層)に分割(層別)し,層ごとに無作為抽出を行う。
一般に各層のサイズと各層から抽出する標本サイズは比例させる(比例配分法)。
例:Aの層には10人、Bの層には1000人が含まれるとき各層から抽出する標本サイズはA:B=1:100にしておかないと推定量が偏ってしまう。
二相抽出(2級の範囲外?)
省略

もっと詳しく

【過去問】
2021年6月の問7
2019年11月の問6
2019年6月の問6
2018年11月の問5
2018年6月の問6
2017年11月の問5

6-3. 実験

フィッシャーの3原則

  1. 繰り返し
  2. 無作為化
  3. 局所管理

もっと詳しく

【過去問】
2019年6月の問5
2018年6月の問5

統計検定2級覚え書き(後半)に続く