[データ科学]開発日記-(7)


1月26日(水)
*Wrap Up:
-1.T-testとChi-square testの違いは何ですか?
t−testは試料の平均値を比較し,ケイ氏乗数は試料の分布図を比較した.
t−testは、独立性、正規化、および等分酸性の条件を満たさなければならない.
ケイ氏乗はこれらの条件を満たす必要がなく使用できる非パラメータ法の一つである.ただし、Kaézierは「Category」データをモデリングするため、データを変換する(代表的に.astype()を使用して)必要があります.
-2. Chi-square Test에서 관측값(Observed)과 예측값(Expected)은 각각 어떻게 측정되나요?
T-test使用条件:
1.独立性->ペアリングしない
2.正規性->正規分布であること
-確認方法?Spicy.statsのNomaltestで見ることができます
3. 등분산성 ->분산이 서로 다르지 않기
	- 확인방법? 
Type of Error:
-1. Type 1 Error:
귀무가설이 참이나 기각되는경우
어떤효과가 우연히 발생한 것인데 그것이 사실이라고 잘못 판단하는 경우

-2. Type 2 Error:

귀무가설이 거짓이나 기각되지 않는경우
어떤효과가 실제로 있는 것인데 그건 우연히 발생한 것이라고 잘못 판단하는 경우
표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는 경우
Non-Parametric Methods
:募集団が特定の確率分布(例えば正規分布)に従うことを前提としない方法.
-1.分類データのモデリング
-2、極端に群れから離れた場合に非常に有用な方法
*대표적인 방식으로는 Chisquare , Spearman correlation, Run test, Kolmogorov Smirnov, Mann-Whitney U , Wilcoxon, Kruskal-Wallis 등이 있다.
平方の値を求めて標準化の値を必要とします(ex.x^2=0.3125に100を乗じて、x^2=31.25)
この統計値をP-valueに変えるにはここでstatschi2.cdf()関数を使用します.

タイタニック号のデータで簡単なカイジブラックを作ろう。



タイタニック号の性別によって、生存に違いはありますか?
まず、生存者と性別の関係表を作成します.

貴無仮説:生存者や性別とは関係ない.
対立仮説:生存者と性別と関係がある.

p-value=1.19 e-58で0.05をはるかに下回った.つまり、生存者は性別と関係がある.△貴務仮説は却下され、対立仮説が採択される確率が高い.
もう一つ調べましょう.
まず、生存者とクラスとの関係テーブルを作成します.

貴無仮説:生存者や等級(座席)とは関係ない.
対立仮定:生存者と等級(座席)と関係がある.

p-value=4.54 e-23で、0.05をはるかに下回っています.つまり、生存者は等級(座席)と関係があるということです.△貴務仮説は却下され、対立仮説が採択される確率が高い.