A/Bテストのいい文章

1807 ワード

  • A/Bテストはp-valueの影響を受けません
    p-value<0.05の意味
    貴無仮定:2つの分布の間に差はありません.
    したがって,差分=0であるため,平均0の正規分布を描く.
    (実験データを用いて分布を推定した.)

    (詳細な例を参照:https://zzaebok.github.io/ab_test/ab-testing/
    一言で分散を計算でき、pで計算できる.
    Aは109925点の間で14517回変換された.
    Bは110402ポイント間で14291回切り替えた.
    P A=14517/109925,P B=14291/110402.
    このpを用いて分散を計算することができる.具体的には、AとBの差の値の分布を計算して利用することもできる.)
  • 後で面白いケースが出てきます.貴無仮説の両者の間には違いはない.は、p-value 0.05以上の値、上限内の値が表示されます.
    しかし、時間が経つにつれて、サンプルの数はますます多くなり、統計的特性上の信頼区間の上限も低下し、p-valueは0.05未満になるだろう.
    これを「効果の大きさを無視した意識的検査」という.
    실험 크기를 증가시키면 아주 작은 효과 크기에 대해서도 유의성을 확보할 수 있다. 
    즉, 없는데 있다고 판단할 오류를 배제할 수 있다. 
    하지만 아주 작은 효과 밖에 없다면, 
    과연 그 효과가 ‘없는데 있다고 판단할 오류’를 범하지 않기 위해 애쓸 필요가 있을까? 
    그 정도 차이는 있어도 소용 없으니 차라리 다른 실험을 준비하는 편이 낫다.
    
    이 문제를 친구와의 키재기 내기로 비유하면 이렇다. 
    내 옆의 친구와 나의 키가 아주 비슷한데 내 생각에는 내가 확실히 더 큰 것 같다. 
    이를 증명하고자 1 마이크로 미터까지 계측이 가능한 자를 가져와서 나와 내 친구의 키를 측정한다. 
    결론적으로 10 마이크로 미터 만큼 내 키가 더 크다. 
    친구를 이겨서 기분은 좋을지 모르지만 시간 낭비하기에 참 좋은 일이다.
    
    애초에 어떤 비교에서든 차이가 0일 가능성은 거의 없다. 
    얼마나 의미있는 계측 단위에서 차이가 있는지 없는지 구분하는 것이 중요하다.
    https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html
  • 信頼区間に基づくAB試験結果比較
  • 信頼区間が重ならなければ、2つの組合せの間に항상の異なる点がある.
  • 信頼区間が重なると、2つのグループの間に有意な差がない可能性がある.

    https://boxnwhis.kr/2016/03/14/overlapping_ci_in_abtest.html