BigQuery上でABテスト結果の検定(母比率の差の検定)を行なう


概要とモチベーション

ユーザーを2つ以上の群に分け、それぞれの群に施策を行なって反応の違いを見るABテストでは、得られた結果を統計検定にかけて、それぞれの群の反応が統計的に有意に異なっていたかを確かめる事が重要です。

引用:UnityAnalyticsABTestingの統計検定結果画面( significant=yes なら統計的有意差有り)

https://docs.unity3d.com/ja/2020.1/Manual/UnityAnalyticsABTesting.html

ABテストのうち、コンバージョンしたかしていないかをテストの対象とする場合、以下のような表に対して「母比率の差の検定」を実施することになります。

CVした CVしてない
control群(統制群) 300 2000
treatment群(介入群)1 380 2200
treatment群(介入群)2 450 1800

↑のような表をBigQueryで出した後、これまでは母比率の差の検定ができるツール上に数値を入力して有意差があるかどうかを検証していましたが、BigQuery内で検定させることができると便利なので実際にやってみます。

ユーザー定義関数(UDF)の実装

BigQueryでは任意のJavascript関数をUDFとして定義できます。

母比率の差の検定を行なうJavascript実装は世の中にいくつか存在するので、今回は https://github.com/thumbtack/abba を使って、母比率の差の検定を行なうBigQuery UDFを実装しようと思います。

UDFのドキュメントに従い、必要なjsライブラリをGCS bucketに置いた上で、以下のようにUDFを定義します。

CREATE OR REPLACE FUNCTION `util.abba_test`(
  baseSuccess FLOAT64,
  baseTotal FLOAT64,
  variationSuccess FLOAT64,
  variationTotal FLOAT64,
  numOfGroups FLOAT64
) 
RETURNS STRUCT<
  pValue FLOAT64, 
  proportion FLOAT64,
  lowerBound FLOAT64,
  upperBound FLOAT64,
  relativeLowerBound FLOAT64,
  relativeUpperBound FLOAT64
  >
DETERMINISTIC
LANGUAGE js
OPTIONS (
  library=[
    "gs://udf-bucket/path/to/jstat.min.js",
    "gs://udf-bucket/path/to/stats.js"
  ])
AS """
  const ALPHA = 0.05  // 有意水準は5%とする
  const experiment = new Abba.Experiment(numOfGroups-1, baseSuccess, baseTotal, ALPHA, jStat)
  const result = experiment.getResults(variationSuccess, variationTotal)

  return {
    "pValue": result.pValue,
    "proportion": result.proportion.value,
    "lowerBound": result.proportion.lowerBound,
    "upperBound": result.proportion.upperBound,
    "relativeLowerBound": result.relativeImprovement.lowerBound,
    "relativeUpperBound": result.relativeImprovement.upperBound,
  }
"""

引数と返り値は以下のとおりです。


# 引数:
  - baseSuccess: 基準となる母集団の成功人数
  - baseTotal: 基準となる母集団の人数
  - variationSuccess: 比較する母集団の成功人数
  - variationTotal: 比較する母集団の人数
  - numOfGroups: 母集団の数。2集団の比較のときは2 (Bonferroni調整に使用する)
# 返り値:
  - 以下の要素を含んだ構造体
    - pValue: p値
    - proportion: 母集団から推定される成功者の割合
    - lowerBound: 母集団から推定される成功者の割合の、信頼区間の下限
    - upperBound: 母集団から推定される成功者の割合の、信頼区間の上限
    - relativeLowerBound: 基準となる母集団からの、比較する母集団の改善率の下限
    - relativeUpperBound: 基準となる母集団からの、比較する母集団の改善率の上限

スクリーンショット:

UDFの利用

冒頭で示したABCテスト結果に対して検定を行なうには、以下のようなクエリを叩きます。

WITH data AS (
SELECT 'control' _label, 300 success, 2000 total
UNION ALL
SELECT 'treatment1' _label, 380 success, 2200 total
UNION ALL
SELECT 'treatment2' _label, 450 success, 1800 total
)

SELECT 
  _label, 
  success, 
  total,
  util.abba_test(
    first_value(success) over (order by _label = 'control' desc), -- control群のCV数
    first_value(total) over (order by _label = 'control' desc),  -- control群の人数
    success,
    total,
    count(1) over() -- 群の数(今回はABCテストなので3)
  ).*,
FROM data
GROUP BY 1,2,3
ORDER BY 1

↓小数が見づらいのでフォーマット

_label success total pValue proportion lowerBound upperBound relativeLowerBound relativeUpperBound
control 300 2000 1.000 0.150 0.133 0.169 -0.168 0.168
treatment1 380 2200 0.083 0.173 0.155 0.192 -0.019 0.318
treatment2 450 1800 0.000 0.250 0.228 0.274 0.469 0.854

このABCテストにおいては、

  • control群のCV率は15.0%(95%信頼区間13.3%〜16.9%)
  • treatment1群のCV率は17.3%(95%信頼区間は15.5%〜19.2%)で、control群と比べて有意差がなく(p値=0.083>0.05)、改善率は-1.9%〜+31.8%
  • treatment2群のCV率は25.0%(95%信頼区間は22.8%〜27.4%)で、control群と比べて有意差が有り(p値<0.0001)、改善率は+46.9%〜+85.4%

と言ったことが検定からわかりました。

まとめ

UDF上でABテストでの検定(母比率の差の検定)を実装することで、これまで人力でツールにコピペして実施していたABテストの統計検定をBigQueryのみで実施することができるようになりました。
Lookerダッシュボード等各種BIツールと組み合わせると、人力で計算する部分のない強力なダッシュボードができそうです。

備考

統計検定手法の詳細について

https://github.com/thumbtack/abba では母比率の差の検定の内部で使う信頼区間に"Agresti-Coull信頼区間"を採用し、多群ABテスト(すなわちABCテスト)時には"Bonferroni調整"によって有意水準の調整を行なっています。

詳細を知りたい方は、以下の参考文献を参照してください。 私もあんまり細かい部分までちゃんと説明できる自信ないです

ライセンス表記

abba

Copyright (c) 2014 Thumbtack
BSD 3-Clause "New" or "Revised" License

jStat

Copyright (c) 2013 jStat
MIT License