A/B テスト
2 つのバリエーションをユーザーにランダムに提示し、どちらがより良い成果を出すかをデータで検証する手法
A/B テストとは
A/B テストは、Web ページやアプリの 2 つのバリエーション (A: 現行版、B: 変更版) をユーザーにランダムに提示し、コンバージョン率やクリック率などの指標でどちらが優れているかをデータで検証する手法である。「仮説を立て、実験で検証する」科学的なアプローチでプロダクトの意思決定を行う。
2000 年代初頭に Google が検索結果の表示色を 41 種類テストした逸話は有名だ。Amazon、Netflix、Booking.com などのテック企業は年間数千件の A/B テストを実施しており、データ駆動の意思決定文化の中核を担っている。
A/B テストの流れ
- 仮説を立てる: 「ボタンの色を緑から青に変えると、クリック率が 5% 上がる」(効果の大きさも仮説に含める)
- サンプルサイズを事前計算する: 検出したい効果の大きさ、有意水準、検出力から必要なサンプル数を算出する
- バリエーションを作成する: A (緑ボタン) と B (青ボタン)
- ユーザーをランダムに分割する: 50% が A、50% が B を見る
- データを収集する: 事前に計算したサンプルサイズに達するまで実験を継続する
- 統計的に分析する: p 値や信頼区間で、差が統計的に有意かどうかを判断する
- 結果に基づいて意思決定する: 有意な差があれば勝者を全ユーザーに適用、なければ現行版を維持
統計的有意性とサンプルサイズ
A/B テストの結果が「偶然ではない」ことを保証するために、統計的有意性の検定が必要だ。
| パラメータ | 意味 | 一般的な値 |
|---|---|---|
| 有意水準 (α) | 偽陽性の許容率 | 0.05 (5%) |
| 検出力 (1-β) | 真の差を検出できる確率 | 0.80 (80%) |
| 最小検出可能効果 (MDE) | 検出したい最小の差 | 相対 5% など |
例: 現在のコンバージョン率が 3% で、5% の相対的改善 (3.0% → 3.15%) を検出したい場合、各群に約 34 万人のサンプルが必要になる。日間トラフィックが 1 万人なら、実験に約 68 日かかる計算だ。
効果が小さいほど、必要なサンプルサイズは急激に増加する。「0.1% の改善を検出したい」は現実的ではない場合が多い。
A/B テストと多変量テストの違い
| 手法 | 変更する要素 | 必要なサンプル | 分析の複雑さ |
|---|---|---|---|
| A/B テスト | 1 つ | 少ない | シンプル |
| A/B/n テスト | 1 つ (3 つ以上のバリエーション) | 中程度 | 多重比較の補正が必要 |
| 多変量テスト (MVT) | 複数の要素の組み合わせ | 非常に多い | 交互作用の分析が必要 |
多変量テストは「ボタンの色 × テキスト × 配置」のように複数要素を同時にテストできるが、組み合わせ数が爆発するため、大量のトラフィックが必要だ。
フィーチャーフラグとの連携
A/B テストの実装にはフィーチャーフラグが不可欠だ。フラグでユーザーを振り分け、バリエーションを出し分ける。
// フィーチャーフラグで A/B テストを実装
const variant = featureFlags.getVariant('checkout-button-color', userId);
if (variant === 'blue') {
renderBlueButton();
} else {
renderGreenButton(); // コントロール群
}
実験完了後は、フラグを削除して勝者のバリエーションをデフォルトにする。フラグの削除を忘れると技術的負債になる。
よくある落とし穴
- ピーキング問題: 実験途中で結果を見て「もう有意差が出た」と早期に判断すると、偽陽性のリスクが高まる。事前に決めたサンプルサイズに達するまで結論を出さない
- 複数指標の同時検定: 「クリック率」「滞在時間」「コンバージョン率」を同時に検定すると、偶然どれかが有意になる確率が上がる (多重比較問題)。主要指標を 1 つに絞るか、Bonferroni 補正を適用する
- セグメント後付け分析: 全体では有意差がなかったのに「モバイルユーザーだけ見ると有意差がある」と後付けで分析するのは危険。セグメント分析は事前に計画する
- 新奇性効果: 変更直後はユーザーが新しいデザインに反応して指標が上がるが、慣れると元に戻る。最低 2 週間は実験を継続して新奇性効果を排除する
- サンプル汚染: 同じユーザーが A と B の両方を見てしまう (Cookie 削除、複数デバイス)。ユーザー ID ベースの振り分けで対策する
「Trustworthy Online Controlled Experiments」(Ron Kohavi ら著) が A/B テストの決定版であり、Microsoft での大規模実験の知見が体系化されている。
より深く学ぶには関連書籍が役立つ。