A/B テスト

2 つのバリエーションをユーザーにランダムに提示し、どちらがより良い成果を出すかをデータで検証する手法

テスト開発プラクティス

A/B テストとは

A/B テストは、Web ページやアプリの 2 つのバリエーション (A: 現行版、B: 変更版) をユーザーにランダムに提示し、コンバージョン率やクリック率などの指標でどちらが優れているかをデータで検証する手法である。「仮説を立て、実験で検証する」科学的なアプローチでプロダクトの意思決定を行う。

2000 年代初頭に Google が検索結果の表示色を 41 種類テストした逸話は有名だ。Amazon、Netflix、Booking.com などのテック企業は年間数千件の A/B テストを実施しており、データ駆動の意思決定文化の中核を担っている。

A/B テストの流れ

  1. 仮説を立てる: 「ボタンの色を緑から青に変えると、クリック率が 5% 上がる」(効果の大きさも仮説に含める)
  2. サンプルサイズを事前計算する: 検出したい効果の大きさ、有意水準、検出力から必要なサンプル数を算出する
  3. バリエーションを作成する: A (緑ボタン) と B (青ボタン)
  4. ユーザーをランダムに分割する: 50% が A、50% が B を見る
  5. データを収集する: 事前に計算したサンプルサイズに達するまで実験を継続する
  6. 統計的に分析する: p 値や信頼区間で、差が統計的に有意かどうかを判断する
  7. 結果に基づいて意思決定する: 有意な差があれば勝者を全ユーザーに適用、なければ現行版を維持

統計的有意性とサンプルサイズ

A/B テストの結果が「偶然ではない」ことを保証するために、統計的有意性の検定が必要だ。

パラメータ 意味 一般的な値
有意水準 (α) 偽陽性の許容率 0.05 (5%)
検出力 (1-β) 真の差を検出できる確率 0.80 (80%)
最小検出可能効果 (MDE) 検出したい最小の差 相対 5% など

例: 現在のコンバージョン率が 3% で、5% の相対的改善 (3.0% → 3.15%) を検出したい場合、各群に約 34 万人のサンプルが必要になる。日間トラフィックが 1 万人なら、実験に約 68 日かかる計算だ。

効果が小さいほど、必要なサンプルサイズは急激に増加する。「0.1% の改善を検出したい」は現実的ではない場合が多い。

A/B テストと多変量テストの違い

手法 変更する要素 必要なサンプル 分析の複雑さ
A/B テスト 1 つ 少ない シンプル
A/B/n テスト 1 つ (3 つ以上のバリエーション) 中程度 多重比較の補正が必要
多変量テスト (MVT) 複数の要素の組み合わせ 非常に多い 交互作用の分析が必要

多変量テストは「ボタンの色 × テキスト × 配置」のように複数要素を同時にテストできるが、組み合わせ数が爆発するため、大量のトラフィックが必要だ。

フィーチャーフラグとの連携

A/B テストの実装にはフィーチャーフラグが不可欠だ。フラグでユーザーを振り分け、バリエーションを出し分ける。

// フィーチャーフラグで A/B テストを実装
const variant = featureFlags.getVariant('checkout-button-color', userId);

if (variant === 'blue') {
  renderBlueButton();
} else {
  renderGreenButton(); // コントロール群
}

実験完了後は、フラグを削除して勝者のバリエーションをデフォルトにする。フラグの削除を忘れると技術的負債になる。

よくある落とし穴

  • ピーキング問題: 実験途中で結果を見て「もう有意差が出た」と早期に判断すると、偽陽性のリスクが高まる。事前に決めたサンプルサイズに達するまで結論を出さない
  • 複数指標の同時検定: 「クリック率」「滞在時間」「コンバージョン率」を同時に検定すると、偶然どれかが有意になる確率が上がる (多重比較問題)。主要指標を 1 つに絞るか、Bonferroni 補正を適用する
  • セグメント後付け分析: 全体では有意差がなかったのに「モバイルユーザーだけ見ると有意差がある」と後付けで分析するのは危険。セグメント分析は事前に計画する
  • 新奇性効果: 変更直後はユーザーが新しいデザインに反応して指標が上がるが、慣れると元に戻る。最低 2 週間は実験を継続して新奇性効果を排除する
  • サンプル汚染: 同じユーザーが A と B の両方を見てしまう (Cookie 削除、複数デバイス)。ユーザー ID ベースの振り分けで対策する

「Trustworthy Online Controlled Experiments」(Ron Kohavi ら著) が A/B テストの決定版であり、Microsoft での大規模実験の知見が体系化されている。

より深く学ぶには関連書籍が役立つ。

関連用語