A/B テスト

A/B テストとは

A/B テストは、Web ページやアプリの 2 つのバリエーション (A: 現行版、B: 変更版) をユーザーにランダムに提示し、コンバージョン率やクリック率などの指標でどちらが優れているかをデータで検証する手法である。「仮説を立て、実験で検証する」科学的なアプローチでプロダクトの意思決定を行う。

2000 年代初頭に Google が検索結果の表示色を 41 種類テストした逸話は有名だ。Amazon、Netflix、Booking.com などのテック企業は年間数千件の A/B テストを実施しており、データ駆動の意思決定文化の中核を担っている。

A/B テストの流れ

仮説を立てる: 「ボタンの色を緑から青に変えると、クリック率が 5% 上がる」(効果の大きさも仮説に含める)
サンプルサイズを事前計算する: 検出したい効果の大きさ、有意水準、検出力から必要なサンプル数を算出する
バリエーションを作成する: A (緑ボタン) と B (青ボタン)
ユーザーをランダムに分割する: 50% が A、50% が B を見る
データを収集する: 事前に計算したサンプルサイズに達するまで実験を継続する
統計的に分析する: p 値や信頼区間で、差が統計的に有意かどうかを判断する
結果に基づいて意思決定する: 有意な差があれば勝者を全ユーザーに適用、なければ現行版を維持

統計的有意性とサンプルサイズ

A/B テストの結果が「偶然ではない」ことを保証するために、統計的有意性の検定が必要だ。

パラメータ	意味	一般的な値
有意水準 (α)	偽陽性の許容率	0.05 (5%)
検出力 (1-β)	真の差を検出できる確率	0.80 (80%)
最小検出可能効果 (MDE)	検出したい最小の差	相対 5% など

例: 現在のコンバージョン率が 3% で、5% の相対的改善 (3.0% → 3.15%) を検出したい場合、各群に約 34 万人のサンプルが必要になる。日間トラフィックが 1 万人なら、実験に約 68 日かかる計算だ。

効果が小さいほど、必要なサンプルサイズは急激に増加する。「0.1% の改善を検出したい」は現実的ではない場合が多い。

A/B テストと多変量テストの違い

A/B テストと多変量テストの主な違いを以下に整理する。

手法	変更する要素	必要なサンプル	分析の複雑さ
A/B テスト	1 つ	少ない	シンプル
A/B/n テスト	1 つ (3 つ以上のバリエーション)	中程度	多重比較の補正が必要
多変量テスト (MVT)	複数の要素の組み合わせ	非常に多い	交互作用の分析が必要

多変量テストは「ボタンの色 × テキスト × 配置」のように複数要素を同時にテストできるが、組み合わせ数が爆発するため、大量のトラフィックが必要だ。

フィーチャーフラグとの連携

A/B テストの実装にはフィーチャーフラグが不可欠だ。フラグでユーザーを振り分け、バリエーションを出し分ける。

// フィーチャーフラグで A/B テストを実装
const variant = featureFlags.getVariant('checkout-button-color', userId);

if (variant === 'blue') {
  renderBlueButton();
} else {
  renderGreenButton(); // コントロール群
}

実験完了後は、フラグを削除して勝者のバリエーションをデフォルトにする。フラグの削除を忘れると技術的負債になる。

よくある落とし穴

ピーキング問題: 実験途中で結果を見て「もう有意差が出た」と早期に判断すると、偽陽性のリスクが高まる。事前に決めたサンプルサイズに達するまで結論を出さない
複数指標の同時検定: 「クリック率」「滞在時間」「コンバージョン率」を同時に検定すると、偶然どれかが有意になる確率が上がる (多重比較問題)。主要指標を 1 つに絞るか、Bonferroni 補正を適用する
セグメント後付け分析: 全体では有意差がなかったのに「モバイルユーザーだけ見ると有意差がある」と後付けで分析するのは危険。セグメント分析は事前に計画する
新奇性効果: 変更直後はユーザーが新しいデザインに反応して指標が上がるが、慣れると元に戻る。最低 2 週間は実験を継続して新奇性効果を排除する
サンプル汚染: 同じユーザーが A と B の両方を見てしまう (Cookie 削除、複数デバイス)。ユーザー ID ベースの振り分けで対策する

「Trustworthy Online Controlled Experiments」(Ron Kohavi ら著) が A/B テストの決定版であり、Microsoft での大規模実験の知見が体系化されている。

より深く学ぶには関連書籍が役立つ。

A/B テストとは

A/B テストの流れ

統計的有意性とサンプルサイズ

A/B テストと多変量テストの違い

フィーチャーフラグとの連携

よくある落とし穴

関連用語

フィーチャーフラグ

オブザーバビリティ

アジャイル

カナリアリリース

E2E テスト

スモークテスト

関連する記事

テスト本ガイド - テスト設計を学べる技術書の選び方

写経を超える - 技術書のコードを自分のプロジェクトに応用する方法

本についてくるダウンロード素材を使い倒す