Z検定とカイ二乗検定、どちらを使うべき？

2群の比率比較ではどちらでも理論的にはほぼ同じ結果になります(Z² ≈ χ²)。本ツールはZ検定で実装していますが、3群以上の比較ならカイ二乗検定を選ぶべきです。

サンプル数が少ない (各群30件未満) 場合は？

Z検定の前提である正規近似が成立しないため、Fisher の正確確率検定を使うことが推奨されます。本ツールはZ検定のみ対応しているため、結果は参考程度にしてください。

片側検定はできますか？

現在は両側検定のみ対応しています。「Bが必ずAより良い」と事前に仮説が立てられる場合は片側検定の方が検出力が上がりますが、実務では両側検定が標準的に使われます。

結果がブレるのですがなぜ？

サンプル数が小さいうちは結果が不安定です。最低でも各群1000人以上、CV数で各群30件以上を集めてから判断してください。少ないデータでの「有意」は偽陽性のリスクが高くなります。

ビジネス・仕事効率化

A/Bテスト有意差検定ツール

2群のCVRをZ検定で有意差判定。p値・Zスコア・相対改善率・信頼水準を瞬時に算出。LP/広告改善に。

パターン A

訪問者数

CV数

パターン B

訪問者数

CV数

このツールについて問い合わせる →

A/Bテスト有意差検定ツールについて

A/Bテストの有意差検定とは？

WebサイトのLP(ランディングページ)、ボタンの色、メールの件名、広告クリエイティブなどを2パターン用意して比較するA/Bテストでは、「結果の差が偶然なのか、本当に有効な改善なのか」を統計的に判断する必要があります。本ツールは2標本比率のZ検定を使って、その差が95%信頼区間で有意かどうかを瞬時に判定します。

計算式 — 2標本比率の Z検定

p_A = CV_A / 訪問者_A
p_B = CV_B / 訪問者_B
p_pool = (CV_A + CV_B) / (訪問者_A + 訪問者_B)
SE = √(p_pool × (1 − p_pool) × (1/n_A + 1/n_B))
Z = (p_B − p_A) / SE
p_value = 2 × (1 − Φ(|Z|)) ※両側検定

p_value (有意確率) が 0.05 未満なら「統計的に有意な差がある (95%信頼)」、0.01 未満なら「99%信頼で有意」と判断します。

結果の読み方

p < 0.05: 統計的有意。差が偶然である確率は5%未満。本番採用してOK
0.05 ≤ p < 0.10: 有意傾向。サンプル数を増やして再検証推奨
p ≥ 0.10: 有意差なし。施策効果なし or サンプル不足
相対改善率: 「BはAより◯%改善」の指標。経営報告に使う
絶対差(pt): 「3.5pt → 5.0pt = +1.5pt」のような実数差

A/Bテストの落とし穴

覗き見問題 (Peeking): テスト中に途中経過を何度も見て「有意になった瞬間に止める」のはNG。事前にサンプル数を決めて完了するまで待つ
多重比較: 同時に5パターン以上比較する場合、ボンフェローニ補正等が必要
サンプル数不足: 一般的に各群1000〜5000訪問者は欲しい。CVR1%程度の場合、より多く必要
季節要因: 同じ期間に並行して走らせる(時系列に分けない)ことが原則
SRM (Sample Ratio Mismatch): 振り分け比率が大きくズレていたらツール側のバグの可能性

必要なサンプル数の目安

現在のCVRと検出したい最小改善率から、必要なサンプル数を概算できます。一般的な目安は次の通りです(α=0.05, β=0.20)。

現在CVR	+10%改善	+20%改善	+50%改善
1%	~155,000	~38,000	~6,000
5%	~30,000	~7,500	~1,200
10%	~14,000	~3,500	~600

※ 各群あたりの必要サンプル数。CVRが低い・改善幅が小さいほど多くのサンプルが必要です。

よくある質問

Q. Z検定とカイ二乗検定、どちらを使うべき？: 2群の比率比較ではどちらでも理論的にはほぼ同じ結果になります(Z² ≈ χ²)。本ツールはZ検定で実装していますが、3群以上の比較ならカイ二乗検定を選ぶべきです。
Q. サンプル数が少ない (各群30件未満) 場合は？: Z検定の前提である正規近似が成立しないため、Fisher の正確確率検定を使うことが推奨されます。本ツールはZ検定のみ対応しているため、結果は参考程度にしてください。
Q. 片側検定はできますか？: 現在は両側検定のみ対応しています。「Bが必ずAより良い」と事前に仮説が立てられる場合は片側検定の方が検出力が上がりますが、実務では両側検定が標準的に使われます。
Q. 結果がブレるのですがなぜ？: サンプル数が小さいうちは結果が不安定です。最低でも各群1000人以上、CV数で各群30件以上を集めてから判断してください。少ないデータでの「有意」は偽陽性のリスクが高くなります。

出典・参考文献

NIST/SEMATECH e-Handbook of Statistical Methods, "Two-Sample Test for Equal Proportions"
Sheskin DJ. "Handbook of Parametric and Nonparametric Statistical Procedures." 5th ed. Chapman & Hall/CRC, 2011.
Kohavi R, Tang D, Xu Y. "Trustworthy Online Controlled Experiments." Cambridge University Press, 2020.

ROI と ROAS の使い分け — 「ROAS 300%」が本当に黒字か、数式で読み解く

広告運用やマーケティングで頻出する ROI と ROAS。どちらも「費用対効果」を示しますが、計算式と意味が大きく違います。利益ベース vs 売上ベース、原価・税の扱い、LTV/CAC との関係を一次資料で整理し、実務での判断基準を示します。

A/Bテストの p値と有意差 — 「統計的に有意」が実は罠である5つのケース

A/Bテストの結果判定で使われるp値。p < 0.05 なら「有意差あり」と言いがちですが、Fisher と Neyman-Pearson の原典に立ち返ると、この慣習的な閾値と解釈には複数の落とし穴があります。サンプルサイズ設計・多重比較・早期停止問題を整理します。