常見統計陷阱

你已經學會算樣本數和 p-value，但 A/B 測試有很多「看起來對但其實錯」的操作。這些陷阱即使是有經驗的分析師也會踩到。

陷阱一：偷看數據（Peeking Problem）

最常見的錯誤。測試才跑第二天，你忍不住打開後台一看：「哇，B 版轉換率高 50%，p-value 只有 0.01！趕快全面上線！」

為什麼這是錯的？

正確做法： 事先決定樣本數，跑滿再看結果。或使用「Sequential Testing」方法。

你同時測試了 5 個版本（A/B/C/D/E），然後挑出「最好的那個」跟 A 比。

正確做法： 使用 Bonferroni 校正（把 α 除以比較次數），或一次只測一個版本。

整體看 B 版贏，但拆開看每個族群都是 A 版贏。

正確做法： 確保 A/B 分流是真正隨機的，並且按重要維度（裝置、新舊客）拆開看結果。

識別統計陷阱需要經驗和對業務脈絡的理解，但 AI 可以幫你做技術檢查。

你的人類優勢：

可以這樣跟 AI 說：

我的 A/B 測試同時跑了 A/B/C 三個版本各 2000 人。B 的 p-value 是 0.04，C 是 0.03。考慮多重比較的問題，這些結果還可信嗎？幫我做 Bonferroni 校正。

DEMO 1可以修改程式碼試玩

DEMO 2可以修改程式碼試玩

DEMO 3可以修改程式碼試玩

Task 1

寫一個 Bonferroni 校正的函式：輸入原始 p-value 和比較次數，回傳校正後的顯著性門檻。用 alpha=0.05、比較次數=4 測試，印出校正後的門檻值。

Task 2

模擬辛普森悖論：手機用戶 A 組 600 人轉換 18 人、B 組 400 人轉換 10 人；桌機用戶 A 組 400 人轉換 40 人、B 組 600 人轉換 54 人。分別印出整體和各族群的轉換率，說明哪邊贏。

← BackNext Lesson →