正在啟動 Python 環境(首次約 15 秒)...
常見統計陷阱
你已經學會算樣本數和 p-value,但 A/B 測試有很多「看起來對但其實錯」的操作。這些陷阱即使是有經驗的分析師也會踩到。
陷阱一:偷看數據(Peeking Problem)
最常見的錯誤。測試才跑第二天,你忍不住打開後台一看:「哇,B 版轉換率高 50%,p-value 只有 0.01!趕快全面上線!」
為什麼這是錯的?
正確做法: 事先決定樣本數,跑滿再看結果。或使用「Sequential Testing」方法。
陷阱二:多重比較(Multiple Comparisons)
你同時測試了 5 個版本(A/B/C/D/E),然後挑出「最好的那個」跟 A 比。
正確做法: 使用 Bonferroni 校正(把 α 除以比較次數),或一次只測一個版本。
陷阱三:辛普森悖論(Simpson's Paradox)
整體看 B 版贏,但拆開看每個族群都是 A 版贏。
正確做法: 確保 A/B 分流是真正隨機的,並且按重要維度(裝置、新舊客)拆開看結果。
陷阱整理
| 陷阱 | 怎麼犯的 | 怎麼避免 |
|---|---|---|
| 偷看數據 | 沒跑滿就下結論 | 事先算好樣本數,跑滿再看 |
| 多重比較 | 同時測 5 個版本 | 一次一個,或用 Bonferroni 校正 |
| 辛普森悖論 | 只看整體不拆分 | 按裝置/族群/管道拆開檢查 |
| 外部干擾 | 測試期間剛好大促 | 避開大型活動期間做測試 |
| 效果衰減 | 新鮮感過後效果消失 | 測試跑久一點,觀察趨勢 |
AI 協作:學了這個,跟 AI 怎麼配合?
識別統計陷阱需要經驗和對業務脈絡的理解,但 AI 可以幫你做技術檢查。
你的人類優勢:
- 你知道測試期間有沒有發生特殊事件(大促、系統異常)
- 你能判斷分流是否合理(技術團隊怎麼實作的)
可以這樣跟 AI 說:
我的 A/B 測試同時跑了 A/B/C 三個版本各 2000 人。B 的 p-value 是 0.04,C 是 0.03。考慮多重比較的問題,這些結果還可信嗎?幫我做 Bonferroni 校正。
小練習
互動示範
DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
挑戰任務
Task 1
寫一個 Bonferroni 校正的函式:輸入原始 p-value 和比較次數,回傳校正後的顯著性門檻。用 alpha=0.05、比較次數=4 測試,印出校正後的門檻值。
Task 2
模擬辛普森悖論:手機用戶 A 組 600 人轉換 18 人、B 組 400 人轉換 10 人;桌機用戶 A 組 400 人轉換 40 人、B 組 600 人轉換 54 人。分別印出整體和各族群的轉換率,說明哪邊贏。
← BackNext Lesson →