跳到主要內容
Cypher's Practical Coding
正在啟動 Python 環境(首次約 15 秒)...

常見統計陷阱

你已經學會算樣本數和 p-value,但 A/B 測試有很多「看起來對但其實錯」的操作。這些陷阱即使是有經驗的分析師也會踩到。

陷阱一:偷看數據(Peeking Problem)

最常見的錯誤。測試才跑第二天,你忍不住打開後台一看:「哇,B 版轉換率高 50%,p-value 只有 0.01!趕快全面上線!」

為什麼這是錯的?

正確做法: 事先決定樣本數,跑滿再看結果。或使用「Sequential Testing」方法。

陷阱二:多重比較(Multiple Comparisons)

你同時測試了 5 個版本(A/B/C/D/E),然後挑出「最好的那個」跟 A 比。

正確做法: 使用 Bonferroni 校正(把 α 除以比較次數),或一次只測一個版本。

陷阱三:辛普森悖論(Simpson's Paradox)

整體看 B 版贏,但拆開看每個族群都是 A 版贏。

正確做法: 確保 A/B 分流是真正隨機的,並且按重要維度(裝置、新舊客)拆開看結果。

陷阱整理

陷阱怎麼犯的怎麼避免
偷看數據沒跑滿就下結論事先算好樣本數,跑滿再看
多重比較同時測 5 個版本一次一個,或用 Bonferroni 校正
辛普森悖論只看整體不拆分按裝置/族群/管道拆開檢查
外部干擾測試期間剛好大促避開大型活動期間做測試
效果衰減新鮮感過後效果消失測試跑久一點,觀察趨勢

AI 協作:學了這個,跟 AI 怎麼配合?

識別統計陷阱需要經驗和對業務脈絡的理解,但 AI 可以幫你做技術檢查。

你的人類優勢:

  • 你知道測試期間有沒有發生特殊事件(大促、系統異常)
  • 你能判斷分流是否合理(技術團隊怎麼實作的)

可以這樣跟 AI 說:

我的 A/B 測試同時跑了 A/B/C 三個版本各 2000 人。B 的 p-value 是 0.04,C 是 0.03。考慮多重比較的問題,這些結果還可信嗎?幫我做 Bonferroni 校正。

小練習

互動示範

DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩

挑戰任務

Task 1

寫一個 Bonferroni 校正的函式:輸入原始 p-value 和比較次數,回傳校正後的顯著性門檻。用 alpha=0.05、比較次數=4 測試,印出校正後的門檻值。

Task 2

模擬辛普森悖論:手機用戶 A 組 600 人轉換 18 人、B 組 400 人轉換 10 人;桌機用戶 A 組 400 人轉換 40 人、B 組 600 人轉換 54 人。分別印出整體和各族群的轉換率,說明哪邊贏。

BackNext Lesson →