正在啟動 Python 環境(首次約 15 秒)...
樣本數怎麼算?
老闆說:「新的商品頁上線了,跑兩天 A/B 測試看看結果。」
兩天後你回報:「B 版轉換率 3.5%,A 版 3.2%,B 版贏了!」
但其實兩天只有 200 個訪客,這個結果根本不可靠。樣本數不夠,任何結論都是在擲骰子。
為什麼樣本數很重要?
想像你要判斷一枚硬幣是否公平:
三個決定樣本數的因素
| 因素 | 意義 | 你需要決定 |
|---|---|---|
| 基準轉換率 | 目前 A 版的轉換率 | 從 GA4 或後台撈 |
| 最小可偵測效果(MDE) | 你在意多大的差異 | 商業判斷 |
| 信心水準 & 統計功效 | 你能容忍多少錯誤 | 通常用業界慣例 |
最小可偵測效果(MDE)
MDE 就是「多大的差異值得你在意」。
- 轉換率從 3% 提升到 3.1%?大概不值得花工程資源。
- 轉換率從 3% 提升到 4%?這很值得!
MDE 越小,需要的樣本數越大——因為要偵測微小差異,就像要在嘈雜的餐廳裡聽清楚隔壁桌的悄悄話。
兩種錯誤
A/B 測試可能犯兩種錯:
| 錯誤類型 | 白話 | 後果 | 業界慣例 |
|---|---|---|---|
| Type I(假陽性) | 沒效果,但你以為有 | 上了沒用的改動 | 控制在 5%(α = 0.05) |
| Type II(假陰性) | 有效果,但你沒偵測到 | 錯過好的改動 | 控制在 20%(β = 0.20) |
統計功效(Power)= 1 - β = 80%,意思是「如果真的有效果,你有 80% 的機率能偵測到」。
實用速查表
AI 協作:學了這個,跟 AI 怎麼配合?
樣本數計算是固定公式,非常適合讓 AI 幫你算。但「MDE 設多少」是商業判斷,只有你知道。
你的人類優勢:
- 你知道多大的轉換率提升才值得投入工程資源
- 你知道公司的流量規模和測試時間限制
可以這樣跟 AI 說:
我們網站月流量 8 萬,目前加入購物車的轉換率是 12%,我想測試新的商品頁能不能提升到 14%。幫我算需要多少樣本、測試要跑幾天,用 95% 信心水準和 80% power。
小練習
互動示範
DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
DEMO 4可以修改程式碼試玩
挑戰任務
Task 1
寫一個函式 calc_sample_size(p1, p2),計算 A/B 測試每組樣本數(alpha=0.05, power=0.80)。用 p1=0.05, p2=0.065 測試,印出每組需要的人數。
Task 2
電商網站日均流量 2000 人,轉換率 4%,想偵測 1 個百分點的提升(到 5%)。算出每組樣本數和需要跑幾天,印出結果。
← BackNext Lesson →