跳到主要內容
Cypher's Practical Coding
正在啟動 Python 環境(首次約 15 秒)...

樣本數怎麼算?

老闆說:「新的商品頁上線了,跑兩天 A/B 測試看看結果。」

兩天後你回報:「B 版轉換率 3.5%,A 版 3.2%,B 版贏了!」

但其實兩天只有 200 個訪客,這個結果根本不可靠。樣本數不夠,任何結論都是在擲骰子。

為什麼樣本數很重要?

想像你要判斷一枚硬幣是否公平:

三個決定樣本數的因素

因素意義你需要決定
基準轉換率目前 A 版的轉換率從 GA4 或後台撈
最小可偵測效果(MDE)你在意多大的差異商業判斷
信心水準 & 統計功效你能容忍多少錯誤通常用業界慣例

最小可偵測效果(MDE)

MDE 就是「多大的差異值得你在意」。

  • 轉換率從 3% 提升到 3.1%?大概不值得花工程資源。
  • 轉換率從 3% 提升到 4%?這很值得!

MDE 越小,需要的樣本數越大——因為要偵測微小差異,就像要在嘈雜的餐廳裡聽清楚隔壁桌的悄悄話。

兩種錯誤

A/B 測試可能犯兩種錯:

錯誤類型白話後果業界慣例
Type I(假陽性)沒效果,但你以為有上了沒用的改動控制在 5%(α = 0.05)
Type II(假陰性)有效果,但你沒偵測到錯過好的改動控制在 20%(β = 0.20)

統計功效(Power)= 1 - β = 80%,意思是「如果真的有效果,你有 80% 的機率能偵測到」。

實用速查表

AI 協作:學了這個,跟 AI 怎麼配合?

樣本數計算是固定公式,非常適合讓 AI 幫你算。但「MDE 設多少」是商業判斷,只有你知道。

你的人類優勢:

  • 你知道多大的轉換率提升才值得投入工程資源
  • 你知道公司的流量規模和測試時間限制

可以這樣跟 AI 說:

我們網站月流量 8 萬,目前加入購物車的轉換率是 12%,我想測試新的商品頁能不能提升到 14%。幫我算需要多少樣本、測試要跑幾天,用 95% 信心水準和 80% power。

小練習

互動示範

DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
DEMO 4可以修改程式碼試玩

挑戰任務

Task 1

寫一個函式 calc_sample_size(p1, p2),計算 A/B 測試每組樣本數(alpha=0.05, power=0.80)。用 p1=0.05, p2=0.065 測試,印出每組需要的人數。

Task 2

電商網站日均流量 2000 人,轉換率 4%,想偵測 1 個百分點的提升(到 5%)。算出每組樣本數和需要跑幾天,印出結果。

BackNext Lesson →