【資料分析】認識統計顯著性|A/B Testing 觀測數值增減多少才是顯著有效?
前言
不論是廣告投放或行銷中的A/B Test,對結果的評斷和優化,都是數據分析的環節之一。避免看到數字就憑著主觀解讀,而是設法找尋具科學證據的解釋,也是數據分析師的基本素養。 本文介紹A/B Testing觀測結果的統計顯著性,期待你除了會使用線上免費工具計算實驗的顯著性之外,也能了解背後統計概念。
A/B Testing做完後對結果的評估,其中一個重要的檢查點:「多少的數值增減才是顯著有效」? 所謂的「顯著有效」,可以理解成,多大的變動才能確保它不是誤差所造成的。
當我們拿實驗的前後數值比較時,我們比的其實是 實驗前後、某段區間的抽樣估計差異;當我們對一個群體數據做抽樣、用均值表示它的估計值時,此刻就容易因為我們取的區間不同而有誤差。所以我們需要用一個誤差值確保,我的估計值有xx%的信心會落在這個正負範圍;它如果落在此範圍表示 有可能是抽樣誤差所造成的數值增減,並不是你的A/B Testing有顯著效果。
而背後統計顯著性的算法,是如何決定出範圍的呢?這就牽涉到所謂的區間估計。
區間估計
區間估計 = 對單點的估計值 ± 抽樣誤差
具體的做法步驟如下:
(1) 訂出A/B Test前後的樣本統計量,譬如:測試前一周的平均值、測試後一周的平均值(對單點的估計值)
(2) 從上述數值中計算出抽樣誤差
*常態分佈下,有95%的z值會落在-1.96~+1.96之間
(3) 點估計加減後抽樣誤差後,得到該時段的區間估計範圍
範例:
我們想要知道A/B Testing前後的轉換率是否顯著上升?
測試前一周的總連結點擊為3738、轉換次數為52,測試後一周的總連結點擊為4092、轉換次數為66。
(1) 計算出前一周估計轉換率為1.3911%,A/B Testing後一周的估計轉換率為1.4663%。
(2) 前一周的抽樣誤差為 0.3753%:
後一周的抽樣誤差為 0.3687%:
(3) 前一周的區間估計為 (1.0147%, 1.7653%):
後一周的區間估計為 (1.1013%, 1.8387%):
【結論】
後一周的點估計轉換率,落在前一周的抽樣誤差區間估計內;表示此實驗造成的轉換率提升不顯著。
因為有可能後一周結果只是前一周的抽樣誤差所造成,跟A/B Testing所做的優化無關。
假設檢驗:p value
再更精確的假設檢驗方法,我們會使用到z值分布表以及p value。
首先我們假設『A/B Test 後一周與前一周的轉換率沒有顯著差異』;
若計算p value小於0.05,我們認為此事件幾乎不可能發生,表原假設錯誤,即為 有顯著差異;反之亦然。
公式如下:
(1) 首先我們將上述範例數字代入:
(2) 得出z score = –0.298 ~ -0.30,此時z值介於-1.96~+1.96之間,屬於95%可能發生的情況。將z值對照常態分佈z值的分布表:
得出 p value = (1–0.6179) = 0.3821 > 0.05,表原假設為真 — — A/B Testing後的轉換率上升,統計上並不顯著有效。
快速檢驗A/B Testing顯著性
知道不是每個人都對統計有興趣,最重要的是有依據對數據做出正確判斷。目前線上有許多網站都開放A/B Testing Significance 檢測的工具,像VWO網站免費提供A/B Split Test Significance Calculator,讓你了解多少的數據變動才算顯著有效。
下次如果要回報優化結果給客戶,又覺得數值的增長不是很大幅時,不妨算算看優化造成的變動是否統計顯著!而且了解背後統計概念,在說服客戶時也能增加你的專業形象唷:)