A/B 測試的核心概念

A/B 測試(也叫 Split Testing)是同時展示兩個版本的設計給不同用戶,然後觀察哪個版本達到更好的目標成效(轉換率、點擊率、停留時間等)。

用戶 A 看到設計版本 A,用戶 B 看到設計版本 B,其他條件相同——流量來源、時間段、設備類型盡可能均等分配。

這樣的對照設計讓你能合理地歸因:「B 版本的轉換率比 A 高 15%,差異主要來自我測試的那個設計變更。」

為什麼直覺不夠可靠

設計師和行銷人員的直覺並不比一般用戶準確——大量的 A/B 測試研究顯示,「專家直覺認為比較好的版本」在實際測試中輸給另一個版本的比例相當高。

最著名的例子之一:Microsoft 曾測試了 40+ 種不同的深藍色按鈕色調用於 Bing 廣告,最終找到的最優解讓年收入增加了 8,000 萬美元——這個差異靠視覺直覺幾乎不可能判斷出來。

什麼值得 A/B 測試?

高影響力的元素(優先測試)

CTA 按鈕:文字(「免費試用」vs「立即開始」),顏色,大小,位置

標題文案:不同的價值主張表述方式對轉換率的影響通常最大。一個強標題 vs 弱標題的差距可以達到 2–5 倍。

Hero 圖片 / 視覺:人物照片 vs 產品截圖 vs 抽象設計

表單欄位數量:3 個欄位 vs 5 個欄位(通常越少越高轉換率,但需要測試確認)

社會證明位置:在 CTA 上方 vs 下方 vs 側邊

相對低影響力(次要測試)

字型大小和樣式(除非差異很大)

配色微調(除非差異很顯著)

不適合用 A/B 測試的情況

你的每月訪客不足 1,000 人——樣本量不夠,統計顯著性難以達到。

你正在測試全面性的重新設計(這是多變數測試或用戶研究的範疇,不是 A/B 測試)。

工具選擇

Google Optimize(已停止服務)

Google 在 2023 年停止了 Google Optimize,Optimize 360 也同年關閉。如果你之前使用這個工具,需要遷移。

替代工具

VWO(Visual Website Optimizer):目前中小型品牌最常用的 A/B 測試工具,免費方案有基礎功能。

Optimizely:企業級工具,功能強大但費用高。

AB Tasty:UI 友善,適合非技術人員。

Microsoft Clarity + GA4 + 手動測試:對小流量網站,可以分階段部署不同版本並用 UTM 參數區分流量,在 GA4 中比較表現。

更簡單的方法

對小流量品牌的官網,最實用的方法是:在不同時間段測試不同版本(例如寒假 A 版本,農曆新年後換 B 版本),並在 GA4 中比較對應時段的轉換率。這不是嚴格的 A/B 測試,但成本低,對大多數中小型品牌足夠實用。

測試設計的關鍵原則

一次只改一件事

每個 A/B 測試只能有一個變數。如果你同時改了按鈕顏色和按鈕文字,你不知道是哪個改變影響了結果。

確定測試假設

在測試前,寫下你的假設:「我相信將 CTA 文字從『聯絡我們』改為『免費諮詢 30 分鐘』,能讓點擊率提升,因為它更具體地說明了訪客能獲得什麼。」

假設不一定會被驗證,但寫下假設讓你用正確的問題框架來解讀結果。

統計顯著性

A/B 測試的結果要達到「統計顯著性」(通常設定在 95% 信心水準)才能被認為是可靠的結論。

大多數 A/B 測試工具都有內建的統計顯著性計算器——當結果顯示信心水準達到 95% 以上,才能宣告勝出版本。

一般需要多少流量?假設原始轉換率是 3%,你想檢測到 20% 的提升(即變成 3.6%),大約需要每個版本 7,000–10,000 次訪問才能達到 95% 信心水準。

對低流量網站,這意味著可能需要幾個月才能得出結論。

從測試結果到行動

A/B 測試的結果有三種:

B 版本明顯勝出(達到統計顯著性):把 B 版本設為預設版本,記錄這個學習,應用到其他頁面的相似元素。

B 版本明顯敗出:保留 A 版本,但記錄這個「負面結果」也是學習——下次不要再在同方向上測試了。

沒有顯著差異:可能是樣本量不足(繼續等待更多數據),或真的沒有差異(兩個版本都可以,沒有必要繼續測試這個方向)。