A/B 測試的核心概念

A/B 測試（也叫 Split Testing）是同時展示兩個版本的設計給不同用戶，然後觀察哪個版本達到更好的目標成效（轉換率、點擊率、停留時間等）。

用戶 A 看到設計版本 A，用戶 B 看到設計版本 B，其他條件相同——流量來源、時間段、設備類型盡可能均等分配。

這樣的對照設計讓你能合理地歸因：「B 版本的轉換率比 A 高 15%，差異主要來自我測試的那個設計變更。」

為什麼直覺不夠可靠

設計師和行銷人員的直覺並不比一般用戶準確——大量的 A/B 測試研究顯示，「專家直覺認為比較好的版本」在實際測試中輸給另一個版本的比例相當高。

最著名的例子之一：Microsoft 曾測試了 40+ 種不同的深藍色按鈕色調用於 Bing 廣告，最終找到的最優解讓年收入增加了 8,000 萬美元——這個差異靠視覺直覺幾乎不可能判斷出來。

什麼值得 A/B 測試？

高影響力的元素（優先測試）

CTA 按鈕：文字（「免費試用」vs「立即開始」），顏色，大小，位置

標題文案：不同的價值主張表述方式對轉換率的影響通常最大。一個強標題 vs 弱標題的差距可以達到 2–5 倍。

Hero 圖片 / 視覺：人物照片 vs 產品截圖 vs 抽象設計

表單欄位數量：3 個欄位 vs 5 個欄位（通常越少越高轉換率，但需要測試確認）

社會證明位置：在 CTA 上方 vs 下方 vs 側邊

相對低影響力（次要測試）

字型大小和樣式（除非差異很大）

配色微調（除非差異很顯著）

不適合用 A/B 測試的情況

你的每月訪客不足 1,000 人——樣本量不夠，統計顯著性難以達到。

你正在測試全面性的重新設計（這是多變數測試或用戶研究的範疇，不是 A/B 測試）。

工具選擇

Google Optimize（已停止服務）

Google 在 2023 年停止了 Google Optimize，Optimize 360 也同年關閉。如果你之前使用這個工具，需要遷移。

替代工具

VWO（Visual Website Optimizer）：目前中小型品牌最常用的 A/B 測試工具，免費方案有基礎功能。

Optimizely：企業級工具，功能強大但費用高。

AB Tasty：UI 友善，適合非技術人員。

Microsoft Clarity + GA4 + 手動測試：對小流量網站，可以分階段部署不同版本並用 UTM 參數區分流量，在 GA4 中比較表現。

更簡單的方法

對小流量品牌的官網，最實用的方法是：在不同時間段測試不同版本（例如寒假 A 版本，農曆新年後換 B 版本），並在 GA4 中比較對應時段的轉換率。這不是嚴格的 A/B 測試，但成本低，對大多數中小型品牌足夠實用。

測試設計的關鍵原則

一次只改一件事

每個 A/B 測試只能有一個變數。如果你同時改了按鈕顏色和按鈕文字，你不知道是哪個改變影響了結果。

確定測試假設

在測試前，寫下你的假設：「我相信將 CTA 文字從『聯絡我們』改為『免費諮詢 30 分鐘』，能讓點擊率提升，因為它更具體地說明了訪客能獲得什麼。」

假設不一定會被驗證，但寫下假設讓你用正確的問題框架來解讀結果。

統計顯著性

A/B 測試的結果要達到「統計顯著性」（通常設定在 95% 信心水準）才能被認為是可靠的結論。

大多數 A/B 測試工具都有內建的統計顯著性計算器——當結果顯示信心水準達到 95% 以上，才能宣告勝出版本。

一般需要多少流量？假設原始轉換率是 3%，你想檢測到 20% 的提升（即變成 3.6%），大約需要每個版本 7,000–10,000 次訪問才能達到 95% 信心水準。

對低流量網站，這意味著可能需要幾個月才能得出結論。

從測試結果到行動

A/B 測試的結果有三種：

B 版本明顯勝出（達到統計顯著性）：把 B 版本設為預設版本，記錄這個學習，應用到其他頁面的相似元素。

B 版本明顯敗出：保留 A 版本，但記錄這個「負面結果」也是學習——下次不要再在同方向上測試了。

沒有顯著差異：可能是樣本量不足（繼續等待更多數據），或真的沒有差異（兩個版本都可以，沒有必要繼續測試這個方向）。

A/B 測試實戰指南：用數據決定哪個設計版本更有效