千萬別因選錯指標,毀了你的A/B實驗
選對AB實驗指標,可能是你實驗成功與否的關鍵。本文將揭秘如何選擇合適的實驗指標,幫助你在實驗中快速實現目標。
實驗設計主要有三個步驟:選擇實驗指標、確定實驗受眾和設計實驗版本。
其中,選擇正確的實驗指標至關重要。在設計實驗時,真正嘗試過的同學都會意識到這里有很多坑。
很多時候實驗上線了,但是指標定義的不準確,導致得不出結論,或者甚至得出了錯誤的結論;有時候實驗表面上看起來很成功,但對下游的某一個指標有很大的影響,但是我們壓根不知道。
以上問題,應該如何避免?
一、選擇正確的實驗指標
1. 實驗設計的三個步驟
(1)選擇實驗指標
選擇實驗指標是實驗設計的第一步,我們要回答的最關鍵問題是:哪些指標能夠衡量實驗的成功或失???這一步非常重要,就像做增長要先找到北極星指標一樣,做實驗也要先找到正確的實驗指標。
(2)確定實驗受眾
確定實驗受眾是實驗設計的第二步。我們需要清晰地定義出實驗受眾,并估算出所需要的樣本量。這樣你就可以根據你具體的情況來做一些調整,比如說減少一些實驗的版本數,或者加大這個實驗版本的改動的程度。
(3)設計實驗版本
設計實驗版本是實驗設計的第三步。如果采用第三方實驗工具,整個流程相對簡單;如果要自建實驗系統進行設計和開發,流程會比較復雜。
本文主題聚焦于如何選擇核心指標,未來再逐步分享如何確定實驗受眾和設計實驗版本。
2. 亞馬遜中國的實驗指標選擇
下面通過亞馬遜中國的案例,說明為什么選擇正確實驗指標至關重要。
(1)亞馬遜中國購物車AB測試第一次失敗
a. 第一次實驗指標選擇銷售額,新版本表現更差
亞馬遜中國想做一個購物車的AB測試。中國用戶習慣把購物車當收藏夾用,部分選擇產品結賬,其余產品留在購物車里。但亞馬遜全球的購物車設計是全部結賬的模式。
亞馬遜中國的團隊針對這樣的發現,就想設計一個 AB 測試來測一下。如果把亞馬遜中國也改成可選擇部分商品結賬,這樣的這樣一種更受中國用戶習慣的方式,是不是效果會更好?
他們第一次選擇的實驗指標是銷售額,實驗上線后,結果是跑了一個月的部分結賬版本輸給了全部結賬版本,銷售額更低,不得不進行了回滾。
b. 進一步分析發現新用戶不熟悉全部結賬,導致銷售額虛高但長期滿意度下降
團隊百思不得其解,為什么在中國其他電商網站上成功的版本,在亞馬遜中國不適用?進一步分析后有三個發現:
①第一個發現是新用戶剛接觸全部結賬的版本(也就是老版本)還不夠熟悉,很多人都會出現一不小心買多了的情況,所以就會推高老版本的銷售額。這些一不小心買多了的用戶,只有部分會去退貨,因此銷售額還是比較高的。
②但是買多了的用戶長期滿意度下降,因為他們過一段時間反應過來了,發現自己不小心買多了。
③在部分結賬的版本里面,很多用戶其實會把購物車里面保留的產品過一段時間又買回來,所以這些產品其實是有潛在銷售的機會的,但是用戶的購買時間存在延遲,因此在之前做實驗的事后是顯示不出來的。
c. 亞馬遜中國首次實驗指標選擇小結
最后,亞馬遜中國團隊得出結論:如果第一次實驗就對比更多指標,可能會發現全部結賬版本短期銷售額高,但退貨率高,長期滿意度低;而部分結賬版本長期復購率和銷售額更高。但第一次實驗只關注了短期銷售額,沒關注其他指標,導致得出老版本更好的錯誤結論。
(2)亞馬遜中國優化實驗指標,二次實驗成功
基于上述總結認知,亞馬遜中國團隊重新定義實驗指標,進行二次實驗。
核心指標從第一版的短期銷售額,變成了綜合銷售額的概念,不僅包括短期直接銷售額,還包括對長期銷售額的預期。
同時,也加入了一系列輔助指標,如復購率、下單頻次、結賬轉化率等。這些指標雖然不足以直接說明實驗的成敗,但是可以從各個側面輔助我們做出決策。
最后,還加入了退貨率作為衡量負面結果大小的指標。
通過全面觀察一系列實驗指標,部分結賬的新版本最終勝出。它不僅帶來了綜合銷售額的提升,還帶來了下單頻次的提升,終于成功上線。
亞馬遜中國團隊并沒有改變實驗版本的任何設計,只是選擇了更全面準確的實驗指標,就從實驗失敗變成了成功。
由此可見,AB實驗成功的關鍵在于選擇正確指標,包括核心指標、輔助指標和反向指標,以全面、準確地衡量實驗成效。
二、準確全面衡量實驗成敗的三類指標
那么,想要準確全面地衡量實驗成敗,應該如何選取指標?建議大家考慮選擇核心指標、輔助指標和反向指標這三類實驗指標。
1. 核心指標:決定實驗成敗的關鍵指標
(1)核心指標代表實驗的最終北極星指標
核心指標是決定實驗成敗的關鍵指標。對于做增長實驗來說,我們要找到決定這個實驗成敗的最關鍵指標,它是我們后期進行統計顯著性計算,決定新老版本哪個更好的指標。
(2)案例:APP首頁新手引導板塊AB測試
某 APP 做了首頁新手引導板塊的改版,它的目標是想讓新用戶了解產品功能,完成初始設置。
實驗假設是通過讓用戶閱讀更多的新手介紹文章,告訴他們這個產品怎么用,可以幫助他們完成初始的設置。
A版本是新手文章呈卡片式排列,B版本是文章呈清單式排列。如果關注點擊率,就會發現B組清單版本表現更好;但如果關注新手設置完成率,就會發現A組卡片版本表現更好。
這種情況下,核心指標應該選新手設置完成率,而非文章標題點擊率。和選擇增長北極星指標一樣,做實驗時也要注意不要選擇虛榮指標。
要以實驗最終目標為準繩,選擇最能代表目標的指標作為核心指標。雖然B組點擊率更高,但根據實驗最終目標,它的表現更差,最終勝出的是A組卡片版本。
2. 輔助指標:全面了解實驗結果
對于絕大多數簡單實驗,可能只有一個核心指標就夠了。但對于比較復雜、涉及長漏斗或對下游指標可能有影響的實驗,我們還要選擇輔助指標。
(1)影響整個用戶漏斗的各個步驟
衡量實驗成敗的第二類指標是輔助指標,它可以幫助我們全面了解實驗結果,確保沒有誤傷到某些指標。如果實驗影響到整個用戶漏斗,我們不應只看漏斗的最終步驟,還要監測對整個漏斗所有步驟的影響。
(2)關注下游和其他用戶關鍵指標
如果有一些重要的下游指標,我們要全面觀測實驗會不會對某個下游指標產生影響,以及對其他用戶關鍵指標的影響。
(3)案例:Airbnb采用關鍵指標儀表盤全面評估實驗影響
事實上,一些硅谷大規模進行增長實驗的公司如Airbnb,他們采取的方式是做一個關鍵指標儀表盤,任何一個增長實驗的結果都會放到這個儀表盤上,觀察對任何關鍵指標有無影響。如果有影響都會顯示出來,這樣就可以避免一不小心誤傷到某些指標的情況。
3. 反向指標:提示實驗可能的負面影響
(1)為什么需要反向指標
反向指標可以提示實驗可能的負面影響。如果負面影響很小或沒有,我們就可以宣告實驗成功;如果負面影響太高,就算核心指標表現更好,我們也可能直接否決實驗結果。一般來說反向指標選取1-2個即可。
(2)常見反向指標
常見的反向指標包括NPS、應用刪除率、郵件退訂率、push退訂率以及頁面退出率等。
綜上,核心指標衡量關鍵實驗成果,輔助指標全面理解實驗作用,反向指標防止忽視負面影響。
4.綜合案例:電商網站購物車按鈕AB測試指標選擇
舉例,如果一個電商網站想做加入購物車按鈕的AB測試,測試各種購物車按鈕哪個表現更好,應該怎么選擇指標?因為購物車按鈕在產品詳情頁上,我們可以把整個用戶購物漏斗畫出來。
(1)核心指標
此案例中,應該選擇的核心指標就是加入購物車按鈕本身的點擊率,因為它是實驗想影響的主要的目標。
(2)輔助指標
在這個例子里面,雖然最終的目標是提高銷售額,但是加入購物車和提高銷售額之間有非常多的步驟,因此我們應該把加入購物車作為核心的指標,而銷售額作為一個輔助的指標。
其他的輔助指標還包括加入購物車按鈕的點擊次數,有多少人訪問購物車的頁面,或者在購物車下單成功銷售額、復購率等等。
(3)反向指標
最終的反向指標可能是退貨率。
通過選擇合適的三類指標,我們就可以全面衡量這個改動對整個購物漏斗的影響,不會只看到其中一方面而漏掉其他可能的影響。
以上就是如何通過三類實驗指標準確全面的衡量實驗的結果,后續還會介紹如何通過 AB 測試的系統和工具來確保科學分流和結果的可信性。
所以,不要害怕實驗中的失敗和挑戰,而應該更加聚焦于如何通過科學的方法——正確選擇指標、深入了解受眾、科學流量劃分,來提升我們的實驗設計能力。因為每一次實驗,都是向成功邁進的一步。
本文由 @小黑哥 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!