不應被神化的AB測試

13 評論 19253 瀏覽 109 收藏 16 分鐘

AB測試的確可以解決很多的問題,但是濫用AB測試可能會帶來更多問題。

2018 年,中國移動互聯網用戶增長放緩,上半年僅增長 2 千萬。但是頭條系卻異軍突起,超過百度系、阿里系穩居總使用時長第 2 名。

不應被神化的AB測試

頭條系的崛起有許多的原因,強大的數據監控系統,成熟的增長引擎,上百組同時進行的AB測試等等都在幫助產品經理和運營們找到最優的方案。

36Kr曾在一篇報道中寫道:

“頭條發布一個新APP,其名字都必須打N個包放到各大應用市場進行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個名字,測一下又有神馬關系呢?”

頭條系強大的數據監控系統很難模仿,他們的增長引擎也不是短時間內可以研發出來的。于是廣大的互聯網人便把學習的目標放到了整個增長過程中最后的執行工具——AB測試。

“不了解用戶需求?沒事,可以先AB測試?!痹S多產品經理開始用這樣的理由安慰自己?,F在的用戶自己都不知道自己要什么,我只要會AB測試就行了,畢竟頭條系不就是這么成長起來的嗎?

但是只學習工具,不學習其精髓很快帶來了一些預料之外的結果。

既然擁有了AB測試這樣一把趁手的錘子,面對任何產品優化都會想著用AB測試,在產品優化的過程中AB測試的重要程度越來越高。于是,AB測試被濫用了!

據AppSumo評估,只有25%的AB測試產生了有意義的結果。而一次完整的AB測試周期可能就需要幾周的時間。

雖然AB測試可以解決很多的問題,但是濫用的AB測試可能會帶來更多問題。

認知圈

當我們遇到危險狀況時,本能反應會讓我們跑動起來,盡快遠離危險。這種反應速度非???,大腦還來不及進入理性的思考我們就已經開始行動。雖然沒有仔細考慮往哪里跑,但是只要離危險越遠就越安全。

隨后我們大腦的理性部分才開始運作,通過分析周圍的環境,找到最佳的逃跑路線。這可以讓逃生幾率進一步增加。

人腦的本能和理性很好地詮釋了什么是二八原理:本能的部分響應速度快,瞬間決定跑起來,這解決了80%的問題。即使沒有后續的理性部分,逃生的幾率也大大地增加。

而隨后的理性部分反應速度慢,但是可以找到當下的最優解,找到最佳的逃生路線,解決隨后20%的問題。

人對外界的反應模式和互聯網環境下產品迭代非常類似。當我們希望通過滿足用戶需求來實現自己的商業目的時,也有類似“本能和理性”這樣兩類反應模式。我們想要通過滿足用戶的需求,從而達到自己的商業目的。而為了達到這樣的效果,我們也有兩種方式可以選擇。

一種方式是通過自己對用戶的理解快速找到產品優化的方向,另一種是通過實驗找出更復雜更細致的優化。

前者就像大腦的本能反應,這種模式反應迅速,并且能讓工作快速進入正確的方向。后者就像大腦的理性部分,這類工作比較費時,但是能處理復雜的信息,找出更好的解決方案。

我們把這種模式再形象化一些,我們可以把用戶需求和和我們對需求的認知看成下圖中的關系。我們面對的環境就是紛繁復雜、不斷變化的用戶需求,而我們的“本能”就是中心的認知能力,我們可以稱之為認知圈。

不應被神化的AB測試

在認知圈的中心,我們對用戶的了解程度最高。在這里是一些基礎的用戶需求概念,比如人性是趨利避害的。

隨著越來越靠近認知圈外層,我們對用戶需求的理解越來越模糊,比如我們知道人們傾向于通過對比來評估一件事物,不過什么樣的對比更有效就不是那么清楚了。

到了認知圈之外,我們對用戶需求一無所知,只能通過其他工具幫助我們探索未知的領域,比如AB測試。

根據我們認知圈位置的不同,我們大概有三種模式進行產品優化:

  • 第一種、核心認知圈中,直接依靠對用戶需求的理解進行決策。由于我們非常了解用戶需求,能夠快速找到優化方向甚至具體表現形式。往往幾分鐘內就能決定出一個方案。并且由于前期有類似案例或者需求非常明確,優化空間已不大,可以直接通過分析得出方案。比如你在某個細分領域的成功經驗,可以直接照搬到同一個細分領域的產品中。
  • 第二種、模糊的認知圈中,依靠對用戶需求的理解指出方向,再依靠AB測試優化表現形式。這種情況下,我們對用戶需求有一定的理解,但并不是特別清晰,只能給出大致的方向。比如你這次去的也是負責同一個細分領域,但是新產品的平均年齡更低。雖然你之前的成功經驗很有用,不過具體的表現形式上可能要考慮年輕化。這就需要一定的摸索,但是大方向依然是不變的。
  • 第三種、認知圈外,不停試錯找出大致的方向,然后再逐步優化。在認知圈外,我們不清楚用戶的需求到底是什么,只能需要通過AB測試通過不斷地是錯,幫助我們在不了解用戶具體需求的情況下繼續優化。但是這樣的效率非常低。

互聯網人要快

前文提到的本能在面對危險馬上逃跑,這能為自己贏得時間?;ヂ摼W環境下,我們的時間也一樣寶貴。

一個功能的上線時間比競爭對手晚上一個月,就可能就會讓一個新興領域的領導者失去優勢,甚至直接宣告失敗。所以,為了獲得或者保持競爭優勢,我們在產品優化時,有一個很重要的概念就是單位時間帶來的收益。

花費相同時間的改動,優先選擇帶來收益更大的方案。

獲得收益接近的改動,優先選擇花費時間更少的方案。

那么,如何知道哪種方案帶來的收益更大呢?

越靠近認知圈的核心,我們越有把握預測產品改動將會帶來的收益大小。

越遠離認知圈的核心,我們對產品改動帶來的影響的預測就會越不準確。所以,在認知圈中進行決策是效率最高的,我們應當盡量在認知圈內進行改版決策,從而在最短的時間內提升產品體驗,提高競爭優勢。

每個人的本能都是一樣的,這是寫入到我們基因中的底層代碼,每個人幾乎沒有差別。而每個人的認知圈的大小卻差別很大。

有些人的認知圈更大,對于許多優化問題能夠高效率地找出最佳方案。

而有些人的認知圈很小,每一次的優化需要花費數周甚至數月的時間來完成。這在快速發展的互聯網環境下,很容易就被淘汰出局。

而AB測試,就是一種非常耗費時間的優化方式。

很多AB測試是在重復造輪子

對于用戶的理解很多時候是建立在心理學、社會學的基礎上。

這兩個學科的研究成果往往都是來自于大量的雙盲實驗,實際上這也就是一種AB測試。

比如峰終效應,含義是我們對一項事物的體驗之后,所能記住的就只是在峰與終時的體驗,而在過程中好與不好體驗的比重、好與不好體驗的時間長短,對記憶差不多沒有影響。

心理學家丹尼爾·卡納曼做了一系列實驗,其中有一組是這樣的,他要求實驗者把手指放到冷水中60秒,然后再邀請同一批人用另一個手指做同樣的事情,并額外保持30秒,只不過這30秒里溫度會被加熱一度。最后,實驗者請受試者自己來選擇以哪種方式重復第三次實驗。

從旁觀者的角度看,第一個試驗忍受是60秒的冷水,第二個是90秒的冷水,第一個明顯會更好,但是絕大數實驗者卻都選擇了第二種。

如果這個知識在你的認知圈中,那么你就知道在游戲APP中需要創造高峰時刻的體驗,在MOBA類游戲擊殺對方英雄時,在屏幕中央顯眼地提示擊殺對方,還有雙殺、三殺等特殊榮譽讓玩家感受到高峰時刻。

結束時還要把游戲中獲得的榮譽陳列出來,獲得一個完美的結束時刻。

有太多這樣的科學家花費大量時間進行雙盲測試得出一些知識,如果你一個一個去做,你能花多久得出類似的結論?即使你地得出了類似的結論,無疑也只是重復造輪子罷了。

你的認知圈的擴展實際上是建立在大量的AB測試上,既然已經有那么多專業的科學家做了大量實驗得出的現成結論,為什么還要自己重復這一過程呢?

通過學習提升自己認知的成本遠遠低于自己重新實驗,這將節省你大量的時間。

有時連輪子也造不出

當然,如果不考慮時間的成本,能成功造出輪子的話還是可以接受的。但是,很多AB測試的結果并不能讓我們積累經驗、擴大認知圈。

之前在某特定場景下AB測試得出的結論很難套用在其他場景下,外部條件的不同導致AB測試的結果沒有通用性。過去的經驗無法預測未來的工作方向,每一個新的場景,都需要重新進行嘗試而不是直接找到最佳的方向。而這一次的測試對于未來其他場景下的工作也沒有太大的意義。

于是幾年之后,你發現除了自己在工具層面的技能和效率有一定的提升之外,認知和思維方式改變并不大。

有時甚至于一摸一樣的AB測試,在相近的不同時間段跑出來的結果也是不一樣的。如果你沒有足夠的用戶認知,不明白有什么核心因素產生了變化,這樣的測試結果就完全失去了意義。并且,用戶本身就是這樣善變的,無意義的結果會經常出現。

未知的不可控因素甚至讓AB測試從科學的試驗工具逐步變成了一種玄學。曾經有人開玩笑說,他每次AB測試都會選擇放在周四做,因為那是他的幸運日。

隨著時間的推移,實驗結果的價值在蒸發,時間在變,市場也在變,過去的實驗不能給現在或者未來的市場更多的參考。由于實驗的時效性,團隊為了提供強有力的證據,就必須要不停的花費大量的時間被裹挾著不得不斷進行試驗。

你不知道你不知道什么

我們把條件再放寬松一些,假設外界環境不變,那么我們是不是就能從AB測試中學習到經驗,提高自己的能力呢?

很遺憾,這也是不可行的。

在認知圈之外,我們根本不知道自己不知道什么,因此都無法提出好的AB方案。

就好像現如今搜索引擎讓我們找尋答案的方式變得格外簡單,但有一樣東西你沒法上網搜索,那就是你應該搜索什么。

農業社會的人,勞動強度要遠遠大于現代人,但是生產力卻非常低。原因就是他們沒有用工業化解決生產的認知,他們想要致富只能想到辛勤的田間勞動。沒有正確的認知,就只能提出低效率的解決方案,根本無法想象出還有其他的解法。

在互聯網環境下,如果你知道用戶的購買決策是建立在感性的基礎上的,那么你能夠提出一種AB測試,兩者的內容都是基于用戶的情感設計的,看哪一種最能夠打動用戶。

如果你沒有這個認知,可能就會設計出另一種不同的AB測試方案,兩者的內容是側重于不同的產品功能,看用戶更看重哪一種功能。

因為你沒有遵循人腦在決策時的基本工作模式,基于產品功能的頁面AB測試雖然能找到效果更好的一種,但是這只是矮子里拔高個,最好的效果也往往差于基于情感的設計方案。

沒有認知的支撐,好的AB測試就像無根之木,無法成長為參天大樹。

結語

AB測試很有用,但不應被濫用,更不應被神化。

AB測試是我們認知能力的延伸,而不是我們探索未知的主要工具。花更多的時間閱讀和學習,擴展自己的認知圈才是互聯網人核心能力的基礎。

 

作者:三元方差,公眾號:三元方差(sanyuanfangcha)

本文由 @三元方差 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 為什么不能給一些評論點贊。這個app為什么不做評論點贊功能。。。。

    來自四川 回復
  2. 可怕的是很多人認為自己的認知就是正確的不需要去驗證,但是這些人忽略了自身認知的缺陷,很多人只是在自己的領域里積累了經驗,但是依然在用過去的經驗來指導現在的工作,并沒有用底層邏輯來制定方案應對現在的情況,所以才有思想僵化、經驗主義等等問題出現。

    回復
  3. ABtext還有個比較容易忽視的問題,就是P值的問題。在1.96標準誤差范圍內接受實驗假設,其實是基于誤差來源于正太分布或卡方分布的隨機變量。還有一個重要步驟就是做殘差分析。如果本身殘差就有一定規律,應該先檢查實驗分群是否有問題。

    來自廣東 回復
    1. 對!很多人做實驗,都不考慮實驗人群的顯著性差異

      來自上海 回復
  4. 有一些是真理是先創造出來,然后再給里面添符合條件的內容

    回復
  5. 棒。 不斷擴大自己的認知圈,通過不同的方式不同的媒介(人,書,行etc),擴大多維度的認知圈包括非自己領域的。

    來自美國 回復
  6. 對產品的感覺和認知仍然是非常重要的,AB測試也應該基于這個認知之上。如果缺乏思考,過分依賴測試,可能面臨的問題會越來越來。

    來自江蘇 回復
    1. 是的,我正是看到身邊許多的產品新人由于認知的匱乏,開始越來越依賴測試,所以才寫下這些想法。

      來自浙江 回復
  7. 666

    來自福建 回復
    1. 是否收到

      來自廣東 回復
    2. 舍得放手

      來自廣東 回復
    3. 東方大廈的

      來自廣東 回復
    4. klafopdsjaosjddasf加拿大看了會瘋狂的撒嬌哭了發幾點上課啦九分褲垃圾分類卡健身房里看見啊弗蘭克九分褲阿數據反饋來的減肥卡拉斯京風口浪尖啊司法解釋

      來自廣東 回復