「神秘公式 p<0.05 」支配了整個硅谷的產品決策?
產品開發過程中,我們經常會遇到各種決策問題。本文將為你介紹,硅谷決定產品走向的最終統計學判據 — “p<0.05”
我過完年回來上班啦!好興奮??!因為。。終于可以再次見到好基友Tommy了。。??晌医駜海淮蜓劬桶l現他不對,愁眉苦臉的,就問咋滴了呢。
他說:“哎,最近又收到好多人寄來的刀片兒。。?!?/p>
原來,這是用戶們在抱怨他的產品不好用呢:“這個App是腦殘嗎…”,? “孤兒產品…”
哎,我們搞App真的很難,因為有太多太多的細節,要做決策了。有一丟丟搞不好,用戶就會不開心。比如,按鈕應該放在上面,還是側面?讓用戶手機驗證,還是密碼驗證?二維碼還是手動輸入?等等等等。。。
關鍵是人們的要求又不一樣!總自相矛盾。。。
比如你問妹子想吃啥,她嘴上說“隨便”,其實她心里是想說:
這是一道送命題。。我們也很無奈啊,我們雖然工資低,但是放假少啊,心累……
那,時間緊迫,競爭壓力好大,產品畢竟總要出去的。那最后到底怎么做決定?。?/p>
最科學的辦法,還真不是靠產品經理拍腦袋,也不是靠碼農和設計師撕逼,更不是靠高層們微信扔骰子定的。
其實,好多硅谷企業呢,現在都已經有了一套科學方法啦!
最簡單地,總結起來就是一個公式:
P<0.05
這是TM啥?
這是一個統計學公式,現在已經被硅谷各企業廣泛采用,來做產品的決策了!
那應該怎么實用呢?下面我就來給你爆料下,這個不是秘密的公開內幕吧!
案件重現
現在你接到一個產品優化任務,核心KPI是要提升一個按鈕的點擊率。那個按鈕可能是“搜索”按鈕,可能是“預定”,也可能是“了解更多”,等等等等。總之,越多人點擊越好。
現有的線上產品方案,那個按鈕是一個綠色的。
你知道,因為心理學因素,“顏色”對用戶行為有顯著的影響吧。(不知道也不怕,我之前的文章有介紹過“顏色”在產品里的作用和背后的心理學原理,點這里:王者榮耀和LOL:真受不了沒素質玩家)
于是,你現在想試試把按鈕的顏色從綠色改成紅色,想看看是不是有更多的人點擊。應該怎么辦呢?當然是做實驗啦!
好了,現在實驗上線開始,你讓一半兒的人看到綠色按鈕,而另外一半兒的人看到的,則是紅色:
實驗結束后,你得到的結果是這樣的:
A組,綠色:100個人看到了這個按鈕,沒人點擊這個按鈕
B組,紅色:同樣有100個人看到,50個人點擊。。。
結論很明顯嘛。你得出結論,A組點擊率0,B組點擊率50%,B組高于A組,紅色有效的促進了用戶點擊!實驗成功??!
是的,很好,到目前為止沒有任何問題。這個產品決策很愉快的就決定了,你也成功交差。
下面,咱們看一個稍微復雜一點的例子。
你應該知道,手機的“推送通知”對挽留用戶很重要吧。發一個推送,用戶沒準就會點開好久不用的App了。這樣就會促進用戶對App的交互了。(我之前的文章也有詳細介紹過優化“推送通知”的辦法,點這里:避免騷擾用戶?硅谷這樣打造移動推送通知!)
你又知道,現在都流行做個性化推送。之前你們的產品線上運行的可能是一個非個性化的群發通知,所以,你又有了一個想法,想試試個性化通知內容,是不是更有效呢。
于是,你設計了一個實驗,分別給兩組人發了不一樣的推送通知內容,就像這樣:
第一組收到的是非個性的:“屠龍寶刀點就送!明星都在玩!”
第二組則有一點點個性化:“{$Name(玩家姓名)},屠龍寶刀點就送!明星都在玩!”
推送發出之后,過了24小時的測量周期,你收到的實驗結果如下。
第一組,有95個人看到了,有4個人打開了App。
第二組,有107個人看到了,有11個人打開了App。
跟上面按鈕顏色的例子數據處理一樣,你開始進行了數據分析:
第一組,是非個性化的推送,接收到推送之后,用戶的App打開率是 4 / 95 = 4.21%
對于第二組的個性化推送組,App打開率是11 / 107 = 10.28%。
于是你直接得出結論:第二組更好!
事情就……結束了么?要是在硅谷的話,你會被直接噴回來。
為什么??因為這個結論,根本不可靠!兩組的打開App的行為很有可能只是巧合,是一個完全隨機的事情!
比如,你先用左手拋硬幣5次,發現2次硬幣正面朝上。之后再用右手拋硬幣5次,發現3次硬幣正面朝上。于是你得出結論,右手拋硬幣出現正面的概率是60%,高于左手的40%。 – 這明顯是錯誤的。因為無論那個手拋硬幣,都應該是50%的概率而已。
同樣的道理,回到推送的分析案例,那憑什么,你在這里就能直接相信這個結果呢?提高的打開率,真的是因為“個性化”的原因造成的呢,還是僅僅只是一個巧合呢?
對于此,統計學上會有一個概念,叫做 – “p值”。
p值是啥?
在展開復雜的計算之前,為防止你被繞暈,先直接上一句最最最簡單的靈魂總結:
p值,就是實驗結果不能被相信的概率。
也就是說,p值就是“實驗結果完全是瞎貓碰到死耗子”的幾率。
直覺告訴我們,這個p值應該是越低越好,因為越低,他就表示我們的實驗越可以被相信。
那么多低是低呢?標準是啥?硅谷各公司,普遍采用的p值標準線是0.05。如果p小于0.05,那結論就可以被相信了!
下面咱們來計算一下p值。(需要你靜下心來讀)
統計方法上,我們會先來一個“無效假設(Null Hypothesis)”:也就是假設結果純屬巧合,也就是假設“個性化”通知根本沒啥卵用。如果沒啥用的話,那就是說。。。兩組之間的實際App打開率應該相等的*(此處有簡化,詳情見文末)。
我們來算一下,第一組的App打開率4/95 = 4.21%。
下面,重點來了,我們需要計算的是,按照4.21%這個打開率,第二組出現11個人打開App的概率是多少呢?這個概率,就是“無效假設”成立的概率。
無論文科理科,這是一道高考送分題,答案就是:
這個值,就是p值, p = 0.0037。它代表,“個性化通知”沒有任何用處的概率僅為0.0037。
剛剛說過,p值的檢測標準是0.05,你看,咱打開率的p值小于0.05,那么就可以說實驗可信!“個性化”通知,對于促進用戶打開App,有效!你們決定上線新產品!
可是就在這時,數據部門,突然給你發來了最新的另一組數據。。。
實戰應用
數據部門告訴你,用戶看了推送通知之后,其實還有一些用戶有刪除App的行為發生??赡苁且驗榭戳颂嗤扑吞珶┝?,直接刪了App。數據是這樣的:
現在這樣看來,第二組收到個性化推送的人,刪除率是2.8%,高于第一組的1.1%。甚至都已經雙倍了!難道是因為用戶看到了自己的名字在推送里,很害怕然后就把App刪掉了?
這可怎么評價?。?!太煩了,要是兩組數據結論不同,還怎么上線新產品啊。。??磥碛忠罕屏?,哎。
稍等,我們剛剛介紹了p值的概念呀??!趕緊計算一下刪除率的p值!
經過一番計算,刪除率的p值等于……p = 0.1795??!大于0.05,什么意思,p值大于上面提到的分界線!也就是說,刪除率上升,純屬偶然!
這下好啦??!產品決策清晰了!
相比原來的非個性化推送,我們發現個性化的推送打開率有顯著性提升,而刪除率則沒有顯著的統計學差異。
于是,你歡快地決定:上線“個性化推送”功能!! 今晚請大家吃雞!!
A/B測試
上面提到的,整個新產品的驗證過程,被稱之為“A/B Test”(AB測試)。A和B就是指,實驗里的兩個組。
AB測試是最最簡單的工具啦,實際工作中會遇到更多的奇葩情況,那“A/B Test”可就不夠了。比如,涉及到兩個用戶以上的社交功能,還有涉及到“錢”的情況等等,這些我以后再講。。。
可以說,硅谷就是由實驗驅動著的。無論是一個小小的UI變動,還是推薦算法模型的升級,都會進行一次實驗。因為實在是太常用了,很多大型App里,往往同時運行著超級多的實驗。
為了提高效率,各廠們都紛紛開發了,專門的實驗工具和分析系統,讓人們快速使用。
比如:
Google旗下Analytics產品的Content Experiments工具:
他可以快速的通過UI創建一個實驗,還能在運行時,利用Multi-armed bandit算法,自動調整并分配流量比例,到不同的用戶組,以加快實驗速度。結束后,還會自動生成報表。
Uber的實驗平臺XP:
XP不僅是實驗和分析工具,還幫助Uber安全上線和部署新功能,實時觀測數據。
Airbnb的實驗框架?ERF(Experimentation Reporting Framework):
ERF的交互設計非常好,還提供了美觀的報表系統,p值一目了然:
Netflix的跨平臺實驗工具ABlaze:
他有著跨平臺的優良特性。要知道,其實Netflix的壓力非常大。數據發現,如果用戶不能在90秒內找到自己喜歡的影片,他們就會關掉App。借助ABlaze,Netflix得以快速迭代產品,以便滿足全球超過一億用戶的觀影需求。
其實,這里還是要提一句,硅谷各企業的產品決策,絕對不是只考慮“p<0.05”這么簡單啦。
這里也僅是出于科普的目的,對實際情況進行了極大的簡化。
比如,當年“扁平化設計”剛出的時候,通過數據來看,用戶肯定不滿意,覺得丑。但是蘋果,偏是不聽呢~ 就要上線,就要上線,就要上線~ 最后你看,用戶乃至業界還不都是被成功的教育了。
更進一步
你可能會問,為啥這些硅谷企業都選0.05這個數字呢?
答案就是:
嗯……其實這個真的就只是一個約定俗成的數值而已。
Tommy告訴我,提出這個值的人,還是和英國有關。這是幾十年前,英國統計學家Ronald Fisher提出來的,后人沿用了而已。
當然,很多產品為了更加可靠,也會使用更低的p值, 比如0.01。
不僅僅是硅谷這樣的工業界啦,在學術界,尤其是統計學支撐的學科,比如心理學,生物醫學甚至經濟學,“p < 0.05”早就被當作常識一樣了。
比如,醫學領域,有人提出了一種新藥。想知道這種新藥的效果,那就要進行實驗了。簡單來講,他們會找到一些病人,隨機的分成兩組,比如每組20個人。
雙盲測試:醫生和患者都不知道分組情況
一組人,作為測試組,會按時吃這種新藥。而另一組則是控制組,不會吃這種藥。
當然了,也不是啥也不吃。他們會被要求隨便吃點啥,比如吃淀粉片,這東西被稱為“安慰劑”。
因為心里作用也會影響治療效果,所以不能讓他們知道其實他們吃的東西沒啥用嘛。吃安慰劑,就能保證他們不知道自己被分到了控制組。
實驗結束之后,會看看哪組人治愈率更高,這我也是從身邊好多醫學生物學博士朋友那里知道的:他們經常說,科研狗奮斗一生,就為了那0.05,其實硅谷的碼農們又何嘗不是呀~
后記
我告訴Tommy,你看“p < 0.05”對吧,這就意味著,概率上來講,咱們每上線20個產品,其實就會有一個產品是垃圾。。。所以,別難過了 ,你可能就。。。恰好是那個垃圾。。。
然后Tommy把我打了一頓 ??
備注
文中p值計算過程和描述并不完全準確哈,而是為了可讀性,進行了簡化。首先p值不是“無效假設”成立的概率,而只是可以“表示”這個概率的大小。另在案例計算中,因為第一組的4.21%也不能代表真實情況。這里其實是在比較兩個樣本的分布。特此大感謝我的數據科學家同事+朋友Cora幫我Review~實際比較復雜,比如先看成是一個正態分布,然后計算一堆值,再。。不說了,你去看統計學課本吧。。但是告訴你一個小秘密,已經有很多開源在線工具可以幫你計算p值了: ( 可見對于文中的例子,打開率p值可以為0.0453。)
另外,感謝我的博士朋友:(以下為他貢獻原文)其實利用p值是頻率學派的假設檢驗方法,而p值的濫用已經是科學界的一個嚴重問題。2017年nature上有篇文章redefine statistical significance 是一堆統計學大佬寫給科學家群體的,大意是我們認為貝葉斯假設檢驗的框架更好,但是鑒于科學家普遍沒有受過貝葉斯框架的訓練,那么為了降低得出錯誤結論的概率,至少把p值的閾值降到0.005。
作者:Han,facebook美國硅谷總部商業產品全棧軟件工程師。先后負責facebook中小企業廣告及大型電商零售企業廣告商業產品開發。微信公眾號:涵的硅谷成長筆記(ID:HanGrowth),和我一起向硅谷大牛們發起夸學科學習進擊,共同見證進步。
本文由 @Han 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自pixabay,基于CC0協議
還可以用standard error of proportional來解釋一下,第一個例子中的兩個比率,他們各自的95%置信區間是有重疊的
…,應該是standard error of proportion
只有大公司玩玩了~~~而且是核心功能玩玩了
我看得云里霧里 不知道怎么跟公司的PM解釋
有點意思,撕逼的時候可以拿出來忽悠人 ?
國內好多都不靠做實驗的嗎~~