亚洲狠狠婷婷综合久久,99国产精品久久久久精品三级,亚洲自拍网站

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

「神秘公式 p<0.05 」支配了整個硅谷的產品決策？

Han

2018-03-02

7 評論 10364 瀏覽 62 收藏

20 分鐘

產品開發過程中，我們經常會遇到各種決策問題。本文將為你介紹，硅谷決定產品走向的最終統計學判據 — “p<0.05”

我過完年回來上班啦！好興奮??！因為。。終于可以再次見到好基友Tommy了。。?？晌医駜海淮蜓劬桶l現他不對，愁眉苦臉的，就問咋滴了呢。

他說：“哎，最近又收到好多人寄來的刀片兒。。?！?/p>

原來，這是用戶們在抱怨他的產品不好用呢：“這個App是腦殘嗎…”,? “孤兒產品…”

哎，我們搞App真的很難，因為有太多太多的細節，要做決策了。有一丟丟搞不好，用戶就會不開心。比如，按鈕應該放在上面，還是側面？讓用戶手機驗證，還是密碼驗證？二維碼還是手動輸入？等等等等。。。

關鍵是人們的要求又不一樣！總自相矛盾。。。

比如你問妹子想吃啥，她嘴上說“隨便”，其實她心里是想說：

這是一道送命題。。我們也很無奈啊，我們雖然工資低，但是放假少啊，心累……

那，時間緊迫，競爭壓力好大，產品畢竟總要出去的。那最后到底怎么做決定?。?/p>

最科學的辦法，還真不是靠產品經理拍腦袋，也不是靠碼農和設計師撕逼，更不是靠高層們微信扔骰子定的。

其實，好多硅谷企業呢，現在都已經有了一套科學方法啦！

最簡單地，總結起來就是一個公式：

P<0.05

這是TM啥？

這是一個統計學公式，現在已經被硅谷各企業廣泛采用，來做產品的決策了！

那應該怎么實用呢？下面我就來給你爆料下，這個不是秘密的公開內幕吧！

案件重現

現在你接到一個產品優化任務，核心KPI是要提升一個按鈕的點擊率。那個按鈕可能是“搜索”按鈕，可能是“預定”，也可能是“了解更多”，等等等等。總之，越多人點擊越好。

現有的線上產品方案，那個按鈕是一個綠色的。

你知道，因為心理學因素，“顏色”對用戶行為有顯著的影響吧。（不知道也不怕，我之前的文章有介紹過“顏色”在產品里的作用和背后的心理學原理，點這里：王者榮耀和LOL：真受不了沒素質玩家）

于是，你現在想試試把按鈕的顏色從綠色改成紅色，想看看是不是有更多的人點擊。應該怎么辦呢？當然是做實驗啦！

好了，現在實驗上線開始，你讓一半兒的人看到綠色按鈕，而另外一半兒的人看到的，則是紅色：

實驗結束后，你得到的結果是這樣的：

A組，綠色：100個人看到了這個按鈕，沒人點擊這個按鈕

B組，紅色：同樣有100個人看到，50個人點擊。。。

結論很明顯嘛。你得出結論，A組點擊率0，B組點擊率50%，B組高于A組，紅色有效的促進了用戶點擊！實驗成功??！

是的，很好，到目前為止沒有任何問題。這個產品決策很愉快的就決定了，你也成功交差。

下面，咱們看一個稍微復雜一點的例子。

你應該知道，手機的“推送通知”對挽留用戶很重要吧。發一個推送，用戶沒準就會點開好久不用的App了。這樣就會促進用戶對App的交互了。（我之前的文章也有詳細介紹過優化“推送通知”的辦法，點這里：避免騷擾用戶？硅谷這樣打造移動推送通知！）

你又知道，現在都流行做個性化推送。之前你們的產品線上運行的可能是一個非個性化的群發通知，所以，你又有了一個想法，想試試個性化通知內容，是不是更有效呢。

于是，你設計了一個實驗，分別給兩組人發了不一樣的推送通知內容，就像這樣：

第一組收到的是非個性的：“屠龍寶刀點就送！明星都在玩！”

第二組則有一點點個性化：“{$Name(玩家姓名)}，屠龍寶刀點就送！明星都在玩！”

推送發出之后，過了24小時的測量周期，你收到的實驗結果如下。

第一組，有95個人看到了，有4個人打開了App。

第二組，有107個人看到了，有11個人打開了App。

跟上面按鈕顏色的例子數據處理一樣，你開始進行了數據分析：

第一組，是非個性化的推送，接收到推送之后，用戶的App打開率是 4 / 95 = 4.21%

對于第二組的個性化推送組，App打開率是11 / 107 = 10.28%。

于是你直接得出結論：第二組更好！

事情就……結束了么？要是在硅谷的話，你會被直接噴回來。

為什么？？因為這個結論，根本不可靠！兩組的打開App的行為很有可能只是巧合，是一個完全隨機的事情！

比如，你先用左手拋硬幣5次，發現2次硬幣正面朝上。之后再用右手拋硬幣5次，發現3次硬幣正面朝上。于是你得出結論，右手拋硬幣出現正面的概率是60%，高于左手的40%。 – 這明顯是錯誤的。因為無論那個手拋硬幣，都應該是50%的概率而已。

同樣的道理，回到推送的分析案例，那憑什么，你在這里就能直接相信這個結果呢？提高的打開率，真的是因為“個性化”的原因造成的呢，還是僅僅只是一個巧合呢？

對于此，統計學上會有一個概念，叫做 – “p值”。

p值是啥？

在展開復雜的計算之前，為防止你被繞暈，先直接上一句最最最簡單的靈魂總結：

p值，就是實驗結果不能被相信的概率。

也就是說，p值就是“實驗結果完全是瞎貓碰到死耗子”的幾率。

直覺告訴我們，這個p值應該是越低越好，因為越低，他就表示我們的實驗越可以被相信。

那么多低是低呢？標準是啥？硅谷各公司，普遍采用的p值標準線是0.05。如果p小于0.05，那結論就可以被相信了！

下面咱們來計算一下p值。（需要你靜下心來讀）

統計方法上，我們會先來一個“無效假設（Null Hypothesis）”：也就是假設結果純屬巧合，也就是假設“個性化”通知根本沒啥卵用。如果沒啥用的話，那就是說。。。兩組之間的實際App打開率應該相等的*（此處有簡化，詳情見文末）。

我們來算一下，第一組的App打開率4/95 = 4.21%。

下面，重點來了，我們需要計算的是，按照4.21%這個打開率，第二組出現11個人打開App的概率是多少呢？這個概率，就是“無效假設”成立的概率。

無論文科理科，這是一道高考送分題，答案就是：

這個值，就是p值， p = 0.0037。它代表，“個性化通知”沒有任何用處的概率僅為0.0037。

剛剛說過，p值的檢測標準是0.05，你看，咱打開率的p值小于0.05，那么就可以說實驗可信！“個性化”通知，對于促進用戶打開App，有效！你們決定上線新產品！

可是就在這時，數據部門，突然給你發來了最新的另一組數據。。。

實戰應用

數據部門告訴你，用戶看了推送通知之后，其實還有一些用戶有刪除App的行為發生?？赡苁且驗榭戳颂嗤扑吞珶┝?，直接刪了App。數據是這樣的：

現在這樣看來，第二組收到個性化推送的人，刪除率是2.8%，高于第一組的1.1%。甚至都已經雙倍了！難道是因為用戶看到了自己的名字在推送里，很害怕然后就把App刪掉了？

這可怎么評價?。?！太煩了，要是兩組數據結論不同，還怎么上線新產品啊。。?？磥碛忠罕屏?，哎。

稍等，我們剛剛介紹了p值的概念呀??！趕緊計算一下刪除率的p值！

經過一番計算，刪除率的p值等于……p = 0.1795??！大于0.05，什么意思，p值大于上面提到的分界線！也就是說，刪除率上升，純屬偶然！

這下好啦??！產品決策清晰了！

相比原來的非個性化推送，我們發現個性化的推送打開率有顯著性提升，而刪除率則沒有顯著的統計學差異。

于是，你歡快地決定：上線“個性化推送”功能！！今晚請大家吃雞！！

A/B測試

上面提到的，整個新產品的驗證過程，被稱之為“A/B Test”（AB測試）。A和B就是指，實驗里的兩個組。

AB測試是最最簡單的工具啦，實際工作中會遇到更多的奇葩情況，那“A/B Test”可就不夠了。比如，涉及到兩個用戶以上的社交功能，還有涉及到“錢”的情況等等，這些我以后再講。。。

可以說，硅谷就是由實驗驅動著的。無論是一個小小的UI變動，還是推薦算法模型的升級，都會進行一次實驗。因為實在是太常用了，很多大型App里，往往同時運行著超級多的實驗。

為了提高效率，各廠們都紛紛開發了，專門的實驗工具和分析系統，讓人們快速使用。

比如：

Google旗下Analytics產品的Content Experiments工具：

他可以快速的通過UI創建一個實驗，還能在運行時，利用Multi-armed bandit算法，自動調整并分配流量比例，到不同的用戶組，以加快實驗速度。結束后，還會自動生成報表。

Uber的實驗平臺XP：

XP不僅是實驗和分析工具，還幫助Uber安全上線和部署新功能，實時觀測數據。

Airbnb的實驗框架?ERF（Experimentation Reporting Framework）：

ERF的交互設計非常好，還提供了美觀的報表系統，p值一目了然：

Netflix的跨平臺實驗工具ABlaze：

他有著跨平臺的優良特性。要知道，其實Netflix的壓力非常大。數據發現，如果用戶不能在90秒內找到自己喜歡的影片，他們就會關掉App。借助ABlaze，Netflix得以快速迭代產品，以便滿足全球超過一億用戶的觀影需求。

其實，這里還是要提一句，硅谷各企業的產品決策，絕對不是只考慮“p<0.05”這么簡單啦。

這里也僅是出于科普的目的，對實際情況進行了極大的簡化。

比如，當年“扁平化設計”剛出的時候，通過數據來看，用戶肯定不滿意，覺得丑。但是蘋果，偏是不聽呢～就要上線，就要上線，就要上線～最后你看，用戶乃至業界還不都是被成功的教育了。

更進一步

你可能會問，為啥這些硅谷企業都選0.05這個數字呢？

答案就是：

嗯……其實這個真的就只是一個約定俗成的數值而已。

Tommy告訴我，提出這個值的人，還是和英國有關。這是幾十年前，英國統計學家Ronald Fisher提出來的，后人沿用了而已。

當然，很多產品為了更加可靠，也會使用更低的p值, 比如0.01。

不僅僅是硅谷這樣的工業界啦，在學術界，尤其是統計學支撐的學科，比如心理學，生物醫學甚至經濟學，“p < 0.05”早就被當作常識一樣了。

比如，醫學領域，有人提出了一種新藥。想知道這種新藥的效果，那就要進行實驗了。簡單來講，他們會找到一些病人，隨機的分成兩組，比如每組20個人。

雙盲測試：醫生和患者都不知道分組情況

一組人，作為測試組，會按時吃這種新藥。而另一組則是控制組，不會吃這種藥。

當然了，也不是啥也不吃。他們會被要求隨便吃點啥，比如吃淀粉片，這東西被稱為“安慰劑”。

因為心里作用也會影響治療效果，所以不能讓他們知道其實他們吃的東西沒啥用嘛。吃安慰劑，就能保證他們不知道自己被分到了控制組。

實驗結束之后，會看看哪組人治愈率更高，這我也是從身邊好多醫學生物學博士朋友那里知道的：他們經常說，科研狗奮斗一生，就為了那0.05，其實硅谷的碼農們又何嘗不是呀～

后記

我告訴Tommy，你看“p < 0.05”對吧，這就意味著，概率上來講，咱們每上線20個產品，其實就會有一個產品是垃圾。。。所以，別難過了，你可能就。。。恰好是那個垃圾。。。

然后Tommy把我打了一頓 ??

備注

文中p值計算過程和描述并不完全準確哈，而是為了可讀性，進行了簡化。首先p值不是“無效假設”成立的概率，而只是可以“表示”這個概率的大小。另在案例計算中，因為第一組的4.21%也不能代表真實情況。這里其實是在比較兩個樣本的分布。特此大感謝我的數據科學家同事+朋友Cora幫我Review～實際比較復雜，比如先看成是一個正態分布，然后計算一堆值，再。。不說了，你去看統計學課本吧。。但是告訴你一個小秘密，已經有很多開源在線工具可以幫你計算p值了: （可見對于文中的例子，打開率p值可以為0.0453。）

另外，感謝我的博士朋友：（以下為他貢獻原文）其實利用p值是頻率學派的假設檢驗方法，而p值的濫用已經是科學界的一個嚴重問題。2017年nature上有篇文章redefine statistical significance 是一堆統計學大佬寫給科學家群體的，大意是我們認為貝葉斯假設檢驗的框架更好，但是鑒于科學家普遍沒有受過貝葉斯框架的訓練，那么為了降低得出錯誤結論的概率，至少把p值的閾值降到0.005。

作者：Han，facebook美國硅谷總部商業產品全棧軟件工程師。先后負責facebook中小企業廣告及大型電商零售企業廣告商業產品開發。微信公眾號：涵的硅谷成長筆記（ID：HanGrowth)，和我一起向硅谷大牛們發起夸學科學習進擊，共同見證進步。

本文由 @Han 原創發布于人人都是產品經理。未經許可，禁止轉載。

題圖來自pixabay，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

Han

公眾號:涵的硅谷成長筆記

26篇作品 215641總閱讀量

B端產品的“能力與體驗”，如何平衡？

06-118317 瀏覽

如何通過指標體系的構建和應用提升會員忠誠度？

03-275174 瀏覽

公開課 | 如何讓 AI 產出高質量、高可用的內容？

09-064136 瀏覽

AR、VR、MR，只是XR的一部分

11-201040 瀏覽

產品第一課，學會和用戶好好說話

11-132915 瀏覽

評論

simohayha

還可以用standard error of proportional來解釋一下，第一個例子中的兩個比率，他們各自的95%置信區間是有重疊的

最近來自上海回復
1. simohayha 回復simohayha
  
  …，應該是standard error of proportion
  
  最近來自上海回復
roddy

只有大公司玩玩了~~~而且是核心功能玩玩了

最近來自浙江回復
Deecky

我看得云里霧里不知道怎么跟公司的PM解釋

最近回復
Sean Wang

有點意思，撕逼的時候可以拿出來忽悠人 ?

最近來自浙江回復
1. Han 作者回復Sean Wang
  
  國內好多都不靠做實驗的嗎～～
  
  最近來自美國回復