增長模型下的數據體系運用(3):認清誤區,避免過度“數據”
之所以選擇數據這個專題作為第一篇,是因為我深信數據是基礎的基礎,是談一切方法論的依據和根基所在。盡管相信數據是必須的,但我們也常常掉在數據的“坑”里。下面列舉一些在工作中我曾遇到過的數據使用上的問題和錯誤,供大家參考。
一、為了數據而數據
您是否有過這樣的體會,面對著海量的報表數據,一陣眼暈,頓覺無處著眼,每個字節似乎都在“跳動”,仿佛身處迷霧之中?反正我有,并且常常有(今日頭條改名“字節跳動”,我腦海中浮出來的居然是這樣的報表)。
報表上海量的數據往往“看上去好像有用”,或者某一次被用到過,就上了周報、月報。隨著時間的推移,數據越堆越多,漸漸成為一片汪洋大海。這事實上也許沒什么幫助。
首先,這會消耗數據團隊的人力或技術資源來生成這些數據,消耗讀者的大量時間精力來閱讀這樣的數據,然后往往并沒有相應的產出。
其次,更糟糕的是,這樣的“汪洋大海”會使真正值得被注意的數據徹底淹沒,并得不到關注。數據太多了,大家往往干脆都不看,不是嗎?
數據是拿來用的,不用的就是無用數據。建議如下:
1. 根據會實際執行的具體動作而定制數據需求。
2. 定期回顧數據報表,哪些很久沒有被使用了,可以定期清理去除。當然,存檔性的基礎數據越全越好,但也應盡量減少數據冗余,以減低數據一致性風險。
二、幸存者偏差
統計學家亞布拉罕.沃德在二戰中受聘于美軍一個研究小組,從歸航的幸存戰機機身上殘留的彈痕,倒推出被擊落的戰機的“致命部位”,找到戰機的薄弱環節。下圖是他的統計圖:
數據統計不會騙人,該圖表明:應該在機翼和座艙前后加強防護能力。
然而,這結論真的對嗎?請思考一分鐘。
如前所述,以上的統計,主要是針對返航維修的戰斗機所做的統計。而二戰時期的戰斗機,發動機和螺旋槳基本都在飛機的機頭部位,我們應該可以想到,一旦飛機的心臟-機頭被擊中,根本沒機會返航,直接成了殘骸,而殘骸往往也很難定位被擊中部位。統計圖中機頭沒有紅點,很容易錯誤地結論機頭不需要額外加強,而這樣的錯誤,代價是慘重的。
這就是“幸存者偏差”。該現象指的是只能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。
實際的工作中我們也常遇到此類問題,例如:側重局部數據分析,而統計局部選取不甚合理,與整體狀況有較大差異,從而得出錯誤結論?;蛘?,某品類轉化較好,就結論其更符合消費者需求,而其實只是該品類獲得了大部分資源。
三、過度反應于數據小幅波動
有時對環比做統計,看到流量增減了3%,就花很多時間去做分析,卻得不出有價值結論。
這世界唯一永恒不變的就是變化。要對數據波動合理性有一個判斷,超出什么幅度才代表可能會引起業務后果的異常狀況(可以參考統計學相關知識),設立合適的警戒閾值,只有超出了上下限才觸發一次分析。這樣可以有效節省數據團隊資源,也可以讓自己專注于正確的事情。
建立數據波動警戒閾值時,建議考慮如下兩點:
1. 充分參考歷史數據情況,觀察每一次引發數據波動的值得關注的“事件”帶來對波動幅度,用統計學對方法確定警戒閾值。
2. 充分考慮正常時令因素或社會因素引起的波動,把這個波動帶進去作為正常狀態的基線,基線基礎上進一步的超閾值波動才值得進行分析。
四、忽略趨勢性數據
與上面提到的“過度反應”情況相反,有時小幅的數據持續性變化(同向的增減),可能在揭示著背后的某些必然性因素。如果觀察到趨勢性現象(連續5個或7個同向點,基于數據對應的事情本身有多關鍵),哪怕幅度微小,也應當引起重視,觸發分析。詳細參見本系列第一篇文章相關內容。
五、數據扭曲
很多時候數據受到多種未被統計到的因素影響而產生偏差。例如,下圖是某互聯網公司分析訂單與用戶自然流失關系的折線圖。
從上圖不難看出,大致在4~6單之間流失率出現拐點,因品類而略有不同。于是,我們不難結論——第5單是留存的魔法數字。也就是說,如果用戶下到第5單,留存會進入相對穩定的狀態。于是,運營團隊據此立項,通過每單補貼,或設定任務目標激勵,推動用戶從新客一路轉化到5單。
大家先思考一下,這樣做有什么問題?
可能您已經想到了,補貼激勵如果投放力度過大,會直接推動用戶產生非自然購買行為,或引發用戶“薅羊毛”的操作,并且可能會引入大批黃牛黨。而一旦到了5單,補貼結束,用戶可能就會迅速流失,并沒有如期望的那樣形成對平臺的深度認同和購買習慣。換句話說,用刺激手段給用戶打“興奮劑”后看到的并非自然行為,這也就造成了留存轉折點的變化。我稱之為數據扭曲,也就是外力作用下數據趨勢發生了扭曲,并不能反應真相。
該怎么辦在后面談留存的時候再深入探討。簡單說,首先結合用戶調研,深入理解該魔法數字背后的邏輯——往往是由于多次下單都有良好的體驗,進而逐步形成了對平臺的認同,并逐漸培養了在該平臺(或其中某個品類)的購買習慣,進而穩定留存。
因此,補貼雖然能激勵用戶復購,卻不能讓補貼成為用戶的購買主因,需要通過多元化的手段精細化結合小額補貼(如返京豆、淘金幣)運營1轉2,2轉3……,讓用戶健康成長直至穩定。
六、過度分析
開發背景的同學可能知道一個設計上常見的錯誤:Over enginnering,中文可以翻譯成“過度設計”。
意思是說,一個原本簡單的功能設計得過于復雜,過度考慮了兼容性、擴展性或異常處理等因素,全無必要地增加了系統的復雜度、開發周期并可能降低系統的性能。就像為了防止萬分之一的被高空墜物擊中而每天穿著鎧甲出門。數據的分析和運用,有時也會犯類似的錯誤。
先舉一個管理學上的栗子:
多年前我帶一個200多人的開發團隊時,內部有大約30多個小組,當時我極其信奉量化管理(CMM第4級的核心),嘗試推行一個全面的數據化績效評估體系,來考評各組的工作成效。
初期我考慮了代碼行數,bug數,按時交付情況,測試通過功能點數量等幾個核心因素,并結合SQA團隊做出的第一個版本在組長會議上進行探討。
一石激起千層浪。立刻有組長提意見,說各組開發模塊的復雜度不同,影響代碼質量和速度,因此我把復雜度作為加權系數乘了進去,于是大家一通爭執到底乘幾合適……
好不容易擺平了,又有組長提意見,說有的代碼是開發工具自動生成的,于是又把這個參數加入評估模型……
接著又有組長提意見,說有的組受客戶需求變更影響特別嚴重,要被考慮,于是……
再接著又有組長提意見,說自己組的代碼模塊是接手的,要修里面問題,和新模塊開發的難度不能比……
于是,改了幾十遍的績效模型變得龐大復雜。
盡管如此,大家好像也還不怎么服氣,因為還有更多因素沒涵蓋,而且乘以的各種權重,爭議都很大……
您可能看到問題了。雖然管理學不在本文范圍,但這同時也是一個過度使用數據的例子。
再舉另一個例子——做計劃。
有的公司做計劃十分粗放,隨便拍一個,執行的時候再說。但另一個極端是,過度計劃。
例如,預測明年的銷售,于是要分析明年的流量、商品、價格、轉化;然后對每個因素繼續深入分析,比如流量,要考慮市場宣傳、渠道、拉新活動、會員、產品和運營的動作,等等。然后每一個因素,又繼續往下細分……到最后一層不能拆了,就拍個數。看起來好像比前一種合理,對嗎?
結果是做計劃消耗了巨大的人力,在小細節上反復掂量,而忽略了很多未代入因素會產生更重大影響。比如國家經濟形式、工商政策、關稅、行業趨勢、競爭對手動作……這些因素根本無法準確預測,也無法納入量化分析。
此外,計劃做得再精細,分解得再到位,最底層數據也是“拍腦袋”拍出來的,拍腦袋數據匯總起來也還是拍腦袋數據,雖然看起來比不分解直接拍更合理有邏輯,但并不存在絕對客觀的預測和計劃。
我很相信計劃的兩面性——?一半是事先分析做出來的,一半是在執行上管出來的。
兩手抓,兩手都要硬。分析出商業目標的核心影響因素,根據同比狀況和商業需要做第一層最多到第二層分解,然后作為指標下達到各個部門,隨后以強有力的管理來推進,通過不斷的資源調整來糾偏,明確獎懲,杜絕借口,并在必要時根據實際情況對計劃做出調整。
當然,數據分析和使用,什么度是最適宜的,這個可能需要結合自己的最佳判斷來給出。但牢記關鍵——抓核心放次要,保持全局視野,勿過度陷入細節。
最后推薦一下數據分析的書。
多年前我學習數據分析的時候讀過一本書《網站分析實戰》,在建立數據思維和實用角度上,從概念到實操都極具參考意義。
數據分析這個專題到這里先告一段落,感謝大家的耐心閱讀,希望有所幫助。
最后聲明一下,所有我的文章僅代表我個人觀點,僅供學術交流探討。
作者:徐霄鵬,微信公眾號:產品遇上運營。亞馬遜高級總監,產品、中央運營及增長團隊負責人,前京東、攜程高級產品總監。精通前臺產品、運營及用戶增長等領域。
本文由@產品遇上運營 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自@Unsplash, 基于CC0協議
我看到返航飛機彈孔圖,想法是應該彈著點較少的地方加強 ?