冰與火之歌:數據分析的前世今生(一)
依托于統計學的數據分析,存在許多先天性的不足,例如對數據的精確度要求很高,無法做到實時的分析等等。而當下最時髦的數據分析——大數據分析,就能很好地彌補統計學的不足,下一期我們會講數據分析的今生——大數據。
從不會說話的死人說起
二戰時,從戰火中返航的飛機的傷痕呈現某種規律,有的部位中彈多,有的部位中彈少。為了提高飛機的防御力,直覺上似乎應該在彈孔密集處加強裝甲。
但如果僅僅根據返航的飛機上的彈孔分布,來研究該加強飛機的哪部分時,就忽略掉了“飛機被擊落”這個篩選的過程。也就是說,能返航的飛機都是躲過防空炮火篩選的、沒有受過致命傷的。他們多中彈于翼部和尾部,而油箱和駕駛員倉位完好,這恰恰說明翼部和尾部不是致命傷,不應該加強;而油箱和駕駛員倉位受傷的飛機,基本沒有活著回來的,因此油箱和駕駛員倉位才是真正致命的地方,這些部位受傷的飛機卻因為被擊落而被篩出研究樣本,從而變成了“不會說話的死人”。
下圖為沃爾德在論文中計算飛機被擊落概率的方法:
從二戰飛機的故事,我們可以看到,同樣的數據,都能得出完全不同的判斷。而如何做出正確的判斷,則取決于人的數據分析能力。這個系列,我會闡述經典的數據分析方法以及當下流行的數據分析方法,即以統計學為基礎的數據分析,和以大數據為基礎的數據分析。
數據分析的前世:統計學
三百多年前,一個名叫約翰·格朗特(John Graunt)的英國縫紉用品商提出了一個很有新意的方法,推算出鼠疫時期倫敦的人口數,而這種方法就是后來的統計學。他利用教區死亡記錄數據來估計倫敦的人口,每年倫敦大約有13000葬禮,每十一個家庭平均每年3人死亡,家庭平均8個人,因此倫敦的人口約為384000。采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。由此我們可以得出統計學的定義:
統計學是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
統計學的分析方法
所有優秀的分析師,無論專長及目標如何,都會在工作過程中按順序執行以下流程,同時通過經驗數據來推敲各種問題。熟悉地運用這套流程,把它變成你的第二本能,你會發現,無論面對多么復雜的問題,都可以引刃而解。
1. 確定問題
數據分析的核心目的,是為了解決已知的某種問題,例如:
- 堅果PRO今年的銷量會達到多少
- 滴滴進軍海外市場的第一站該選擇哪里
- 朝鮮對于韓國部署薩德系統的態度是怎樣的
然而,并不是所有人都清楚他們需要解決的問題,未明確定義自己的問題或目標就開始進行數據分析就如同未定下目的地就上路旅行一樣。
我們來看看客戶對數據分析師常常提的問題之一:
這個問題表面上非常清楚,客戶只是想要你“提升銷量”而已,但這只是最初答案,你需要盡量多從他那里多了解一些信息,才能確定問題:
- 你想要提升多少銷量
- 公司之前是否有提升銷量的策略和方法
- 你覺得當前的目標銷量合理嗎
- 我們的競爭對手銷量如何
- 第三季度的銷售數據與第二季度的有很大差異,原因是什么
作為一個數據分析師,你對客戶了解越深,你的分析才越有可能派上用場。所以,在溝通之前,你可以構建客戶的用戶畫像,這能幫助你更好地溝通并理解客戶的需求:
2. 分析
當我們明確問題,并根據問題收集好需要的數據后,就可以開始分析。而分析的關鍵點在于分解:
2.1 分解問題
你需要把問題分解為可管理、可解決的組塊,以之前提到的“滴滴進軍海外市場的第一站該選擇哪里”為例,借助思維導圖,我們可以對問題做以下分解:
2.2 分解數據
同樣的道理,你需要把數據分解為更小的組塊,而這里分解的核心在于高效的比較因子,即找出重要數據之間的因果關系/相關關系。找出高效的比較因子的方法有很多,感興趣的同學可以看看《深入淺出數據分析》這本書。
3. 評估
評估,根據你分解的問題組塊以及數據,通過比較,并根據經驗或者理論知識做出假設的過程。
4. 決策
決策,即為對你的評估結果進行總結,并向客戶提出建議或者方案。對決策內容的表述,建議采用麥肯錫公司的金字塔結構。
以一家B2B電商公司為例
以我曾經工作過的一家B2B電商公司為例,當時上層提出的問題是想要提升廣告的收入。
1. 明確問題
即上層對于提升廣告收入的一些想法和顧忌:
- 希望廣告收入提升30%
- 不希望廣告影響用戶體驗
- 目前廣告流量約占網站流量的5%
- 我們的收費模式為CPC模式,之前采用過CPM、CPT模式,但是效果不好
2. 分析問題
我們需要確定提升廣告收入的方法:
通過這個公式,我們知道了廣告收入的比較因子為:廣告流量與廣告點擊率,由此可以對數據進一步細分拆解:
廣告流量:
- 廣告都分布在什么頁面上?
- 每個頁面的廣告流量是多少?
- 每個頁面的自然流量是多少?
點擊率:
- 每個頁面的廣告點擊率是多少?
- 每種形式的廣告點擊率是多少?
- 近三個月廣告點擊率的變化趨勢是什么?
3. 評估
通過對問題和數據的拆解,我們發現一個很有意思的現象:
企業黃頁的點擊率遠高于其他頁面,然而廣告流量僅占廣告流量的5%。隨后,我們對客戶進行了訪談,發現B端客戶的生意都是幾十上百萬的,他們在購買商品前普遍都會查詢企業的資質以及相關信息,這也就是為什么企業黃頁點擊率遠高于其他頁面的原因。
4. 決策
根據上述的情況,我們向產品團隊提出了下述兩個意見:
- 將其他頁面的流量引導到企業黃頁
- 優化其他頁面,突出顯示企業的資質信息
最后,產品團隊采納了我們的建議,下一個月的廣告收入同比提升50%。
統計學的局限性
當然,依托于統計學的數據分析,存在許多先天性的不足,例如對數據的精確度要求很高,無法做到實時的分析等等。而當下最時髦的數據分析——大數據分析,就能很好地彌補統計學的不足,下一期我們會講數據分析的今生——大數據。
作者:曹思龍,微信公眾號:及策云課堂。Admaster產品經理,畢業于北京郵電大學,知乎專欄作者
本文由 @曹思龍 原創發布于人人都是產品經理。未經許可,禁止轉載。
期待后續 ??
第二篇:http://www.aharts.cn/data-analysis/686309.html
寫的不錯,數據很美。
感謝贊美,可以關注我的微信公眾號,每周更新數據分析相關內容 ??
受教了,正想了解數據分析相關的知識
第二篇:http://www.aharts.cn/data-analysis/686309.html
挺不錯的,下一篇關于大數據分析的什么時候更? ??
不出意外,應該在本周 ??
第二篇:http://www.aharts.cn/data-analysis/686309.html