產品經理好用易上手的數據分析方法
編輯導語:數據分析是每一位產品經理必備技能,如果你想掌握一些好用又簡易的數據分析方法,那么,我推薦你看這篇文章,本文作者據此總結了許多類型的分析方法,既簡單又好用,感興趣的朋友來一起學習吧。
前面《數據分析之前知道這 7 件事,少花 80% 時間》講了在數據分析之前需要知道的事,在進入數據分析階段,筆者總結整理了一些好用易上手的分析方法,讓你事半功倍。以下,Enjoy~
一、數據分析的金字塔模型
數據分析從難易程度區分大致可以劃分為 5 個層級,覆蓋了數據整理、統計、機器學習的過程,數據分析后的決策環節不在本次討論的范圍。
5 個層級分別包括了:量化現況、量化變數之間的相關性、量化變數之間的因果關系、預測未來和求最佳解。
Q1:SaaS銷售人員拜訪新客戶次數的走勢如何?
比如層級 1,需要解的問題是量化現況??梢允褂谩皵⑹鼋y計”、“數據可視化”等方法,把數據通過圖表的方式表現出來,從中觀察圖表的數量、頻次、波動、分布等等,這個層級主要是依賴可視化后的觀察得以實現。
Q2:SaaS銷售人員拜訪新客戶的次數,跟營業額有相關嗎?
Q3:市場部增加廣告投放量,就能得到更多訂單嗎?
像層級 2、3 中探索數據的相關和因果關系,是需要藉由數據觀察后,再進行二次推論,屬于數據挖掘。
Q4:SaaS產品經理追蹤哪些數據,才能知道用戶下個月會不會取消訂閱?
Q5:CEO該如何分配員工開發新客戶,才能讓營收最大化?
而層級 4、5 則是希望通過已有數據的樣本,去預估未來數據的可能性/概率、最佳解或近似解,屬于數據探索。
對于不同層級,需要面對的問題也不一樣,可以層層遞進,由易到難,逐一選擇數據分析需要解的問題。在進入數據分析階段,具備數據分析的層級結構認知尤為重要,這決定了你能夠在對的時機做對的事情。
二、7 種常見數據分析方法
2.1 總量分析
用于描述某個母群(population,指你想了解的集合體,可能是顧客或產品)或某個市場區隔,或者比較兩個市場區隔的差異,是最常用、最簡單的分析方法。
Q:哪些人會在酒莊辦婚禮呢?
查閱過往 3 年、300 位顧客的預約記錄→分析性別、年齡、戶籍地址→ 85% 女性、平均年齡 33 歲、60% 是當地人→如何針對這群人溝通、拓展業務?
2.2 相關分析
觀察 2 件或多件事情間的關系,期望能用一個因素解釋或驅動另一個因素。
Q:為什么推出某個功能后,轉化率會下降?
- 假設 1:轉化率跟瀏覽器有關。
- 假設 2:轉化率跟有無網絡信標(web bug)有關。
結論:
- Chrome 瀏覽器如果有網絡信標,會造成轉化率下降 13%。
- Chrome 瀏覽器造成轉化率下降 20%。
- 60% 的轉化率下降仍然無法解釋。
注:網絡信標(web bug)是一個放在網頁或電子郵件上的文件對象,用于監測用戶的行為。
2.3 趨勢分析
分析一段時期內的趨勢,常用于檢視一段時間內的銷售績效或營業成長率,目標是找出中斷的節點,并指出那段時期內受影響的原因。
Q:營收增長,但成長率卻下降,原因出在哪?
步驟 1,觀察一段時間內的趨勢。
步驟 2,加入各產品、各渠道的營收和成長率。
觀察結果:S 成長率不斷下降、M 的站外成長率卻在上升。
步驟 3,量化影響。
觀察結果:S 占營收成長率下降的 84%,必須集中心力采取行動。
2.4 規模估計
在缺乏歷史的情況下,以結構化的方法估算。通常用于進軍新市場的企劃,或是要了解未上市產品的銷售潛力。
Q:想在廣東某城市推廣小學夏令營產品,怎么估算市場規模?
步驟 1,分層。將問題切割,找出可能不同的市場區隔。
市區和郊區的小學密度可能不同
步驟 2,設計方程式。確定哪些數值和因素可能影響正在估算的規模數值。
城市、人口和財富可能影響小學的數量
小學數量=城市數量x每座城市的人口數x每群人口的學校數量x財富因數(市區和郊區的財富對比)
步驟 3,計算方程式。對方程式里的數值進行假設。
市區人口=50K,郊區人口=10K。
每10K人有1所學校,市區的財富是郊區的2倍。
市區小學估計值:20x50000x1/10000=200
郊區小學估計值:20x10000x1/10000=20
約有220所小學
2.5 預測分析
分析目前和過去的事實數據,來預測未來的事件或行為,最常使用的統計技術是回歸和分類。
Q:結賬的轉化率變低了,為什么?
利用邏輯回歸建立模型(特別的回歸形式,適用于因變數是二元性質,“有或沒有”,此案例考量即為有轉化或沒轉化)
因變數:想要預測的目標,如轉化率。
自變數:指可能和因變數有關系,或是沒有關系的一些未知數,由所提出的假設決定,如藍色按鈕、橫幅廣告等。
2.6 市場區隔
區隔顧客或產品成有意義的群組,通常是為了鎖定目標,透過量身打造的方式,讓該目標群體產生更高的價值。
Q:哪些客戶只想折扣?哪些客戶想要第一手信息?
用 RFM 模型為顧客分組。
2.7 顧客生命周期分析
觀察消費者的購買流程,以確定某一群顧客正處于哪個階段,以及怎么將他們推向下一個階段。
Q:怎么讓使用者成為重度玩家?
同類群組分析→ 客戶存活的天數過短,就必須加強使用者體驗;若新客戶人數逐漸減少,則必須加強廣告或增加促銷活動。
三、4 種統計數值掌握數據特性
手上有一群數據的時候,要快速掌握數據的特征,可以從“平均數”、“中位數”、“眾數”和“標準差”下手。
Q:這是公司全體員工職業 IT 素養程度報告,身為公司數字化轉型的負責人,該如何利用它擬定教育訓練策略?
整體實力中等,滿分 10 分,拿到平均成績為 5.8 分。
組織實力分布不均,中位數低于平均數,表示能力落后的成員較多,應依能力設計不同的課程,或由能力佳者帶領落后者學習。
員工職業IT素養程度表
四、2 個敘述統計的陷阱
敘述統計雖然能夠幫助我們掌握數據的特征,快速產生觀點,但在應用平均數、百分比推導結論時,要留意陷阱。
4.1 平均數陷阱
平均分提高了 1.2 分,表現優異。
平均數雖然提高了,但標準差只縮小 0.6分,代表組織內程度差距未縮小,可能是有IT背景者進步幅度大,拉高了平均分。
4.2 百分比陷阱
近 3 年員工職業 IT 素養的成績持平,2021 年成績跟 2019 年一樣。
不要用百分比去推算分數是否成長,因為每年的基期不一樣,所以增長或減少的數值會不同。下表所示,2021 年成績比 2019 年少了 0.71 分。
五、5 種數據比較的方式
「比較」是讓數據產生意義的有效方式,但怎么比、跟誰比?我整理了 5 種比較方式,以拿到某品牌掛耳咖啡的銷售數據為例。
5.1 差距比較:分析對象和比較對象的差異
Q:某公司掛耳咖啡包全年營收 3 億在市場上的表現如何?跟競爭對手的差距為何?
步驟 1,選擇比較對象,同類性質互比。
步驟 2,設定比較基準值,繪制條形圖。
A:掛耳咖啡包為 A 公司主力商品,雖然 A 公司在咖啡包全年收入上超越我們,但比起 A 公司,我們具有多項產品同步發展的優勢。
5.2 趨勢比較:分析一段時期內市場、營收、產品的走勢
Q:某公司掛耳咖啡包 2021 年營收 3 億,跟前幾年比有成長嗎?成長了多少呢?
步驟 1,搜集近 10 年公司咖啡包營收數據,繪制折線圖。
步驟 2,觀察曲線走向,根據轉折點、異常值推測變化的原因。
A:跟 2020 年比沒有成長太多,但與 2012 年相比營收成長了 10 倍,顯然販售聯名商品有效果。
5.3 指數分析:利用總體市場數據,判斷品牌的目標對象
Q:某公司掛耳咖啡包在市場上哪個年齡層最有優勢?
步驟 1,搜集比較對象的人口分布比例。
步驟 2,計算指數數值。當指數小于 95,代表在該年齡層為相對少數,指數大于 105 代表在該年齡層為相對多數。
A:咖啡包在 25~44 歲的客群中有競爭優勢,45 歲以上的客群還需要經營。
5.4 異質比較:分析數據的結構是否明確偏向或集中某處
Q:假設掛耳咖啡包月度營收為 250 萬,跟公司的其他產品相比表現算好嗎?
步驟 1,將所有產品月度營收分布由大至小排列,并記錄區間次數。
步驟 2,繪制直方圖,注意分散的程度、峰值數量。
圖 1:一個峰值位于中間、圖偏向「鐘型曲線」,代表數據為常態分布,產品的營收平均值與中位數較不受異常值影響,分布比較平均。
圖 2:有 2 個峰值,平均數、中位數受異常值影響,數據分布不平均。
A:產品月度營收分布如圖 1 所示,代表產品的月度營收分布平均,集中在 151~200 萬區間,咖啡包收入 250 萬高于平均,表現不錯。
5.5 變數分析:比較多個事件的關系,希望找到其中一個事件能去解釋另外一個事件
Q:網絡廣告費用的多少,是否影響掛耳咖啡包的銷售額?
步驟 1,利用 Excel 的 CORREL 函數計算廣告投入費、銷售額的相關系數,系數越接近 1,代表廣告費投入與銷售額呈正相關;系數越接近 -1,則表示兩者為負相關。
步驟 2,將數據繪制成分布圖。
A:廣告投入費用與產品銷售額呈正相關,代表投廣告的行銷策略有效,下次退出新品時可參考此策略。
六、數據比較的陷阱
Q:患者死亡率是評估醫療品質的指標之一,試試從下表評判,A、B醫院,哪間醫療品質更好?
無法評判。
參考表 1 時,B 醫院平均死亡率比 A 更低,B 醫院表現比 A 更好;但表2加入「輕重癥死亡人數」變項時,A醫院無論在輕癥、重癥死亡率都比 B 更好,為什么會這樣?
原因:
因為 A 醫院的重癥人數是 B 的3倍以上,導致平均死亡率被拉升,只要 A、B 醫院輕重癥患者比例相同,就不會有類似的問題。這個案例被稱為「辛普森悖論」現象,也就是當某項統計變項為搜集到(此例為輕重癥人數比例),造成統計結果逆轉的現象。
避免方式:
- 比較對象程度一致:醫院不跟診所比。
- 依分析目的決定數據分析方法:整體狀況適用平均數分析;群體內比較則搜集更多統計變項的數據。
七、相關關系與因果關系
Q:許多世界知名的領導者都愛好運動,前美國總統奧巴馬從小打籃球、youtube總裁沃西基擅長冰球。所以我們可以推測,「擅長運動的孩子,學習力更好」?
運動與學習力之間應為相關關系而非因果關系,兩者之間可能存在著第三變數,也就是家長對教育的重視程度。
培養運動能力,未必能提升學習力。運動能力→學習能力→家長對教育的重視程度。重視教育的家長,會引導孩子學習,所以他們的成績比較出色。重視教育的家長,會注意孩子的飲食均衡,導致體力變好。
X 導致 Y 或 Y 導致 X,其實存在另一個變數 Z,是 Z 導致 X 和 Y。舉例來說,冰淇淋的銷售量會隨著穿短褲的人數增加而增加,不是「越多人穿短褲」導致「越多人買冰淇淋」,而是兩種發生的共同原因是「夏天氣溫較高」。
如果混淆了因果和相關,比方廣告預算越多,銷售額越高,容易導致做出錯誤的商業決策。所以,較謹慎的做法是進行隨機對照實驗(RCT,Randomized Controlled Trial),或者稱 A/B 測試(A/B Testting),就是把受試者隨機分為兩組,兩組只有一個變數不同,如果導致不同結果,便可以稱該變數導致某結果,或變數和結果有因果關系。
八、利用 A/B 測試,確認因果關系
南美國總統奧巴馬的競選團隊,便是利用 RCT 測試哪一種首頁的注冊率最高。結果相比原本想選擇「影片」和「望向遠方的獨照」,最后經對實驗選擇「奧巴馬全家?!沟姆桨缸屪匀藬刀嗔?288 萬人,并多募得 6000 萬美元的政治獻金。
如果環境不允許,或是沒有資源做隨機對照實驗,《數據分析的力量》建議用「自然實驗(natural experience)」替代,就是進行一系列假設、驗證,厘清因果關系。
舉例來說,想知道改變自付額,對醫療服務使用頻率的影響??梢韵燃僭O「如果自付額會影響醫療服務的使用,70 歲以上的人,應該會比 70 歲以下的人,更常使用」,因為日本法令規范,70 歲開始,自付額由 3 成降為 1 成。
查詢公開數據后發現,隨著年齡愈大,醫療服務的使用者也愈多。但到了 70歲,原本緩慢上升的曲線突然大跳躍!
這個「斷層」代表有變數發生,而 69~70 歲比較普遍的改變,就是自付額的高低。自付額和醫療服務的使用頻率有因果關系得到了驗證。
#專欄作家#
龍國富,公眾號:龍國富,人人都是產品經理專欄作家,人因工程碩士。致力于終身學習和自我提升,分享用戶研究、客戶體驗、服務科學等領域資訊,觀點和個人見解。
本文原創發布于人人都是產品經理,未經授權,禁止轉載。
題圖來自Unsplash,基于CC0協議。
專欄作家
龍國富,公眾號:龍國富,人人都是產品經理專欄作家,CxHub主理人。致力于終身學習和自我提升,分享用戶研究、客戶體驗、服務科學等領域資訊,觀點和個人見解。
本文原創發布于人人都是產品經理,未經授權,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
關注公眾號“龍國富”, ???♂?進入客戶體驗交流群~ 來一起嘮嘮客戶體驗。
有具體表格數據就好了,可以實踐一下
這個寫得太好了
這幾個方法確實相對簡單好上手呢,收藏起來慢慢學習了!