數(shù)據(jù)分析前的準備及如何為我們帶來長期價值?
數(shù)據(jù)分析在如今的互聯(lián)網(wǎng)公司中很常見,但是很少有人思考分析數(shù)據(jù)前要做哪些準備,以及數(shù)據(jù)分析是如何帶來長期價值的?本文將從三個方面展開分析,對數(shù)據(jù)分析感興趣的童鞋不要錯過。
一、數(shù)據(jù)分析前的準備
數(shù)據(jù)分析前的準備過程,在我看來比實際的分析更為重要。
假設目標是錯的,我們就不應該執(zhí)行。而目標不同,分析類型和分析內(nèi)容也不同,同時執(zhí)行多個方向,很容易使自己陷入混亂。
1. 定義目標,辨別指標
數(shù)據(jù)分析,能幫助我們了解業(yè)務運行狀況,并從中發(fā)現(xiàn)問題、優(yōu)化問題。其次,還能夠幫助洞察下一個增長點。
但數(shù)據(jù)分析的意義,往往在數(shù)據(jù)產(chǎn)生之前。我們應圍繞產(chǎn)品目標,進行產(chǎn)品設計以及運營策劃。如果最開始的目標及指標設置錯誤,后續(xù)的工作將難以為繼。
目標是結果,而指標是對結果分拆的具體要求,是對目標的衡量。
假設我們的目標是提升年度成交金額,那衡量這個目標的方法是什么呢?
根據(jù)衡量的方法我們才能定向的設置調(diào)整產(chǎn)品設計及運營策略。如果缺少可衡量目標的單位和方法,目標會難以達成。
而圍繞目標設置數(shù)據(jù)的采集方案,可以大大節(jié)省數(shù)據(jù)過濾和清洗的時間。
甚至于在明確指標后再最開始就設置好分析模型,通過監(jiān)測模型中的數(shù)據(jù)情況更及時的發(fā)現(xiàn)問題,做出更高質(zhì)、高效的決策。
2. 辨別指標的目的
辨別了目標和指標,下一步則是運用結構化思維進行拆解、延伸。
在拆解之前,需要對自己提問:拆解出的指標目的是什么?根據(jù)目的我們才能有傾向性的分析。
根據(jù)指標目的,可以分為結果指標、過程指標以及觀察指標。
結果指標用于衡量目標,過程指標用于體現(xiàn)如何完成。觀察指標則指的受影響指標,其是否會受到自變量(結果指標)的影響,導致上升或下降。
在上圖中,基于成交訂單數(shù),設置過程指標為訂單平均金額及商品分布能幫助我們了解完成的方式。
而觀察指標的設置,是為了跳出框架思考。
上圖的用戶付費率,可以監(jiān)測成交訂單數(shù)上升,是否帶動用戶付費率的上升,從而判斷是局部還是整體上升;而成交深度及ARPU/LTV則可以幫助我們考察下一個增長點是什么。
在設置結果指標時,除了核心指標,還應輔以制衡性指標,它的目的是希望核心指標完成的更為健康。
核心指標和制衡性指標所延展的過程、觀察指標是不同的。
3. 確認分析類型
完成了目標和指標的設置,接下來是對每個指標進行細化分析,分析類型包含:描述性分析、預測性分析和規(guī)范性分析。類型不同,作用也不同。
1)描述性分析
表現(xiàn)形式:數(shù)據(jù)報表。
數(shù)據(jù)報表能夠幫助我們描述事件發(fā)展的情況,但很難解釋某種結果發(fā)生的原因和未來可能的趨勢。
它更偏向結果性的描述,此前的結果對此后是不具備太多參考意義的。
2)預測性分析
表現(xiàn)形式:用戶相似度及物品相似度計算、用戶購買飽和度、用戶成交影響因子。
預測性分析可以理解為對結果和變量的關系進行預測的過程,包含相似度、相關性分析、回歸分析等。
相似度多用于推薦算法,通過計算用戶的相似度和商品相似度從而推薦給用戶。而相關分析用于預測變量的關聯(lián)性,如用戶的成交會受什么因素影響。
3)實證性分析及規(guī)范性分析
表現(xiàn)形式:A/B實驗。
實證性分析,指是什么,偏向于客觀;規(guī)范性分析指應當做什么,偏向于主觀。
在實際使用過程,上述的4種分析類型常常會被混合使用,混合使用時應明確不同類型我們應采取的分析維度。
數(shù)據(jù)分析是有順承關系的,先采集事實,再根據(jù)事實或者預測,提出我們的假設。逐步灰度地驗證假設,最終才輸出我們的結論。
不能將主觀猜測強加于事實之上,已經(jīng)發(fā)生的結果并不一定是未來的結果。
二、數(shù)據(jù)分析如何帶來長期價值
學習了方法,做好了準備,終于進入了分析的環(huán)節(jié)。
筆者此前面向的數(shù)據(jù)分析,常常是“一錘子買賣”,花了很大的力氣采集數(shù)據(jù)卻沒有了下文。
為了使有用功更多,下文將從用戶和收益2個維度分享數(shù)據(jù)如何為我們沉淀長期價值。
1. 了解我們的用戶
這一步是為了讓我們知道完成指標的用戶是誰,常常以產(chǎn)品的會員體系作為切入點。會員體系越清晰,分析效果越好。
本節(jié)將以電商產(chǎn)品為例,和各位分享如何基于用戶的延伸分析。
1)基礎信息
基礎信息,指用戶本身的屬性。
身份特征,可以從自然屬性、社會屬性向下細分,包含用戶的性別、年齡、職業(yè)、教育等。
渠道屬性,指用戶的注冊時間、注冊平臺、注冊來源等。
2)決策類型
決策類型,主要分為決策周期、品類偏好、促銷偏好、對象偏好,這是用戶分析中常常被忽略的一方面。
決策周期中的首次訪問,指的首次觸及該商品的時間。結合次數(shù)、時長以及成交時間,從而了解用戶的決策周期。
品類偏好,結合品牌和歷史成交單數(shù),能夠幫助我們獲悉品牌、價格綜合對用戶的影響。
而成交品類、商品、單數(shù)則是幫助我們理解其品類購買深度及路徑,用于進行關聯(lián)推薦和評判用戶的價值。
促銷偏好,結合品類和折扣金額了解用戶的敏感度,能更好的提高其轉化率。對象偏好,同樣是了解購買深度及路徑,不過維度不同。
在用戶層面的分析,此前接觸的一些朋友都非常熱衷于使用RFM模型,在使用過程中也應“因地制宜”。
3)購買路徑
品類深度、對象深度是影響決策類型的因子,當它們在購買路徑時則聚焦于次序。
根據(jù)次序,制定運營的發(fā)力點,再遵循用戶的購買路徑制定轉化路徑。
在用戶分布相對穩(wěn)定的前提下,應順從用戶的購買規(guī)律而非傾力于另一條主線。
一專多強的前提是專,只有聚焦優(yōu)勢品類或主題建立了優(yōu)勢,才能為其他的方向供應炮彈。
4)增長觀察
前面解決的問題是:他是誰,買什么以及怎么買。最后一點,則是增長觀察。
購買路徑聚焦于次序,增長觀察聚焦于深度。購買的次序是運營的主線,購買的深度用于精細化運營。
了解用戶在品類和對象的購買深度,再輔以ARPU與LTV的比對,從用戶的剩余潛力尋找平臺增長點的方式。
2. 建立你的用戶模型
了解用戶的下一步,是建立用戶模型。
在一次交流會上,前輩阿翹對我提問:“你所負責的產(chǎn)品,用戶畫像是怎么樣的?”
當時我把平臺用戶的地域、年齡、性別等分布介紹了一番。緊接著他提問:“根據(jù)這樣的畫像你能夠做什么呢?”
再后來,我才學會了把數(shù)據(jù)聚合成特征,把特征集合成模型。
基于對用戶的認識建立模型,以上一小節(jié)的決策模型為例。
將決策類型、品類偏好、對象偏好、促銷偏好4個因子的關聯(lián),并輔以用戶的基礎信息進行組合。
如:“精打細算、專注大牌、疼愛孩子的母親”。
這樣一來冰冷的數(shù)據(jù)也被賦予了情感化的表達,無論是產(chǎn)品設計、交互設計、產(chǎn)品運營都會變得容易的多。
建立起用戶模型,才能夠更好地進行情感化設計、精細化運營。
3. 分析與收益相關的行為
收益,常用成交或ROI進行衡量。那我們怎么判斷與收益相關的行為呢?有關程度又有多高?
判斷相關性及其程度時,使用的方法是:相關性分析。
相關性分析主要用于:
- 判斷兩個或多個變量之間的統(tǒng)計學關聯(lián);
- 如果存在關聯(lián),進一步分析關聯(lián)強度和方向。
根據(jù)數(shù)據(jù)的類型不同,所采取分析方法不同。
關于收益及影響收益的行為,二者都屬于無序分類變量,此類數(shù)據(jù)的分析方法是卡方校驗。
卡方檢驗,用于統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,如果卡方值越大,實際觀測值與理論推斷值偏差程度越大。
反之,二者偏差越??;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
在實際分析時,會先進行假設,并通過計算判定其假設成立的概率從而反推其不成立的概率。
以判定關注與成交行為是否有關為例,介紹卡方校驗。
1)提出假設
假設:關注與成交無關。
2)計算實際觀測數(shù)據(jù)及理論推測數(shù)據(jù)
將關注及成交的相關數(shù)據(jù)進行統(tǒng)計,可得出下表:
根據(jù)表格,可計算出綜合的成交率等于58.3%。
假設關注與成交行為無關,成交率應不隨關注行為變化而變化,或數(shù)據(jù)抖動較小。
將觀測的成交率代入原表,并得出理論推斷值。
完成了這一步,就可以進行卡方檢驗的計算了。
3)卡方校驗計算
繼續(xù)代入公式:
當我們計算出卡方值時,可以初步判定由于卡方值較大,實際觀測值與理論推斷值差異較為明顯,原假設關注與成交無關成立的可能性是比較小的。
4)計算自由度及P值
而到了判定可能性具體的程度,則是根據(jù)P值(用于判斷判定假設檢驗結果)進行校驗,P值越小,原假設關注與成交無關的概率也越小。
由于其自由度等于1,結合卡方值再查詢卡方分布表可得P<0.01,所以原假設成立的可能也越小,即關注與成交有關的概率非常大。
在實際使用時,同樣的也須兼顧樣本和觀測時間周期,樣本包含準確性和數(shù)量,觀測時間周期則用于分辨其抖動性。這2者較為基礎也就不過多描述了。
相關性分析,用于代表相關程度,只能說明有關但并不能說明因果性。
對變量之間的依賴關系進行定量關系及因果關系的研究,我們還會使用回歸分析進行計算。但由于計算方式并非本文的重心,在此也不過多的贅述了。
本小節(jié),也有較多的概念概念并未在本文提及,此部分將附在文末。
三、小結
個人認為數(shù)學方法是非常重要的領域知識,很多時候不是不會數(shù)據(jù)分析,而是不知道使用什么方法分析。因為不曾見過,所以也未曾往陌生的方向思考。
遇到這樣的問題時,先運用逆向思維確認分析目標,其次再進行結構化的拆解,再逐層學習分析時應該使用的方法。
若時間寬裕,還是建議閱讀統(tǒng)計學相關的書籍。耐下性子閱讀,工具書的收益會比大部分同領域的文章都大。
參考資料:
1、相關性分析
https://zhuanlan.zhihu.com/p/94070722
2、數(shù)據(jù)的類型
https://blog.csdn.net/weixin_34203832/article/details/88687669
3、統(tǒng)計學——卡方檢驗和卡方分布
https://blog.csdn.net/snowdroptulip/article/details/78770088
4、自由度計算
https://www.cnblogs.com/mahailuo/p/10932026.html
5、什么是P值
https://baike.baidu.com/item/P%E5%80%BC/7083622?fr=aladdin
6、什么是A/B測試
https://www.zhihu.com/question/20045543
7、回歸分析
https://www.jianshu.com/p/bbe0c702b5ad
#專欄作家#
WISE,微信公眾號:Becomewiser,人人都是產(chǎn)品經(jīng)理專欄作家。騰訊產(chǎn)品經(jīng)理,專注于精細化運營、用戶數(shù)據(jù)體系建設等領域。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理?,未經(jīng)許可,禁止轉載
題圖來自Pexels,基于 CC0 協(xié)議
大佬的文章很贊
特征取數(shù)是難點