數(shù)據(jù)處理與分析|涵蓋七大分析方法

15 評論 9469 瀏覽 61 收藏 19 分鐘

編輯導語:當我們面對繁雜的業(yè)務數(shù)據(jù)時,我們需要對數(shù)據(jù)進行處理、篩選、整理,否則數(shù)據(jù)只能是數(shù)據(jù),而不能成為輔助我們推進下一步業(yè)務的依據(jù)。那么數(shù)據(jù)分析人員可以采納什么方法進行數(shù)據(jù)整理?本文作者就數(shù)據(jù)處理、及數(shù)據(jù)分析的常見方法做了闡述,一起來看一下吧。

本文針對性地講講數(shù)據(jù)分析整個流程最關鍵的階段:數(shù)據(jù)處理與分析階段。該階段我分成了三塊:數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析,都圍繞著“數(shù)據(jù)”進行,對海量或雜亂數(shù)據(jù)進行處理分析,從中找出痛點,洞察問題。

一、數(shù)據(jù)采集

該處的數(shù)據(jù)采集指的是獲取分析所需要的數(shù)據(jù),一般可以從內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)兩個方向獲取。

1. 內(nèi)部數(shù)據(jù)

1)直接獲取

直接獲取的前提是,公司進行了數(shù)據(jù)倉庫的建設,已為決策分析提供了所有類型數(shù)據(jù)支持。該部分內(nèi)容在之前的文章中也提到過,但是在這里更加細化地做了點補充。

直接獲取就是指數(shù)據(jù)庫中有現(xiàn)成的表可以直接獲取到所需的數(shù)據(jù),不需要分析師再在sql上做復雜的處理。

公司一般會將數(shù)據(jù)分為ods、dwd、dwb/dws層數(shù)據(jù)。

  • ods層:明細數(shù)據(jù)。數(shù)倉不做任何數(shù)據(jù)處理,直接原封不動地將數(shù)據(jù)同步到該庫上。為dw層的數(shù)據(jù)加工作準備。
  • dwd層:明細數(shù)據(jù)。該層數(shù)據(jù)已在ods層上對數(shù)據(jù)做了清洗操作,比如去除空值、臟數(shù)據(jù)等。
  • dwb/dws層:聚合數(shù)據(jù)。主要對ods/dwd層的數(shù)據(jù)做些輕度匯總,會涉及較多業(yè)務指標數(shù)據(jù)。如根據(jù)ods/dwd層的明細數(shù)據(jù)計算出七日復購率、周同期對比數(shù)據(jù)、毛利率等指標供分析師直接查詢使用。

一般情況下,分析可以直接從dwb/dws層調(diào)取現(xiàn)成的指標數(shù)據(jù)進行分析,特殊情況下也可以從dwd層寫復雜sql的方式計算成所需的數(shù)據(jù)。

2)重新落表獲取

前提是dwb/dws層沒有現(xiàn)成的數(shù)據(jù)可以直接獲取,哪怕自己寫代碼可以從dwd層獲取,也需要寫很復雜的代碼。此時,請數(shù)倉協(xié)助落成聚合表再去調(diào)取數(shù)據(jù)。

重新落表一般會涉及人力資源的協(xié)調(diào),需求的溝通。分析師擔當業(yè)務方和數(shù)倉之間的橋梁,將業(yè)務方的需求理清楚之后,自身又作為數(shù)倉的需求方對數(shù)倉提需求。

2. 外部數(shù)據(jù)

當分析的內(nèi)容內(nèi)部數(shù)據(jù)無法滿足時,或者不夠全面時,此時需要借助于外部數(shù)據(jù)來輔助分析。

1)行業(yè)報告數(shù)據(jù)

比如艾瑞網(wǎng)、極光大數(shù)據(jù)、阿里研究所、199IT互聯(lián)網(wǎng)數(shù)據(jù)中心等都會時不時的發(fā)一些行業(yè)分析報告。整個行業(yè)的數(shù)據(jù)公司內(nèi)部是無法獲取的,所以可以從一些行業(yè)分析報告入手。

2)問卷采集

比如我們需要獲取用戶的一些:

  1. 主觀想法:喜歡我們產(chǎn)品的原因是?我們產(chǎn)品最吸引您的點是?您覺得我們產(chǎn)品最應該改進的點是?
  2. 對競品的行為:您在xx場景下更愿意使用A產(chǎn)品、B產(chǎn)品還是C產(chǎn)品?
  3. 用戶習慣的場景:您在什么場景下更愿意使用xx產(chǎn)品?等。

通過問卷數(shù)據(jù)獲取一些產(chǎn)品中無法獲得的數(shù)據(jù),輔助分析。

3)宏觀數(shù)據(jù)

有時候我們分析的某個指標有時候也會受到宏觀政策的影響,比如宏觀上某項指標上調(diào)了xx,對我們的業(yè)務會產(chǎn)生怎樣的影響。

二、數(shù)據(jù)處理

對分析師而言,這步需要分析師將數(shù)據(jù)根據(jù)腦中的分析框架處理成所需要的數(shù)據(jù)。

1. 處理內(nèi)容

會涉及數(shù)據(jù)異常值處理、缺失值處理、數(shù)據(jù)轉換、數(shù)據(jù)聚合、數(shù)據(jù)分組歸類以及數(shù)據(jù)準確性的校驗,為下一步的數(shù)據(jù)分析奠定好基礎。

井井有條的數(shù)據(jù)更有利于分析:

  • 剔除無效數(shù)據(jù),比如異常值、缺失值、重復值等。
  • 考慮清楚數(shù)據(jù)聚合的維度,比如時間上、地域上、用戶上、商品上等按照什么維度聚合。
  • 做好數(shù)據(jù)聚合的處理,比如需要借助開窗函數(shù),是否需要去重計數(shù),是否需要累積計數(shù)等。

2. 數(shù)據(jù)驗證

數(shù)據(jù)采集到之后,還要做好數(shù)據(jù)驗證,目的是確保數(shù)據(jù)準確性,切忌拿到數(shù)據(jù)立馬動手分析。

1)從驗證人員來看

自身多方驗證:初始先自身驗證一番,與現(xiàn)有報表中已有數(shù)據(jù)進行對比,觀察是否一致。

與需求方協(xié)同驗證:數(shù)據(jù)調(diào)取之后先出一份數(shù)據(jù)表,提供給需求方共同驗證。不過分析師接了需求,保證數(shù)據(jù)準確性是基本要素,一般情況下需求方并不會協(xié)同驗證。前提是,無現(xiàn)有數(shù)據(jù)可供對比查驗,可將數(shù)據(jù)先提供給需求方過一眼,確保數(shù)據(jù)準確無誤。

2)從驗證方式來看

定性驗證:通過經(jīng)驗或邏輯推理,主觀判斷該數(shù)據(jù)是否符合經(jīng)驗或正常邏輯,比如你取到的某個商品的gmv比整個品類的gmv還要大,就不符合正常邏輯,肯定有誤。

定量驗證:依據(jù)統(tǒng)計方式,計算出具體的指標,多方交叉驗證。

三、數(shù)據(jù)分析——七大分析方法

數(shù)據(jù)分析方法很多,網(wǎng)上有很多資料,這里就講一下其中比較常用的幾種分析方法。

1. 關聯(lián)規(guī)則分析

關聯(lián)規(guī)則分析其實就是購物籃分析,就是通過挖掘用戶的消費行為數(shù)據(jù),探索用戶的消費習慣,從而合理搭配商品,提升收益。

舉個簡單的例子,近30天共產(chǎn)生了10筆訂單(方便計算只虛構了10筆),1代表訂單中包含該商品,0代表訂單中未包含商品,比如111112訂單,用戶沒有買蘋果,但買了香蕉(是否買了其他商品不考慮)。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

其中購買了蘋果的訂單有6筆,購買了香蕉的有5筆,同時購買了蘋果和香蕉的有3筆。

則:

① 蘋果和香蕉組合的支持度

=同時購買了蘋果和香蕉的訂單數(shù)/總訂單數(shù)*100%

=3/10*100%

=30%

含義:同時購買蘋果和香蕉的概率有多大。

② 蘋果對香蕉的置信度

=同時購買了蘋果和香蕉的訂單數(shù)/購買了蘋果的訂單數(shù)*100%

=3/6*100%

=50%

含義:購買了蘋果的用戶有多大概率會再買香蕉。

③ 蘋果對香蕉的提升度

=蘋果對香蕉的置信度/購買香蕉的概率

=50%/(5/10)

=1

含義:購買蘋果對購買香蕉會產(chǎn)生正向影響還是負向影響還是無影響。

此案例中計算的提升度是1,表示購買蘋果并不會對購買香蕉產(chǎn)生任何影響。

詳細解釋下:

  • 若提升度=1:表示購買蘋果并不會對購買香蕉產(chǎn)生任何影響,因為在購買了蘋果的條件下去買香蕉的概率和直接買香蕉的概率是一樣的;
  • 若提升度>1:表示購買蘋果對購買香蕉產(chǎn)生了正向影響,即購買蘋果很大可能也會買香蕉,因為在購買了蘋果的條件下去買香蕉的概率大于直接買香蕉的概率;
  • 若提升度<1:表示購買蘋果對購買香蕉產(chǎn)生了負向影響,即購買蘋果很大可能就不會買香蕉,因為在購買了蘋果的條件下去買香蕉的概率小于直接買香蕉的概率。

這就是關聯(lián)規(guī)則分析,一般用以研究探索商品捆綁銷售,比如蘋果是否需要和香蕉在一起捆綁銷售,捆綁銷售收益是否會更大。

2. RFM模型

RFM模型主要用來衡量用戶價值,做用戶分群,比如區(qū)分出低價值用戶、高價值用戶、忠誠用戶等用戶群體。

  • R:用戶最近一次消費距今時間(Recency);
  • F:用戶在最近時間段內(nèi)的消費頻次(Frequency);
  • M:用戶在最近時間段內(nèi)的消費金額(Monetary)。

這里用一個比較簡單的例子講下:

先對R、F、M三個值進行分層并賦予權重(以下數(shù)據(jù)純屬虛構,分層時根據(jù)實際情況)。

比如用戶最近一次消費距今時間7天以下的打為5分,8-14天的打為4分……以此類推。分數(shù)高的表示價值性比較高,分數(shù)低的表示價值性比較低。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

然后調(diào)取出每個用戶R、F、M值,填入“按照均值處理前”列中。

比如下圖中,用戶“111113”最近一次消費距今時間在7天以下,則R為5,在最近時間段內(nèi)的消費頻次在6-10之間,則F為2,在最近時間段內(nèi)的消費金額在1001-2000之間,則M為2。

再將每個用戶的R、F、M值與均值對比,大于均值填充1,小于均值填充0,填充于”按照均值處理后“列中。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

最后將“按照均值處理后”的數(shù)據(jù)參照下圖模型表(下圖不是計算出來的,是比較常用的標準),匹配出用戶類型。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

給用戶匹配之后的用戶價值類型如下:

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

3. 帕累托分析

帕累托分析就是“二八法則”。

“二八法則”認為80%的財富掌握在20%的人手里,應用到業(yè)務中就是,80%的營收在20%的產(chǎn)品里,同理,我們應該花80%的時間內(nèi)在這20%的產(chǎn)品上。也就是說,寶貴的時間與資源應該用在刀刃上。

如下圖:展示了每個品類的銷售額,通過銷售額計算出銷售額累積值,進而算出累積百分比。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

再通過銷售額和累積百分比畫出帕累托圖,如下。

共15種品類,其中7個品類貢獻了80%的銷售額,占比46.67%,也就是說46.67%的商品為公司帶來了80%的銷售額,并不符合二八定律,該公司并沒有強勢產(chǎn)品。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

4. 用戶生命周期價值分析

用戶生命周期總價值,主要用于衡量用戶對產(chǎn)品產(chǎn)生的價值。

以一個案例講解如下:

下圖是一張留存率圖。

以2021.12.01——2021.12.07之間的七天留存率來預估14日留存、30日留存等。

如何做好用戶生命周期價值分析(LTV)

先將黃色部分的七天的留存率取均值,得到圖上最下方的留存平均值。

如何做好用戶生命周期價值分析(LTV)

然后按照留存率的均值做擬合,擬合后的結果如下圖所示。

選擇冪函數(shù)擬合,因為冪函數(shù)擬合的R方接近于1,擬合效果較好。

如何做好用戶生命周期價值分析(LTV)

則LT14=100%+51%+53%+37%+32%+29%+29%+25%+23%+22%+20%+19%+18%+17%

=4.75天

如何做好用戶生命周期價值分析(LTV)

LT已經(jīng)算出來了,那么下一步就是計算ARPU了。ARPU值直接取日均值就可以了,假如ARPU日均值是¥60,則LTV=4.75*12=285。

即用戶14天的平均生命周期是4.75天,用戶在該生命周期內(nèi)能帶來的總價值為¥285。

延伸下,如果想知道花費在這批用戶身上的成本需要多久才可以回本,怎么計算呢?這就涉及到了回本周期預估。

比如在前面已經(jīng)預估了LTV14為¥285,假如已知該渠道的CAC是¥30。

則預估的回本周期是=285/30=9.5天,即投入在該群用戶身上的成本需要9.5天方可回本。

5. 漏斗分析

漏斗分析是數(shù)據(jù)分析中比較常見的分析模型。采取漏斗的方式直觀地表示業(yè)務從起點到終點的各個環(huán)節(jié)的轉化情況,以便找出有問題的環(huán)節(jié),針對性的優(yōu)化。

如下圖,展示了用戶支付場景的轉化率:用戶從打開APP到完成支付的過程。分為進入首頁→進入商詳頁→加入購物車→提交訂單→支付完成,直觀分析每個重要環(huán)節(jié)的轉化率。以最直觀最簡單的方式反映出每個關鍵環(huán)節(jié)的轉化率,洞察主要問題所在。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

6. 波士頓矩陣

波士頓矩陣不少人在大學期間學過,工作中也是比較實用的。可通過波士頓矩陣分析公司的產(chǎn)品結構,發(fā)現(xiàn)痛點,為是否需要及時調(diào)整戰(zhàn)略目標,以及判斷產(chǎn)品的資源分配是否合理提供了數(shù)據(jù)支持。

波士頓矩陣有以下4種結構類型:

  1. 明星產(chǎn)品:成長期。該產(chǎn)品在市場上占有比較大的份額,且處于高速增長階段。未來發(fā)展為金牛產(chǎn)品的可能性比較大。此時抓住機會擴大投資,提升競爭優(yōu)勢。如圖中的蜜桔、香蕉、蘋果。
  2. 金牛產(chǎn)品:成熟期。產(chǎn)品已較為成熟,增長前景有限。穩(wěn)定發(fā)展,盡量維持好當前市場份額。如圖中的西瓜、櫻桃。
  3. 問題產(chǎn)品:導入期。高速增長卻市場份額并不高。說明此產(chǎn)品雖然高速增長,但并未及時開拓市場,營銷存在問題。如圖中的獼猴桃、荔枝。
  4. 瘦狗產(chǎn)品:衰退期。既市場份額不高,又增速緩慢,基本可以淘汰,將此資源轉而投資給其他更有利的產(chǎn)品。如圖中的草莓、楊桃、哈密瓜。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

7.?AARRR模型

AARRR模型是探索用戶增長的模型。分別對應用戶生命周期的5個環(huán)節(jié):用戶獲取、用戶激活、用戶留存、用戶變現(xiàn)、推薦傳播。

干貨|數(shù)據(jù)分析sop之數(shù)據(jù)處理與分析階段(三)

四、結語

以上就是圍繞著“數(shù)據(jù)”進行的采集、處理與分析的過程,這個過程起著承上(需求確認)啟下(數(shù)據(jù)展現(xiàn))的作用,重要性不言而喻。

數(shù)據(jù)分析的知識點很廣闊,我寫的這些也只是其中的非常小的一小部分。但經(jīng)驗與專業(yè)性就是從小起步的,一點點積累,一點點成長。

 

作者:Janie Liu;公眾號:溜溜筆記說

本文由 @溜溜筆記說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Pexels,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 用戶的LTV是用戶生命周期價值,CAC是用戶獲取成本,LTV/CAC是反映價值與成本的關系,一般大于3顯得比較健康,但文章中LTV/CAC得到結論9.5天才能回本這個是什么邏輯?

    來自浙江 回復
    1. 回本周期=ltv/cac這個能否解釋下,不是很理解。

      來自浙江 回復
    2. 感覺回本周期應該是cac/ltv?

      來自新加坡 回復
    3. cac是用戶獲取成本,ltv是用戶生命周期價值,類似于成本和收入的概念,兩者相除只是為了歸一化利潤率的情況,個人認為和回本周期關系不大。

      來自浙江 回復
  2. 生命周期價值分析那里是4.75×60=285吧 不是12

    回復
    1. 對的,乘以60。不好意思筆誤了……??

      回復
  3. 用戶生命周期價值分析沒看明白

    回復
    1. 我公眾號里面針對用戶生命周期價值詳細的講解了下,可以看看

      回復
  4. 作為一個數(shù)據(jù)分析人員,這篇文章真的干貨滿滿,給了我很多的啟發(fā)

    來自江西 回復
    1. 謝謝 ????

      回復
  5. 對于數(shù)據(jù)的分析和處理一直以來是一個很重要的議題,一定要把握好的說

    來自江西 回復
    1. 是的~這一塊知識點很多,文章中也并沒說的很全面,后續(xù)繼續(xù)學習繼續(xù)研究。有需要改進的地方歡迎指出哈

      回復
  6. 數(shù)據(jù)分析看起來很困難,實則掌握技巧,操作起來,便變得不困難

    來自北京 回復
    1. 是的,化難為易

      回復