以英國某電商平臺的年銷售數(shù)據(jù)為例,講講從數(shù)據(jù)清洗到可視化的整個流程怎么做

21 評論 8044 瀏覽 50 收藏 23 分鐘

本文選取了英國某電商平臺的年銷售數(shù)據(jù),從7個方面進(jìn)行拆解和分析,完成了從數(shù)據(jù)清洗到可視化的一整套流程。

數(shù)據(jù)對于互聯(lián)網(wǎng)+的商業(yè)模式存在巨大的價值,在業(yè)務(wù)中我們遇到的瓶頸往往通過數(shù)據(jù)分析,可以發(fā)現(xiàn)問題以及解決問題的對策。

本文對英國某電商平臺的年銷售數(shù)據(jù)進(jìn)行分析:

一、報(bào)告梗概

1. 報(bào)告背景及目的

報(bào)告對在取數(shù)區(qū)間內(nèi)的某電商平臺內(nèi)的所有交易記錄進(jìn)行了分析,平臺主要銷售獨(dú)特的全時禮品,公司的許多客戶都是批發(fā)商。為了更好地了解平臺的經(jīng)營狀況,對銷售數(shù)據(jù)進(jìn)行分析,提出優(yōu)化平臺運(yùn)營的策略,從而為平臺創(chuàng)造更多價值。

1. 數(shù)據(jù)來源及說明

數(shù)據(jù)來源于UCI加州大學(xué)歐文分校機(jī)器學(xué)習(xí)庫,是一個跨國數(shù)據(jù)集,其中包含2010年12月1日至2011年12月9日之間在英國注冊的非商店在線零售的所有交易。

數(shù)據(jù)集含有8個字段,其含義如下:

  1. InvoiceNo: 6位的發(fā)票號,系統(tǒng)為每筆交易自動分配的6為不同的數(shù)字序列,如果是以c開頭則表明該訂單被取消。
  2. StockCode: 產(chǎn)品編號,每一種不同類別的商品對應(yīng)不同的編號。
  3. Description: 對產(chǎn)品類別的描述。
  4. Quantity: 每次交易的某種產(chǎn)品的購買數(shù)量。
  5. InvoiceDate: 每筆交易產(chǎn)生時的日期時間。
  6. UnitPrice: 產(chǎn)品的單價,單位是英鎊。
  7. CustomerID: 5位編碼的客戶id,每個客戶的id都不相同。
  8. Country: 客戶來源的國家。

二、數(shù)據(jù)預(yù)處理情況

1. 重復(fù)值處理

整個數(shù)據(jù)集有541909條數(shù)據(jù),其中完全重復(fù)的數(shù)據(jù)有5268條,剔除后剩下536641條交易數(shù)據(jù)。

2. 缺失值處理

Description和CustomerID兩個字段即商品描述和客戶ID有缺失值,其中Descriptio缺失1454條,占總數(shù)據(jù)量的0.27%;CustomerID缺失135037行,占總數(shù)據(jù)量的25.2%。

因?yàn)樯唐访枋鍪俏谋绢愋蛿?shù)據(jù)、對于本分析的結(jié)果不重要且缺失值占比非常小,所以不對其進(jìn)行充填。

對于CustomerID,缺失量占到了總數(shù)居的四分之一且其本身對分析結(jié)果有重要意義,必須對其填充。在已驗(yàn)證當(dāng)前CustomerID中沒有0值的前提下,充填方式選擇為用0代替缺失的CustomerID值。至此,缺失值處理完畢。

3. 異常值處理

基于業(yè)務(wù)常識,商品單價和商品數(shù)量應(yīng)為正數(shù),查看數(shù)據(jù)時發(fā)現(xiàn)這兩種類型的異常值。

取出來查看后,發(fā)現(xiàn)由兩種原因造成:

  1. 訂單被取消即發(fā)票號以C開頭的記錄(共11761條);
  2. 壞賬數(shù)據(jù)即發(fā)票號以A開頭的記錄(共2條)。

對于被取消的訂單:由于沒有發(fā)生實(shí)質(zhì)交易,對平臺的交易數(shù)據(jù)不存在影響故直接刪除,但后續(xù)可以針對這部分?jǐn)?shù)據(jù)可以嘗試分析挖掘取消背后的原因;

對于壞賬:數(shù)據(jù)量極小,且壞賬金額也極其微小,在此也選擇直接刪除。

處理完異常值后,總的有效數(shù)據(jù)量為524878條。

4. 新增字段

為方便后續(xù)的時間序列分析,新增交易時間date字段(具體到日)和交易月份month字段;為方便后續(xù)的金額分析,新增交易金額SumCost字段(交易金額等于商品數(shù)量乘以商品單價)。

至此,數(shù)據(jù)預(yù)處理完成,截取部分有效數(shù)據(jù)如下所示:

三、訂單分析

1. 描述性分析

在訂單層面,描述性的統(tǒng)計(jì)信息如下圖:

平臺在此期間總共有19960筆有效訂單,每筆平均購買279件商品,筆均消費(fèi)533英鎊,這兩者都超過了各自的中位數(shù)水平。

說明訂單總體差異很大,尤其是筆均消費(fèi)超過了Q3分位數(shù)。

最大的一筆訂單中購買了將近81000件商品,最大的單筆消費(fèi)也高達(dá)168469——說明平臺用戶以批發(fā)商為主且存在購買力極強(qiáng)的客戶。

2. 訂單商品數(shù)量分布

剔除離群值,篩選出購買商品件數(shù)小于2000的訂單繪制商品數(shù)量分布圖如下:

分布圖呈現(xiàn)典型的長尾分布,大部分訂單內(nèi)的商品數(shù)量在250以內(nèi),大額數(shù)量訂單稀少。

3. 訂單金額分布

剔除離群值,篩選出單筆金額小于1000英鎊的訂單繪制金額分布圖如下:

分布圖有長尾趨勢,金額主要分布在400英鎊以內(nèi),說明絕大部分客戶在該平臺上的消費(fèi)金額預(yù)算為400英鎊以內(nèi),在350英鎊左右出現(xiàn)了最多的訂單數(shù)。

4. 分析小結(jié)

平臺在2010年12月1日至2011年12月9日一年多的時間中產(chǎn)生有效交易19960筆,總銷售額為8,887,209英鎊,平均每日交易54筆,筆均購買量279件商品,筆均消費(fèi)533英鎊。

存在少數(shù)重要價值客戶,此類用戶購買力極強(qiáng)。作為批發(fā)型平臺,要著重保持此類用戶,用戶維護(hù)、運(yùn)營營銷資源要向這些客戶傾斜。

四、客戶分析

在缺失值處理時,對于客戶id缺失的數(shù)據(jù),直接用0填充了空值,因此在客戶層面分析的時候剔除了這部分?jǐn)?shù)據(jù)。

1. 描述性分析

在客戶層面,描述性統(tǒng)計(jì)信息如下:

在4338個有效客戶ID中:

  • 平均每個客戶消費(fèi)4次,超過中位數(shù),至少有25%的客戶消費(fèi)1次之后就流失了;
  • 客均購買1187件商品,超過Q3分位數(shù),最大的客戶購買量達(dá)到了近197000件;
  • 客均消費(fèi)2048英鎊,超過Q3分位數(shù),最大的客戶消費(fèi)額達(dá)到280206。

2. 客戶消費(fèi)金額分布

剔除離群值,篩選出消費(fèi)金額在6000英鎊以下的客戶繪制消費(fèi)額分布圖如下:

分布圖呈現(xiàn)明顯的長尾狀,大部分客戶的消費(fèi)額在1000英鎊以內(nèi),消費(fèi)200英鎊左右的客戶最多。

3. 客戶貢獻(xiàn)程度

二八定律普遍存在于銷售市場,因此繪制出每個客戶的消費(fèi)額占總銷售額的占比圖如下:

可以看出消費(fèi)額前1000名的客戶貢獻(xiàn)了80%的銷售額,也就是說平臺所有客戶中前20%的客戶提供了80%的銷售總額。

4. 消費(fèi)額與購買量的關(guān)系

客戶的消費(fèi)額與購買量的關(guān)系可以對平臺促銷策略進(jìn)行指導(dǎo),左圖繪制了所有的數(shù)據(jù)(包含離群值),右圖為篩選出消費(fèi)額5000英鎊以下的數(shù)據(jù):

由圖可知:消費(fèi)額與客戶的購買量成正比關(guān)系,且存在少數(shù)購買量和消費(fèi)額數(shù)目都很巨大的客戶。

在消費(fèi)額小于5000英鎊以內(nèi)的客戶,其消費(fèi)額與購買量呈強(qiáng)正比關(guān)系;在3000件商品范圍內(nèi),每向客戶多銷售1000件商品,銷售額大概可以增加一倍。

5. 分析小結(jié)

平臺的客戶在這一年中平均會消費(fèi)4次,客均購買1187件商品,客均消費(fèi)2048英鎊。

但是值得注意的是有四分之一以上的客戶只消費(fèi)了一次就直接流失掉了,如果能夠保持這些客戶,保守估計(jì)年銷售額可以增加2,400,000到3,000,000英鎊,接近全年銷售額的三分之一。

平臺的經(jīng)營要注重新客的留存率,對于長時間沒有復(fù)購的客戶要積極聯(lián)系,采取相應(yīng)的喚回措施。

五、商品分析

平臺對每個客戶的報(bào)價并不一樣。在處理時,采取平均的方法,即:該件商品的銷售總額除以該件商品的銷售數(shù)量來定義每件商品的單價。

1. 價格分布

剔除離群值后,發(fā)現(xiàn)平臺商品價格大部分低于3英鎊。

2. 價格-銷量關(guān)系

在價格方面符合價格越低,銷量越大的規(guī)律。

價格低于3英鎊的商品的銷量明顯高于別的商品,在5英鎊的價格內(nèi)出現(xiàn)了萬級別的銷量,驗(yàn)證了平臺低價走量的批發(fā)商式銷售模式。

此外,存在兩件單價超過6000英鎊的商品,分別是價格為6880英鎊的AMAZONFEE商品和價格為11062英鎊的B商品,這兩者的銷量分別為2件和1件,說明平臺在高價商品上沒有競爭優(yōu)勢。

而高價商品所需的運(yùn)維成本往往高于其他商品很多,建議平臺專注單價20英鎊以內(nèi)的商品,繼續(xù)提高低價商品的銷量來獲取更多收益。

3. 詞云分析

對商品的描述一欄做詞云分析,從可視化結(jié)果中發(fā)現(xiàn):平臺銷售的商品屬于小禮品類,其中鬧鐘類商品居多。

4. 分析小結(jié)

平臺當(dāng)前的定位是低價走量批發(fā)商式平臺,這個銷售模式得到了驗(yàn)證,應(yīng)該繼續(xù)堅(jiān)持這個模式。對于超高價商品,平臺的銷售額貢獻(xiàn)甚微,卻要花費(fèi)較高的銷售成本,因此平臺的利益點(diǎn)可以專注在低價商品的高銷量上。

六、時間序列分析

1. 銷售額-時間關(guān)系

統(tǒng)計(jì)各月的交易量、銷量以及銷售額如圖所示:

顯然:11月和12月的成交量最多,兩者超過了全年交易量的四分之一,商品的出貨量和銷售額也是這兩個月最多。

縱觀全年:銷量、銷售額、訂單量呈現(xiàn)出相同趨勢,從1月起銷售額緩慢上升,至4月出現(xiàn)一個驟降后,從5月開始又緩慢下跌,隨后至年底期間銷量上升趨勢明顯。

2. 分析小結(jié)

11月銷售的驟增與萬圣節(jié)、雙十一全球購的促銷活動緊密相關(guān),12月的銷售在萬圣節(jié)的余溫以及圣誕節(jié)的氛圍中隨較之11月有所降低但仍高于全年平均水平。

年初銷量驟降的原因是前面兩個月的促銷極大地釋放了客戶的購買欲望,且年初的節(jié)日少,批發(fā)商的采購意愿并不強(qiáng)烈。4月份出現(xiàn)驟降,而后銷售額穩(wěn)定在600,000到800,000之間。從8月開始,批發(fā)商們開始備貨準(zhǔn)備年底的傾銷,成穩(wěn)定上升趨勢。

因此,平臺在9月和10月應(yīng)該為后續(xù)的節(jié)日活動造勢,加大營銷成本的投入,同時增加庫存,為后續(xù)促銷銷量做保證。

11月和12月要注意加大運(yùn)維力度,防止線上銷售渠道的崩潰而造成損失;年后1月和2月可以借情人節(jié)相關(guān)話題再次激發(fā)用戶的購買欲望,促進(jìn)淡季的銷售。

七、地區(qū)分析

1. 用戶來源分布

作為英國的電商平臺,其用戶九成以上是本土用戶。排在后面的三個地區(qū)也都屬于歐洲,分別是:德國、法國、愛爾蘭。

2. 銷售額-地區(qū)分布

因?yàn)辇嫶蟮谋就劣脩艋鶖?shù),平臺的銷售額九成以上是來自于本土市場,隨后是歐洲的荷蘭、愛爾蘭、德國和法國。在歐洲市場以外,澳大利亞市場占據(jù)銷售額第一名。

雖然英國的銷售額占據(jù)了九成以上,但客均消費(fèi)上英國只算中等水平。而海外市場中,愛爾蘭的客均消費(fèi)表現(xiàn)十分搶眼——達(dá)到80000英鎊以上。達(dá)到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。

3. 分析小結(jié)

  • 從銷售總額來看:得力于本土優(yōu)勢,英國的本土用戶貢獻(xiàn)了平臺90%以上的銷售額;因?yàn)榈乩砦恢梅奖?,英國隨后的銷售額也主要來源于歐洲國家。
  • 從客均消費(fèi)額來看:愛爾蘭表現(xiàn)搶眼,購買力極強(qiáng),隨后是表現(xiàn)優(yōu)秀的荷蘭、新加坡、澳大利亞——這些國家都是高福利國家,客戶資金充沛,消費(fèi)意愿強(qiáng)烈。
  • 從大方向上來看:平臺要關(guān)注歐洲市場尤其是本土市場的動向,緊跟市場動態(tài)。
  • 從客均購買力上來看,平臺應(yīng)與上述購買力強(qiáng)的客戶主動保持聯(lián)系,提供銷售經(jīng)理專人服務(wù)或優(yōu)惠政策等。在這些地區(qū)也可以適時地做一些宣傳推廣,多吸收優(yōu)質(zhì)客戶來提高海外市場的收益。

八、客戶分類

1. 生命周期

計(jì)算客戶從第一次消費(fèi)到最后一次消費(fèi)的天數(shù),即為客戶的生命周期,其描述性統(tǒng)計(jì)信息和分布如下:

根據(jù)以上信息可以看出:至少有四分之一的客戶沒有留存,但也有四分之一的客戶生命周期達(dá)到8個月,兩極分化嚴(yán)重。

2. RFM模型客戶分類

Recency代表最近一次消費(fèi),F(xiàn)requency代表消費(fèi)頻次,Monetary代表消費(fèi)金額。

這個用戶劃分模型十分經(jīng)典,但具體的劃分準(zhǔn)則往往不能很好的把握,在此用K-means聚類方法自動將客戶群體按RFM準(zhǔn)則分為八大類,即如下圖所示:

在聚類之前首先觀察F和M的關(guān)系,剔除掉明顯的離群值,在數(shù)據(jù)集中區(qū)域進(jìn)行聚類,因此畫出F-M散點(diǎn)關(guān)系圖如下:

可以看出:數(shù)據(jù)主要集中在左下角f<50和m<20000的區(qū)域,因此聚類模型所選擇的數(shù)據(jù)為此區(qū)域的數(shù)據(jù)。

在聚類時有必要結(jié)合業(yè)務(wù)知識手動設(shè)置初始中心,否則算法得出的結(jié)果偏差會比較大。

在此,選定數(shù)據(jù)集中估計(jì)的八個中心為初始中心點(diǎn),對數(shù)據(jù)進(jìn)行歸一化,多次調(diào)試后得出RFM模型聚類圖如下:

其中每一種顏色代表一類用戶,方形數(shù)據(jù)標(biāo)記代表每一類的數(shù)據(jù)中心。

上圖為聚類效果還不錯的一個調(diào)試后的模型,可以看到每類數(shù)據(jù)的中心分布在整個空間里比較均勻,即:每一類的中心分別屬于三維空間坐標(biāo)里的每一個象限?!@是判斷一個RFM模型效果好壞的重要標(biāo)準(zhǔn)。

得出八類客戶的RFM均值如下:

通過無監(jiān)督學(xué)習(xí)算法K-means可以自動挖掘客戶數(shù)據(jù)之間的關(guān)系,劃分出客戶類型,比傳統(tǒng)的簡單均值法劃分更有依據(jù)。

但往往真實(shí)的客戶數(shù)據(jù)并不規(guī)整,需要結(jié)合業(yè)務(wù)知識手動調(diào)參,即使調(diào)試多次,模型也可能仍然不能完美適配,這時要根據(jù)經(jīng)驗(yàn)進(jìn)行取舍。

模型建立完成后,再回去看離群值,發(fā)現(xiàn)離群值客戶通常都是對銷售額貢獻(xiàn)度很大的群體,所以一定不能忽略這類客戶群。

對于已經(jīng)劃分好的客戶群體,對每一類采取不同的營銷策略,可以實(shí)現(xiàn)精準(zhǔn)營銷,將本增益的效果。

九、分析總結(jié)

1)電商平臺在2010年12月1日至2011年12月9日期間發(fā)生有效訂單19960筆,筆單價533.17英鎊,筆均購買商品279件,用戶群體以批發(fā)商為主。訂單交易額和商品數(shù)量的均值都超過Q3分位數(shù),說明訂單差異大,存在購買力極強(qiáng)的客戶對銷售額做出了巨大貢獻(xiàn)。

2)客均購買商品1187件,客單價4338英鎊,均超過Q3分位數(shù)。但客戶群體中流失了至少25%的新客,客戶平均生命周期為130天,一半的客戶生命周期低于93天,25%的客戶生命周期超過250天。

客戶的生命周期分化嚴(yán)重,流失客戶和忠誠客戶都占到四分之一以上。平臺可以把忠誠客戶維持的經(jīng)驗(yàn)應(yīng)用到新客中,提高初次購買體驗(yàn)來增加新客留存率。按客均消費(fèi)計(jì)算,這部分新客留存帶來的收益可以增加約30%。

3)平臺售賣的商品價格基本在20英鎊以內(nèi),且呈現(xiàn)價格越低銷量越高的趨勢。銷售量最多的產(chǎn)品是鬧鐘類的禮品,在5英鎊左右的商品出現(xiàn)萬級別的銷量。對于平臺出售的2種特高價商品(6000英鎊以上)銷量僅為3件,且購買高價商品的客戶沒有留存,建議下架特高價商品以減少高價商品的運(yùn)維成本。

4)基于本土優(yōu)勢,90%以上的客戶來源與英國本土,其次是歐洲國家。但從客均消費(fèi)來看:英國只算中等水平,而海外市場中,愛爾蘭的客均消費(fèi)表現(xiàn)十分搶眼,達(dá)到80000英鎊以上。

達(dá)到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。對于這些購買力極強(qiáng)的海外客戶,應(yīng)積極保持聯(lián)系,在該地區(qū)做宣傳推廣,獲取更多優(yōu)質(zhì)客戶;予以國際物流支持,增加優(yōu)質(zhì)客戶粘性。

5)根據(jù)RFM模型,建立了客戶分類標(biāo)準(zhǔn),銷售情況符合二八定律:25%的客戶貢獻(xiàn)了80%的銷售額。因此建議用戶運(yùn)營部門根據(jù)模型劃分結(jié)果,對客戶進(jìn)行差異化運(yùn)營和營銷,將資源更多地投入到重要客戶中去。

 

本文由 @歐泡Paul 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 答主,我在文章開頭翻遍了也沒找到鏈接和源代碼,本人跪求回復(fù)分享下代碼和源數(shù)據(jù)/(ㄒoㄒ)/~~

    來自廣東 回復(fù)
  2. RFM模型劃分為8大類的標(biāo)準(zhǔn)是啥

    來自山西 回復(fù)
  3. 入職了一家數(shù)據(jù)科學(xué)公司,公司的底層數(shù)據(jù)量太大,正在熟悉業(yè)務(wù)中。所以,之前自動化的代碼編寫到一半也沒時間繼續(xù)完善咯,有興趣的同學(xué)可以私我(Ou-Paul),對數(shù)據(jù)分析、商業(yè)分析感興趣的同學(xué)也可以一起討論~

    來自浙江 回復(fù)
    1. 您好~ 請問一下為什么我describe()的count是52萬多,可是你的是19960呢? 剛開始學(xué)用python作分析~

      來自香港 回復(fù)
    2. 我是在訂單層面進(jìn)行了describe,指我先對df進(jìn)行列g(shù)roupby(‘InvoiceNo’)后再進(jìn)行的describe,你應(yīng)該是對原始的數(shù)據(jù)進(jìn)行了描述,所以得出的是原始數(shù)據(jù)的行數(shù)。上班后工作比較忙,回復(fù)滯后還望理解,若有探討之處可以加我wx:Ou-Paul

      來自浙江 回復(fù)
  4. 大神,代碼和數(shù)據(jù)源有空整理出來了嗎?百度網(wǎng)盤分享一下,謝謝了~

    回復(fù)
    1. 數(shù)據(jù)集在文中開頭部分提到過有鏈接,可以自行下載,代碼我最近整在實(shí)現(xiàn)自動化整理中,整理好了之后我會分享出來,感謝關(guān)注。

      來自重慶 回復(fù)
  5. 您好! 請問RFM模型的三維散點(diǎn)圖是如何用代碼寫出來的? 另外可以分享一下源數(shù)據(jù)嗎?在自學(xué)數(shù)據(jù)分析 想操作做一下,十分感謝~~

    來自香港 回復(fù)
    1. 數(shù)據(jù)集在文中開頭部分提到過有鏈接,可以自行下載,代碼我最近整在實(shí)現(xiàn)自動化整理中,整理好了之后我會分享出來,感謝關(guān)注。

      來自重慶 回復(fù)
  6. 您好!請問可以分享一下腳本代碼和爬下來的數(shù)據(jù)嗎?不勝感謝

    來自江蘇 回復(fù)
    1. 數(shù)據(jù)集在文中開頭部分提到過有鏈接,可以自行下載,代碼我最近整在實(shí)現(xiàn)自動化整理中,整理好了之后我會分享出來,感謝關(guān)注。

      來自重慶 回復(fù)
  7. 沙發(fā)

    回復(fù)
    1. 謝謝關(guān)注

      來自重慶 回復(fù)
  8. 您好!請問可以分享一下源數(shù)據(jù)和代碼嗎?初學(xué)者想手把手操作一下

    回復(fù)
    1. 好的,等我空閑了稍后整理一下,共享出來。

      來自重慶 回復(fù)
    2. 嗯嗯,期待

      回復(fù)
  9. 學(xué)習(xí)了,感覺和平時用Excel分析并 沒有太大的差別 ??

    來自江蘇 回復(fù)
    1. 承讓。可能報(bào)告看上去差別不大,但這份數(shù)據(jù)的量級在50萬級別,用excel會崩潰。由于能力有限,python數(shù)據(jù)分析的很多潛能在這份報(bào)告中還沒有得到充分的發(fā)揮,我也仍在繼續(xù)學(xué)習(xí)!

      來自新加坡 回復(fù)
    2. 佩服,只是不了解,所以之前把數(shù)據(jù)清洗相當(dāng)太神秘,以為是從無序的數(shù)據(jù)中抽取有意義的數(shù)據(jù)呢

      來自浙江 回復(fù)
    3. 對的,我在接觸之前也覺得有些名詞聽起來很神秘,但其實(shí)有時候這些名詞只是紙老虎,就如我的另一篇文章里說到數(shù)學(xué)建模一樣,有興趣可以去看看。有一個理論是:人們總是深奧化簡單的知識,簡單化深奧的知識。所以,奧里給!

      來自新加坡 回復(fù)
    4. 之前一直用sql跑來看。。。

      來自北京 回復(fù)