電商數據分析,用Excel也可以做
編輯導語:我們在面對海量數據時,需要先明確方向,心里有所規劃后再去進行分析。本文從明確問題、理解數據、數據清洗和數據分析四個步驟講述如何利用Excel進行實操,推薦給對數據分析感興趣的童鞋閱讀。
如果說在數據海洋里我是一艘乘風破浪的艦艇,那么明確的職業目標就是航行的方向,統計學業務思維等知識則是船體嚴密的構造,而Excel和Python等工具的使用就是航行的動力。不同于前面2篇文章,今天會結合統計學的內容,重點講述如何使用Excel進行實操,在實操的過程中會伴隨著思路的校正與發散統一。
首先,我們需要明確數據分析的步驟,沒有條理的秩序,很容易在海量數據中陷入一團亂麻中。
其次,請讓我根據以上步驟來描述我是如何用Excel進行探索性分析的?本期以前4個步驟為主(明確問題、理解數據、數據清洗和數據分析,其余請關注后續推送)。
本期實操報表:淘寶和天貓上購買嬰兒用戶的交易明細表、用戶信息表;
數據來源于:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
一、明確問題
在手頭拿到數據后,不要著急做清洗和分析,而是先根據掌握的信息進行腦暴,通過這份數據我/我們能大體確定些什么問題,可以通過腦圖(比如Xmind)在羅列的諸多猜想后,根據重要性進行排序。
為什么要怎么做?古話云:磨刀不誤砍柴工,先把問題了解清楚,有利于后期的分析,而不是貿貿然上手,花費了諸多功夫,到頭來悲涼地發現得出的結論與要分析的方向南轅北轍。
根據已有信息,可假設如下需驗證的問題:
二、理解數據
猴子聊數據分析里的短視頻小姐姐的一個說法讓我印象深刻,她將”理解數據”比作炒菜前準備的“蔥蒜姜末”等佐料,對于數據分析這道大餐,表格中的不同字段,其背后的含義要能理解清楚,否則就是菜不對味兒。
三、數據清洗
切記:數據清洗不要在原始表格上直接處理,可以復制表格再生成一份,防止原始數據被破壞,影響工作效率。
選擇子集:可以遵循二八原則,面對眾多字段要有取舍,選擇核心的字段
以產品信息表為例:7個字段中,商品屬性初步來看分析價值不大,可隱藏,后面可視具體情況如有用再取消隱藏
列名重命名:一般從數據庫導出的數據字段名可能是英文的,那么可以切換到中文,方便自己和他人了解
轉化為:
缺失值處理:容易忘記的一個環節,尤其是遇到大量級的數據,一定要檢查一下,可以使用countblank()函數,補全的4個方法:缺失值較少可手動補齊、刪除、數值的話采用平均值代替和通過統計模型算出的值進行替代。
本文使用的2張報表中的產品信息表的【產品屬性】有缺,但此列已隱藏,故不作補充。
一致化處理:將表格中不規范數據進行批量處理,2張表中的日期數據需要處理成正確可計算的日期型數據,可以先用len()+left/mid/right()+find()函數進行組合,本例中的數據比較齊整,也可以采用分列來拆分,具體使用以實際情況為準。
異常值處理:與缺失值一樣,不可遺漏,對于輸入性的數據值尤其是要檢查,消費者信息表中【性別】和【出生日期】作為重點排查對象,使用vlookup()將2張表格進行互聯,通過【購買日期】和【出生日期】相減除以365取整得到年齡,再對【年齡】進行排序會發現有”28”這個異常值,通過與其他值對比,可以推測原因是出生日期填寫的是父母,排查出的異常值可剔除。
四、數據分析
在分析版塊中,我重點采用了Excel的【數據透視表】、【數據分析】中的【描述統計】和Vlookup()函數,具體詳見如下:
產品信息表的分析思路:在對一級類目進行基礎匯總統計時發現不同類目之間的銷量差異明顯,對該表的銷量進行描述統計發現極值差懸殊,在此基礎上針對銷量這一列進行分組產生新的字段【訂單類型】,由此結合一級類目、訂單類型和購買日期3個維度組合分析(注:購買數量默認統一為當天單筆訂單)。
提取整體銷量和6個一級大類的分別對應銷量,使用【數據分析】中的【描述統計】,返回結果如下(共3列,后2列選取標準差最低和最高的2個一級大類):
由上可得,不同類目間的銷量存在波動,可以初步推斷類目之間的差異與各大類之間的銷量波動密切相關。
使用Vlookup()模糊匹配進行分組,根據電商業務場景,存在批發訂單的可能,5個以內為個人常規訂單范疇,6個及以上都算作批發訂單,再根據實際購買數量分成:小、中及大批量,具體見如下截圖:
通過對訂單分類進行透視統計,數據及發現如下:
再看訂單類型與一級大類的關系:
根據上表是否可以推測目前平臺的發展側重點在于大批量訂單的引導?
初步論證如下:
如果剔除10000這個值會發現,常規訂單在14年還處于上升狀態,占比達到52%;
結合一級類目和13/14自然年組合分析:可發現在14年,“5004815”一級類目趕超13年排名第一的“28”成為14年Top1,且對比兩年的發展速度,“5004815”增長達到300%,“5008168”增長近200%。
根據上圖,進一步深挖,可發現:“5004815”還是與那10000的訂單相關,排除10000這個值來看,14年的各大類整體銷售依然達到141%的增速,Top3中“28”增速較緩。
用戶信息表的分析思路:相對于產品信息表,用戶的數據量較少,算是產品的一個小樣本,在使用Vlookup()進行多表關聯后,在拼接字段后,根據用戶ID的唯一性可以分為2張表:其一不含交易信息(字段包括:用戶ID、購買日期、性別、出生日期、年齡和年齡分類)不具有重復值,另一張則包含交易信息(在Vlookup產品信息表時會發現復購的交易記錄),根據年齡新增字段“年齡分類”,通過年齡分類、性別、用戶ID及購買數量進行多維分析。
因考慮文章篇幅較長,這部分分析簡略呈現,具體可看后續推送:
結合下面2圖,可得寶寶年齡集中在0-6歲,占比達到90%,女性寶寶占比略高于男性寶寶。
下圖是添加了”購買數量”這一字段,可以發現在男女寶寶人數占比相近的前提下,女寶寶的銷量將近是男寶寶的2倍,可見女寶寶的消費需求更強勁。
根據上圖,再進一步分析男女寶寶在各一級大類的選擇上呈現出什么樣的特征,由下圖可知,Top1的“50014815”說明女寶寶是消費者主力貢獻者,可推測該大類主打女寶寶的產品,緊隨其后的第二和第三,男女寶寶的產品受歡迎程度差距沒有Top1那么明顯,但相較而言女寶寶占比更高。
最后,對前4步進行小結,縱觀以上的圖表更多是對數據的解讀和推測,并未根據數據提供下一步的落地建議,且在分析上思維相對狹隘,后期會更進一步調整優化。面對數據需保持好奇心,能夠由挖到的一點再進一步的下鉆,達到剝絲抽繭的程度。
作者:杭州@阿坤,母嬰電商行業數據分析師兼數據產品經理,致力于研究電商行業的數據驅動增長以及數據產品從0到1的搭建;“數據人創作者聯盟”成員。
本文由@一個數據人的自留地 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
作者:阿坤,“數據人創作者聯盟”成員。
本文由@一個數據人的自留地 原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
非常實用的一篇文章哈哈,excel在數據處理及分析這塊真的沒啥說的,必備的基礎軟件。
但是如果是大量計算或者一些急需要用的數據分析的話,其實最好的還是找到一些專門的軟件來做其實效率會高一些
其實這些都是工具,最主要的還是操作者的思維邏輯。excel的功能性其實真的很強大,但是也很基礎
excel的功能真的是想象不到的強啊,打工人大部分的需求居然都可以實現