小白入門數據分析
本文旨在通過一個實際案例,引導讀者用最樸素的方式解鎖數據分析的大門,打破對數據的迷信,將焦點回歸到解決問題上來。通過易于理解的語言和實操指南,即便是數據分析新手也能夠快速入門,提升工作效率,發(fā)現數據背后的商業(yè)洞見。
來到傳統(tǒng)私企后,發(fā)現很多人還停留在明細數據的階段。相對好一些的,卻是被毒害的青年,開局RFM、帕累托,然后解密宇宙。
提起數據分析,很多人容易陷入過于復雜的模型和工具中,為了“打破迷信”也為了有一份相對能看的數據,決定寫一篇易于理解的保姆級實踐指南。
01 數據科學,不是量子力學
無論多么高大上的語言或工具,數據分析繞不過這3點:獲取數據、清洗數據、理解數據。
它的難,難在熱搜里充斥著不實用和聽不懂。
接下來用一個案例來正式開啟這篇文章:
案例背景:你需要為景區(qū)設計文創(chuàng)產品,但不清楚哪類文創(chuàng)產品受歡迎。你想通過分析文創(chuàng)產品的類型、價格和銷量等數據來獲取靈感。比如,哪些類型的文創(chuàng)產品賣得最好?價格與銷量之間是否存在相關性?
數據需求:銷量排名前100個商品數據,包含名稱、分類、價格、銷量、用途、人群、材質、風格。
02 獲取原始數據,減少無效需求。
我們總覺得平臺取數速度太慢,或者研發(fā)諸多刁難,其實是要了太多沒用的數據。
在提需求時,要再三問自己:是否有必要、是否有替代方法。
其次請要原始數據,要更少的原始數據。
通過控制數據提取的范圍,減少處理冗余信息的計算和人工負擔。而原始數據便于組合,但結果數據不僅提取復雜,也很難二次加工。
在獲取了數據后,先不要著急進行數據分析,因為原始數據往往是雜亂的。
如果不清洗數據,后續(xù)的分析結果很可能會失真或者錯誤。只有數據“干凈”了,分析工具和模型才能發(fā)揮作用。
接下來,讓我們看看如何進行數據清洗,讓它變得“可讀”和“可用”。
03 清洗到你看得懂,機器才看得懂
工具層面,我建議使用飛書多維表格,后續(xù)的圖形化也更加方便。
1、數據清洗
首先清理無用的關鍵詞,例如:“故宮”、“文創(chuàng)”、“官方旗艦店”等。
清洗過后,不僅提高了閱讀體驗,也降低了機器處理數據的算力需求。
必要時,可以增加其他的清理手段,例如:補全空值或統(tǒng)一標簽格式,確保數據清晰規(guī)范。
2、數據分類
2-1、特征提取
第二步,我們要提取有價值的特征。例如商品標題中的節(jié)日、用途、人群。
最簡單的方式是使用飛書的字段捷徑進行智能標簽,但對于這類容易標準化的數據,更好的方法是函數提取。
例如REGEXEXTRACTALL函數:
REGEXEXTRACTALL([商品標題], “教師節(jié)禮物|生日禮物|喬遷禮物|兒童節(jié)禮物|結婚禮物|創(chuàng)意禮物|伴手禮”)
這個函數從商品標題中提取匹配的禮物類型,將其轉換為“用途標簽”。
提取標簽后要注意再次清除相關關鍵詞。
2-2、數值分類
在分析品類價格分布時,稀疏的價格數據無法幫助我們有效識別問題。
但如果我們將價格收窄為區(qū)間,數據就會變得集中,便于我們的分析。
IFS( [商品價格] <= 50,”50以下”,[商品價格]<=100,”100以下”,[商品價格]<=200,”200以下”,[商品價格]<=500,”500以下”,[商品價格]<=10000,”500以上”)
除了AI,更方便的方法是使用IFS函數。它會把價格匹配范圍內的數值,歸類到對應的區(qū)間。
通過清洗和分類,我們和機器都看得懂了,那就能進行下一步分析了。
04 分析好好擰螺絲,不要造火箭
分析常用的圖表是:趨勢圖、餅圖、柱狀圖、條形圖還有詞云,它們能應對80%的問題,就別再波特五力我了…..
趨勢的波動讓我們更快發(fā)現問題,而占比及變化幫助我們聚焦重要的問題。組合圖的交叉、下鉆分析則是進一步識別問題了。
回到我們的分析問題上。
1、文創(chuàng)的類型、銷量、價格
通過分析餅圖可以發(fā)現:銷量占比與分類占比大致匹配。
但在“其他”分類中,紙袋的銷量有2萬個,導致數據失真。
因此我剔除了紙袋類商品,重新分析裝飾、文具、器皿等主要品類的銷售情況。
品類主要集中在裝飾(29.4%),文具(22.6%),器皿(20.17%),品類多的也是賣得好的。其中,平均價格最高的是器皿(210元),最低的是文具(76元)。
2、銷量與和價格的關系
將商品收窄至分類進行后續(xù)分析,注意到右上角的按鈕了嗎?飛書文檔生成的圖表能夠進行智能分析,幫助我們進一步提效。
洞察:
不同分類商品中,器皿的商品價格最高(210),但銷量并非最高(877)。
首飾的商品價格(154)處于中等水平,銷量(506)相對較低。
分析:
價格和銷量的相關性較弱。以器皿為例,雖價格較高,但銷量可觀;首飾價格中等,銷量卻較低。這表明價格并非決定銷量的唯一因素,可能受產品特點、市場定位等影響
飛書多維文檔
3、用途、人群、材質對價格和銷量的影響
洞察:教師節(jié)禮物的銷量達到 1012,為所有用途中最高。
兒童節(jié)禮物的商品價格僅為 35,相對較低。
分析:
用途、價格和銷量存在一定相關性。例如,價格較高的中秋禮物銷量為 700,而價格較低的兒童節(jié)禮物銷量為 400。教師節(jié)禮物價格并非最高但銷量突出,可能因其更符合市場需求或推廣更有效。
整體上,價格與銷量呈正相關,較高價格商品往往有相對較高的銷量。
細分用途后,價格和銷量相關性結論不一樣了,我們可以用相同的辦法去驗證人群、材質、創(chuàng)意的影響。
基于標簽生成的詞云,創(chuàng)意部分非常奇怪,這也說明了非標的數據不適合直接提取。
最后就是輸出建議了,分析必須要有觀點和建議。
觀點:
1)裝飾、文具、器皿品類表現優(yōu)異:生產得多也賣得好,裝飾品類銷量占比最高,達到29.4%;
2)銷量和價格關系較復雜:整體上非強相關,部分高價值的商品如器皿銷量可觀,但其他類別沒有呈現相關的特點;
3)節(jié)日影響顯著:教師節(jié)銷量(1012件)明顯領先,價格較高的中秋禮物也表現不俗(700件),特定節(jié)日對銷量有較大推動作用;
4)人群、創(chuàng)意數據參考意義不大:標題由于SEO僅部分有明確目標人群,創(chuàng)意詞云較為混亂,建議選擇品類Top5銷量的產品定向查詢。
建議:
1)考慮到定制化成本,建議在裝飾、文具品類發(fā)力;
2)結合詞頻,前期建議優(yōu)先設計泛人群的日常產品,如出行使用的包袋、家居擺放的裝飾等,減少季節(jié)性和節(jié)日波動對銷量的影響;
3)此外,可以基于節(jié)日主題開發(fā)成本低、生產快的產品,如圣誕節(jié)冰箱貼。
05 最后
在業(yè)務量沒有到達一定級別的時,別花太大的力氣在高深的名詞上,而且很可能名詞都找錯了,其次站得高不一定看得遠。
當到了那個級別,我相信也會請專門的數據分析師來做這件事情,希望不同崗位的同學看了這篇文章后能夠快速入門。
本文由 @Wise 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
文章說的很清楚,看下來覺得干貨慢慢,感謝分享。
謝謝你!