他說:作為產(chǎn)品經(jīng)理,不懂技術(shù)和代碼也一樣可以數(shù)據(jù)抓取
鑒于上一篇《第一個(gè)產(chǎn)品安裝量破千萬,我總結(jié)了這3句話》有人說沒有干貨,所以今天帶來一篇誠意滿滿的干貨。請自備酒水飲料。
先說一下我要做什么:為了解行業(yè)老大做線上手游陪玩業(yè)務(wù)的基本情況,想通過他們在app提供的月排行榜的數(shù)據(jù),做初步營收相關(guān)的數(shù)據(jù)分析。
作為萬能的產(chǎn)品經(jīng)理,不懂技術(shù)和代碼也一樣可以數(shù)據(jù)抓取。
準(zhǔn)備工作:
- 百度、bing必應(yīng)
- charles或者其他的app抓包工具
- excel
- sublime(可以做一些基本的批量處理,沒有也可以)
1. 獲取源數(shù)據(jù)
大部分app中使用https鏈接,所以正常使用charles抓包之前,先安裝描述文件。不然會(huì)出現(xiàn)亂碼(先百度“charles教程”和“charles https 抓取”這幾個(gè)關(guān)鍵字)
在抓到的URL中,選擇json格式,我們需要的東西就在這里面,保存到sublime中內(nèi)容如下(不知道這玩意要不要打碼)
這里面更多的東西是跟我無關(guān)的,我需要的字段有這些:
nickname ? ? ? ?用戶昵稱
property_value ? ? ? ?游戲段位
gender??????? 性別(1=男;2=女)
birthday??????? 生日
city_name??????? 城市
price??????? 單價(jià)
nickname??????? 昵稱
order_count??????? 訂單量
跟這些沒關(guān)系的統(tǒng)統(tǒng)過濾掉(工具:sublime、excel)。
漢字在 json 中顯示的是 UNICODE 編碼(別問我這是啥,我也不認(rèn)識(shí)他),所以還需要把 UNICODE 編碼轉(zhuǎn)換成漢字,所以請百度“UNICODE 編碼 轉(zhuǎn)換”。
經(jīng)過上面的工具,把得到的結(jié)果放到excel里面,得到如下內(nèi)容:
至此,抓取過程結(jié)束。然后對(duì)數(shù)據(jù)進(jìn)行加工。
2. 數(shù)據(jù)加工
我想要的數(shù)據(jù)是:
- 總收入
- 總訂單
- 人均收入
- 投入時(shí)間
- 訂單量
- 平均每單交易額
- 用戶基本屬性(年齡、性別、城市分布)
其中投入時(shí)間、年齡、城市分布的信息是抓不到的。
估算投入產(chǎn)出比較重要的一個(gè)維度是時(shí)間,所以要先估算一個(gè)完成一筆交易要多久。
考慮到他們的段位在游戲里面都比較高,就算每局15分鐘。也就是說完成一筆訂單需要花費(fèi)15分鐘。
月排行第一名那哥們,接了2003單。對(duì)他來說,月薪30K,每天工作16.7個(gè)小時(shí)(當(dāng)然,他可能是做外包)。
- 出生日期經(jīng)過簡單的計(jì)算,可以得到年齡;
- 找一份最新的全國城市排名,我用抓包得來的數(shù)據(jù)做匹配,城市分布搞定。
3. 數(shù)據(jù)分析
抓取的內(nèi)容都是可以在app中可以看到的,抓取的目的,是不用自己手動(dòng)計(jì)算排行里面500多個(gè)人的信息。所以這個(gè)算是免責(zé)聲明嗎?
對(duì)了,上個(gè)月也做了類似的分析,爬取了7w個(gè)頁面。同樣不需要懂代碼,感興趣的話我們下次聊聊吧。
作者:王也,產(chǎn)品經(jīng)理(QQ/wx:867611672;個(gè)人公眾號(hào):野生產(chǎn)品經(jīng)理),歡迎與我交流。ps:最近想換份工作
本文由 @王也 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
不過詳細(xì)一點(diǎn)就好了 看著容易其實(shí)操作起來emmm
太棒了8 正愁不懂代碼怎么抓數(shù)據(jù) 正是雪中送炭
老王~寫的很好
快說你是誰 ??