分析了豌豆莢 7 萬(wàn)款 App,全是萬(wàn)萬(wàn)沒(méi)想到
使用 Scrapy 爬取豌豆莢全網(wǎng) 70000+ App,并進(jìn)行探索性分析。若對(duì)數(shù)據(jù)抓取部分不感興趣,可以直接下拉到數(shù)據(jù)分析部分。
一、分析背景
之前我們使用了 Scrapy 爬取并分析了酷安網(wǎng) 6000+ App,為什么這篇文章又在講抓 App 呢?
因?yàn)槲蚁矚g折騰 App,哈哈。當(dāng)然,主要是因?yàn)橄旅孢@幾點(diǎn):
第一、之前抓取的網(wǎng)頁(yè)很簡(jiǎn)單
在抓取酷安網(wǎng)時(shí),我們使用 for 循環(huán),遍歷了幾百頁(yè)就完成了所有內(nèi)容的抓取,非常簡(jiǎn)單,但現(xiàn)實(shí)往往不會(huì)這么 easy,有時(shí)我們要抓的內(nèi)容會(huì)比較龐大,比如抓取整個(gè)網(wǎng)站的數(shù)據(jù),為了增強(qiáng)爬蟲(chóng)技能,所以本文選擇了「豌豆莢」這個(gè)網(wǎng)站。
目標(biāo)是: 爬取該網(wǎng)站所有分類(lèi)下的 App 信息并下載 App 圖標(biāo),數(shù)量在 70,000 左右,比酷安升了一個(gè)數(shù)量級(jí)。
第二、再次練習(xí)使用強(qiáng)大的 Scrapy 框架
之前只是初步地使用了 Scrapy 進(jìn)行抓取,還沒(méi)有充分領(lǐng)會(huì)到 Scrapy 有多么牛逼,所以本文嘗試深入使用 Scrapy,增加隨機(jī) UserAgent、代理 IP 和圖片下載等設(shè)置。
第三、對(duì)比一下酷安和豌豆莢兩個(gè)網(wǎng)站
相信很多人都在使用豌豆莢下載 App,我則使用酷安較多,所以也想比較一下這兩個(gè)網(wǎng)站的 App 特點(diǎn)。
話不多說(shuō),下面開(kāi)始抓取流程。
1. 分析目標(biāo)
首先,我們先來(lái)了解一下要抓取的豌豆莢網(wǎng)頁(yè)是什么樣的,可以看到該網(wǎng)站上的 App 分成了很多類(lèi),包括:「應(yīng)用播放」、「系統(tǒng)工具」等,一共有 14 個(gè)大類(lèi)別,每個(gè)大類(lèi)下又細(xì)分了多個(gè)小類(lèi),例如,影音播放下包括:「視頻」、「直播」等。
點(diǎn)擊「視頻」進(jìn)入第二級(jí)子類(lèi)頁(yè)面,可以看到每款 App 的部分信息,包括:圖標(biāo)、名稱(chēng)、安裝數(shù)量、體積、評(píng)論等。
接著,我們可以再進(jìn)入第三級(jí)頁(yè)面,也就是每款 App 的詳情頁(yè),可以看到多了下載數(shù)、好評(píng)率、評(píng)論數(shù)這幾樣參數(shù),抓取思路和第二級(jí)頁(yè)面大同小異,同時(shí)為了減小網(wǎng)站壓力,所以 App 詳情頁(yè)就不抓取了。
所以,這是一個(gè)分類(lèi)多級(jí)頁(yè)面的抓取問(wèn)題,依次抓取每一個(gè)大類(lèi)下的全部子類(lèi)數(shù)據(jù)。
學(xué)會(huì)了這種抓取思路,很多網(wǎng)站我們都可以去抓,比如很多人愛(ài)爬的「豆瓣電影」也是這樣的結(jié)構(gòu)。
2. 分析內(nèi)容
數(shù)據(jù)抓取完成后,本文主要是對(duì)分類(lèi)型數(shù)據(jù)的進(jìn)行簡(jiǎn)單的探索性分析,包括這么幾個(gè)方面:
- 下載量最多 / 最少的 App 總排名;
- 下載量最多 / 最少的 App 分類(lèi) / 子分類(lèi)排名;
- App 下載量區(qū)間分布;
- App 名稱(chēng)重名的有多少;
- 和酷安 App 進(jìn)行對(duì)比。
3. 分析工具
- Python
- Scrapy
- MongoDB
- Pyecharts
- Matplotlib
二、數(shù)據(jù)抓取
1. 網(wǎng)站分析
我們剛才已經(jīng)初步對(duì)網(wǎng)站進(jìn)行了分析,大致思路可以分為兩步,首先是提取所有子類(lèi)的 URL 鏈接,然后分別抓取每個(gè) URL 下的 App 信息就行了。
可以看到,子類(lèi)的 URL 是由兩個(gè)數(shù)字構(gòu)成,前面的數(shù)字表示分類(lèi)編號(hào),后面的數(shù)字表示子分類(lèi)編號(hào),得到了這兩個(gè)編號(hào),就可以抓取該分類(lèi)下的所有 App 信息,那么怎么獲取這兩個(gè)數(shù)值代碼呢?
回到分類(lèi)頁(yè)面,定位查看信息,可以看到分類(lèi)信息都包裹在每個(gè) li 節(jié)點(diǎn)中,子分類(lèi) URL 則又在子節(jié)點(diǎn) a 的 href 屬性中,大分類(lèi)一共有 14 個(gè),子分類(lèi)一共有 88 個(gè)。
到這兒,思路就很清晰了,我們可以用 CSS 提取出全部子分類(lèi)的 URL,然后分別抓取所需信息即可。
另外還需注意一點(diǎn),該網(wǎng)站的 首頁(yè)信息是靜態(tài)加載的,從第 2 頁(yè)開(kāi)始是采用了 Ajax 動(dòng)態(tài)加載,URL 不同,需要分別進(jìn)行解析提取。
2. Scrapy抓取
我們要爬取兩部分內(nèi)容,一是 APP 的數(shù)據(jù)信息,包括前面所說(shuō)的:名稱(chēng)、安裝數(shù)量、體積、評(píng)論等;二是下載每款 App 的圖標(biāo),分文件夾進(jìn)行存放。
由于該網(wǎng)站有一定的反爬措施,所以我們需要添加隨機(jī) UA 和代理 IP,關(guān)于這兩個(gè)知識(shí)點(diǎn),我此前單獨(dú)寫(xiě)了兩篇文章進(jìn)行鋪墊,傳送門(mén):
Scrapy 中設(shè)置隨機(jī) User-Agent 的方法匯總
Python 爬蟲(chóng)的代理 IP 設(shè)置方法匯總
這里隨機(jī) UA 使用 **scrapy-fake-useragent **庫(kù),一行代碼就能搞定,代理 IP 直接上阿布云付費(fèi)代理,幾塊錢(qián)搞定簡(jiǎn)單省事。
下面,就直接上代碼了:
(1)items.py
(2)middles.py
中間件主要用于設(shè)置代理 IP。
(3).py
該文件用于存儲(chǔ)數(shù)據(jù)到 MongoDB 和下載圖標(biāo)到分類(lèi)文件夾中。
存儲(chǔ)到 MongoDB:
按文件夾下載圖標(biāo):
(4)settings.py
(5)wandou.py
主程序這里列出關(guān)鍵的部分:
這里,首先定義幾個(gè) URL,包括:分類(lèi)頁(yè)面、子分類(lèi)首頁(yè)、子分類(lèi) AJAX 頁(yè),也就是第 2 頁(yè)開(kāi)始的 URL,然后又定義了一個(gè)類(lèi) Get_category() 專(zhuān)門(mén)用于提取全部的子分類(lèi) URL,稍后我們將展開(kāi)該類(lèi)的代碼。
程序從 start_requests 開(kāi)始運(yùn)行,解析首頁(yè)獲得響應(yīng),調(diào)用 get_category() 方法,然后使用 Get_category() 類(lèi)中的 parse_category() 方法提取出所有 URL,具體代碼如下:
這里,除了分類(lèi)名稱(chēng) cate_name 可以很方便地直接提取出來(lái),分類(lèi)編碼和子分類(lèi)的子分類(lèi)的名稱(chēng)和編碼,我們使用了 get_category_code() 等三個(gè)方法進(jìn)行提取。提取方法使用了 CSS 和正則表達(dá)式,比較簡(jiǎn)單。
最終提取的分類(lèi)名稱(chēng)和編碼結(jié)果如下,利用這些編碼,我們就可以構(gòu)造 URL 請(qǐng)求開(kāi)始提取每個(gè)子分類(lèi)下的 App 信息了。
接著前面的 get_category() 繼續(xù)往下寫(xiě),提取 App 的信息:
這里,依次提取出全部的分類(lèi)名稱(chēng)和編碼,用于構(gòu)造請(qǐng)求的 URL。由于首頁(yè)的 URL 和第 2 頁(yè)開(kāi)始的 URL 形式不同,所以使用了 if 語(yǔ)句分別進(jìn)行構(gòu)造。接下來(lái),請(qǐng)求該 URL 然后調(diào)用 self.parse() 方法進(jìn)行解析,這里使用了 meta 參數(shù)用于傳遞相關(guān)參數(shù)。
最后,parse() 方法用來(lái)解析提取最終我們需要的 App 名稱(chēng)、安裝量等信息,解析完成一頁(yè)后,page 進(jìn)行遞增,然后重復(fù)調(diào)用 parse() 方法循環(huán)解析,直到解析完全部分類(lèi)的最后一頁(yè)。
最終,幾個(gè)小時(shí)后,我們就可以完成全部 App 信息的抓取,我這里得到 73,755 條信息和 72,150 個(gè)圖標(biāo),兩個(gè)數(shù)值不一樣是因?yàn)橛行?App 只有信息沒(méi)有圖標(biāo)。
圖標(biāo)下載:
下面將對(duì)提取的信息,進(jìn)行的數(shù)據(jù)分析。
三、數(shù)據(jù)分析
1. 總體情況
首先來(lái)看一下 App 的安裝量情況,畢竟 70000 多款 App,自然很感興趣 哪些 App 使用地最多,哪些又使用地最少。
代碼實(shí)現(xiàn)如下:
看了上圖,有兩個(gè)「沒(méi)想到」:
- 排名第一的居然是一款手機(jī)管理軟件對(duì)豌豆莢網(wǎng)上的這個(gè)第一名感到意外,一是,好奇大家都那么愛(ài)手機(jī)清理或者怕中毒么?畢竟,我自己的手機(jī)都「裸奔」了好些年;二是,第一名居然不是鵝廠的其他產(chǎn)品,比入「微信」或者「QQ」。
- 榜單放眼望去,以為會(huì)出現(xiàn)的沒(méi)有出現(xiàn),沒(méi)有想到的卻出現(xiàn)了前十名中,居然出現(xiàn)了書(shū)旗小說(shuō)、印客這些比較少聽(tīng)過(guò)的名字,而國(guó)民 App 微信、支付寶等,甚至都沒(méi)有出現(xiàn)在這個(gè)榜單中。
帶著疑問(wèn)和好奇,分別找到了「騰訊手機(jī)管家」和「微信」兩款 App 的主頁(yè):
騰訊手機(jī)管家下載和安裝量:
微信下載和安裝量:
這是什么情況?
騰訊管家 3 億多的下載量等同于安裝量,而微信 20 多億的下載量,只有區(qū)區(qū)一千多萬(wàn)的安裝量,兩組數(shù)據(jù)對(duì)比,大致反映了兩個(gè)問(wèn)題:
- 要么是騰訊管家的下載量實(shí)際并沒(méi)有那么多?
- 要么是微信的下載量寫(xiě)少了?
不管是哪個(gè)問(wèn)題,都反映了一個(gè)問(wèn)題:該網(wǎng)站做得不夠走心啊。
為了證明這個(gè)觀點(diǎn),將前十名的安裝量和下載量都作了對(duì)比,發(fā)現(xiàn)很多 App 的安裝量都和下載量是一樣的,也就是說(shuō):這些 App 的實(shí)際下載量并沒(méi)有那么多,而如果這樣的話,那么這份榜單就有很大水分了。
難道,辛辛苦苦爬了那么久,就得到這樣的結(jié)果?
不死心,接著再看看安裝量最少的 App 是什么情況,這里找出了其中最少的 10 款:
掃了一眼,更加沒(méi)想到了:「QQ 音樂(lè)」竟然是倒數(shù)第一,竟然只有 3 次安裝量!
確定這和剛剛上市、市值千億的 QQ 音樂(lè)是同一款產(chǎn)品?
再次核實(shí)了一下:
沒(méi)有看錯(cuò),是寫(xiě)著 3人安裝!
這是已經(jīng)不走心到什么程度了??這個(gè)安裝量,鵝廠還能「用心做好音樂(lè)」?
說(shuō)實(shí)話,到這兒已經(jīng)不想再往下分析下去了,擔(dān)心爬扒出更多沒(méi)想到的東西,不過(guò)辛苦爬了這么久,還是再往下看看吧。
看了首尾,我們?cè)倏纯凑w,了解一下全部 App 的安裝數(shù)量分布,這里去除了有很大水分的前十名 App。
很驚訝地發(fā)現(xiàn),竟然有 多達(dá) 67,195 款,占總數(shù)的 94% 的 App 的安裝量不足 1萬(wàn)!
如果這個(gè)網(wǎng)站的所有數(shù)據(jù)都是真的話,那么上面排名第一的手機(jī)管家,它 一款就差不多抵得上這 6 萬(wàn)多款 App 的安裝量了!
對(duì)于多數(shù) App 開(kāi)發(fā)者,只能說(shuō):**現(xiàn)實(shí)很殘酷,辛苦開(kāi)發(fā)出來(lái)的 App,用戶(hù)不超過(guò) 1萬(wàn)人的可能性高達(dá)近 95% **。
代碼實(shí)現(xiàn)如下:
2. 分類(lèi)情況
下面,我們來(lái)看看各分類(lèi)下 App 情況,不再看安裝量,而看數(shù)量,以排出干擾。
可以看到 14 個(gè)大分類(lèi)中,每個(gè)分類(lèi)的 App 數(shù)量差距都不大,數(shù)量最多的「生活休閑」是「攝影圖像」的兩倍多一點(diǎn)。
接著,我們進(jìn)一步看看 88 個(gè)子分類(lèi)的 App 數(shù)量情況,篩選出數(shù)量最多和最少的 10 個(gè)子類(lèi):
可以發(fā)現(xiàn)兩點(diǎn)有意思的現(xiàn)象:
- 「收音機(jī)」類(lèi)別 App 數(shù)量最多,達(dá)到 1,300 多款這個(gè)很意外,當(dāng)下收音機(jī)完全可以說(shuō)是個(gè)老古董了,居然還有那么人去開(kāi)發(fā)。
- App 子類(lèi)數(shù)量差距較大最多的「收音機(jī)」是最少的「動(dòng)態(tài)壁紙」近 20 倍,如果我是一個(gè) App 開(kāi)發(fā)者,那我更愿意去嘗試開(kāi)發(fā)些小眾類(lèi)的 App,競(jìng)爭(zhēng)小一點(diǎn),比如:「背單詞」、「小兒百科」這些。
看完了總體和分類(lèi)情況,突然想到一個(gè)問(wèn)題:這么多 App,有沒(méi)有重名的呢?
驚奇地發(fā)現(xiàn),叫「一鍵鎖屏」的 App 多達(dá) 40 款,這個(gè)功能 App 很難再想出別的名字了么?現(xiàn)在很多手機(jī)都支持觸控鎖屏了,比一鍵鎖屏操作更加方便。
接下來(lái),我們簡(jiǎn)單對(duì)比下豌豆莢和酷安兩個(gè)網(wǎng)站的 App 情況。
3. 對(duì)比酷安
二者最直觀的一個(gè)區(qū)別是在 App 數(shù)量上,豌豆莢擁有絕對(duì)的優(yōu)勢(shì),達(dá)到了酷安的十倍之多,那么我們自然感興趣:豌豆莢是否包括了酷安上所有的 App ?
如果是,「你有的我都有,你沒(méi)有的我也有」,那么酷安就沒(méi)什么優(yōu)勢(shì)了。統(tǒng)計(jì)之后,發(fā)現(xiàn)豌豆莢 僅包括了 3,018 款,也就是一半左右,剩下的另一半則沒(méi)有包括。
這里面固然存在兩個(gè)平臺(tái)上 App 名稱(chēng)不一致的現(xiàn)象,但更有理由相信酷安很多小眾的精品 App 是獨(dú)有的,豌豆莢并沒(méi)有。
代碼實(shí)現(xiàn)如下:
接下來(lái),我們看看所包含的 App 當(dāng)中,在兩個(gè)平臺(tái)上的下載量是怎么樣的:
可以看到,兩個(gè)平臺(tái)上 App 下載數(shù)量差距還是很明顯。
最后,我面再看看豌豆莢上沒(méi)有包括哪些APP:
可以看到很多神器都沒(méi)有包括,比如:RE、綠色守護(hù)、一個(gè)木函等等。豌豆莢和酷安的對(duì)比就到這里,如果用一句話來(lái)總結(jié),我可能會(huì)說(shuō):豌豆莢太牛逼了, App 數(shù)量是酷安的十倍,所以我選酷安。
以上,就是利用 Scrapy 爬取分類(lèi)多級(jí)頁(yè)面的抓取和分析的一次實(shí)戰(zhàn)。
作者:高級(jí)農(nóng)民工,公眾號(hào):第2大腦
本文由 @高級(jí)農(nóng)民工 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
技術(shù)型產(chǎn)品經(jīng)理啊
酷安機(jī)佬前來(lái)留言
機(jī)佬666
你說(shuō)的神器,我曾用過(guò)re,另外一個(gè)沒(méi)聽(tīng)說(shuō)過(guò),我只從華為市場(chǎng)下app
酷安誰(shuí)用誰(shuí)知道