亚洲男人的天堂AV大片,精品久久8x国产免费观看,婷婷五月综合色中文字幕

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

一看就明白的爬蟲入門講解-基礎(chǔ)理論篇（上篇）

諸葛io

2015-11-21

1 評(píng)論 9234 瀏覽 265 收藏

12 分鐘

關(guān)于爬蟲內(nèi)容的分享，我會(huì)分成兩篇，六個(gè)部分來(lái)分享，分別是：

我們的目的是什么
?內(nèi)容從何而來(lái)
了解網(wǎng)絡(luò)請(qǐng)求
一些常見的限制方式
嘗試解決問(wèn)題的思路
效率問(wèn)題的取舍

本文先聊聊前三個(gè)部分。

一、我們的目的是什么

一般來(lái)講對(duì)我們而言需要抓取的是某個(gè)網(wǎng)站或者某個(gè)應(yīng)用的內(nèi)容，提取有用的價(jià)值，內(nèi)容一般分為兩部分，非結(jié)構(gòu)化的文本，或者結(jié)構(gòu)化的文本。

關(guān)于非結(jié)構(gòu)化的數(shù)據(jù)

1.1 HTML文本（包含javascript代碼）

HTML文本基本上是傳統(tǒng)爬蟲過(guò)程中最常見的，也就是大多數(shù)時(shí)候會(huì)遇到的情況，例如抓取一個(gè)網(wǎng)頁(yè)，得到的是HTML，然后需要解析一些常見的元素，提取一些關(guān)鍵的信息。HTML其實(shí)理應(yīng)屬于結(jié)構(gòu)化的文本組織，但是又因?yàn)橐话阄覀冃枰年P(guān)鍵信息并非直接可以得到，需要進(jìn)行對(duì)HTML的解析查找，甚至一些字符串操作才能得到，所以還是歸類于非結(jié)構(gòu)化的數(shù)據(jù)處理中。

常見解析方式如下：

CSS選擇器

現(xiàn)在的網(wǎng)頁(yè)樣式比較多，所以一般的網(wǎng)頁(yè)都會(huì)有一些CSS的定位，例如class，id等等，或者我們根據(jù)常見的節(jié)點(diǎn)路徑進(jìn)行定位，例如騰訊首頁(yè)的財(cái)經(jīng)部分：

這里id就為finance，我們用css選擇器，就是”#finance”就得到了財(cái)經(jīng)這一塊區(qū)域的html，同理，可以根據(jù)特定的css選擇器可以獲取其他的內(nèi)容。

XPATH

XPATH是一種頁(yè)面元素的路徑選擇方法，利用chrome可以快速得到，如：

copy XPATH 就能得到——//*[@id=”finance”]

正則表達(dá)式

正則表達(dá)式，用標(biāo)準(zhǔn)正則解析，一般會(huì)把HTML當(dāng)做普通文本，用指定格式匹配當(dāng)相關(guān)文本，適合小片段文本，或者某一串字符，或者HTML包含javascript的代碼，無(wú)法用CSS選擇器或者XPATH。

字符串分隔

同正則表達(dá)式，更為偷懶的方法，不建議使用。

1.2 一段文本

例如一篇文章，或者一句話，我們的初衷是提取有效信息，所以如果是滯后處理，可以直接存儲(chǔ)，如果是需要實(shí)時(shí)提取有用信息，常見的處理方式如下：

分詞

根據(jù)抓取的網(wǎng)站類型，使用不同詞庫(kù)，進(jìn)行基本的分詞，然后變成詞頻統(tǒng)計(jì)，類似于向量的表示，詞為方向，詞頻為長(zhǎng)度。

NLP

自然語(yǔ)言處理，進(jìn)行語(yǔ)義分析，用結(jié)果表示，例如正負(fù)面等。

關(guān)于結(jié)構(gòu)化的數(shù)據(jù)

結(jié)構(gòu)化的數(shù)據(jù)是最好處理，一般都是類似JSON格式的字符串，直接解析JSON數(shù)據(jù)就可以了，提取JSON的關(guān)鍵字段即可

二、內(nèi)容從何而來(lái)

過(guò)去我們常需要獲取的內(nèi)容主要來(lái)源于網(wǎng)頁(yè)，一般來(lái)講，我們決定進(jìn)行抓取的時(shí)候，都是網(wǎng)頁(yè)上可看到的內(nèi)容，但是隨著這幾年移動(dòng)互聯(lián)網(wǎng)的發(fā)展，我們也發(fā)現(xiàn)越來(lái)越多的內(nèi)容會(huì)來(lái)源于移動(dòng)app，所以爬蟲就不止局限于一定要抓取解析網(wǎng)頁(yè)，還有就是模擬移動(dòng)app的網(wǎng)絡(luò)請(qǐng)求進(jìn)行抓取，所以這一部分我會(huì)分兩部分進(jìn)行說(shuō)明。

1 網(wǎng)頁(yè)內(nèi)容

網(wǎng)頁(yè)內(nèi)容一般就是指我們最終在網(wǎng)頁(yè)上看到的內(nèi)容，但是這個(gè)過(guò)程其實(shí)并不是網(wǎng)頁(yè)的代碼里面直接包含內(nèi)容這么簡(jiǎn)單，所以對(duì)于很多新人而言，會(huì)遇到很多問(wèn)題，比如：

明明在頁(yè)面用Chrome或者Firefox進(jìn)行審查元素時(shí)能看到某個(gè)HTML標(biāo)簽下包含內(nèi)容，但是抓取的時(shí)候?yàn)榭铡?/p>
很多內(nèi)容一定要在頁(yè)面上點(diǎn)擊某個(gè)按鈕或者進(jìn)行某個(gè)交互操作才能顯示出來(lái)。

所以對(duì)于很多新人的做法是用某個(gè)語(yǔ)言別人模擬瀏覽器操作的庫(kù)，其實(shí)就是調(diào)用本地瀏覽器或者是包含了一些執(zhí)行javascript的引擎來(lái)進(jìn)行模擬操作抓取數(shù)據(jù)，但是這種做法顯然對(duì)于想要大量抓取數(shù)據(jù)的情況下是效率非常低下，并且對(duì)于技術(shù)人員本身而言也相當(dāng)于在用一個(gè)盒子，那么對(duì)于這些內(nèi)容到底是怎么顯示在網(wǎng)頁(yè)上的呢？主要分為以下幾種情況：

網(wǎng)頁(yè)包含內(nèi)容

這種情況是最容易解決的，一般來(lái)講基本上是靜態(tài)網(wǎng)頁(yè)已經(jīng)寫死的內(nèi)容，或者動(dòng)態(tài)網(wǎng)頁(yè)，采用模板渲染，瀏覽器獲取到HTML的時(shí)候已經(jīng)是包含所有的關(guān)鍵信息，所以直接在網(wǎng)頁(yè)上看到的內(nèi)容都可以通過(guò)特定的HTML標(biāo)簽得到

javascript代碼加載內(nèi)容

這種情況是由于雖然網(wǎng)頁(yè)顯示時(shí)，內(nèi)容在HTML標(biāo)簽里面，但是其實(shí)是由于執(zhí)行js代碼加到標(biāo)簽里面的，所以這個(gè)時(shí)候內(nèi)容在js代碼里面的，而js的執(zhí)行是在瀏覽器端的操作，所以用程序去請(qǐng)求網(wǎng)頁(yè)地址的時(shí)候，得到的response是網(wǎng)頁(yè)代碼和js的代碼，所以自己在瀏覽器端能看到內(nèi)容，解析時(shí)由于js未執(zhí)行，肯定找到指定HTML標(biāo)簽下內(nèi)容肯定為空，這個(gè)時(shí)候的處理辦法，一般來(lái)講主要是要找到包含內(nèi)容的js代碼串，然后通過(guò)正則表達(dá)式獲得相應(yīng)的內(nèi)容，而不是解析HTML標(biāo)簽。

Ajax異步請(qǐng)求

這種情況是現(xiàn)在很常見的，尤其是在內(nèi)容以分頁(yè)形式顯示在網(wǎng)頁(yè)上，并且頁(yè)面無(wú)刷新，或者是對(duì)網(wǎng)頁(yè)進(jìn)行某個(gè)交互操作后，得到內(nèi)容。那我們?cè)撊绾畏治鲞@些請(qǐng)求呢？這里我以Chrome的操作為例，進(jìn)行說(shuō)明：

所以當(dāng)我們開始刷新頁(yè)面的時(shí)候就要開始跟蹤所有的請(qǐng)求，觀察數(shù)據(jù)到底是在哪一步加載進(jìn)來(lái)的。然后當(dāng)我們找到核心的異步請(qǐng)求的時(shí)候，就只用抓取這個(gè)異步請(qǐng)求就可以了，如果原始網(wǎng)頁(yè)沒有任何有用信息，也沒必要去抓取原始網(wǎng)頁(yè)了。

2 App內(nèi)容

因?yàn)楝F(xiàn)在移動(dòng)應(yīng)用越來(lái)越多，很多有用信息都在App里面，另外解析非結(jié)構(gòu)化文本和結(jié)構(gòu)文本對(duì)比而言，結(jié)構(gòu)化文本會(huì)簡(jiǎn)單多了，不同去找內(nèi)容，去過(guò)多分析解析，所有既有網(wǎng)站又有App的話，推薦抓取App，大多數(shù)情況下基本上只是一些JSON數(shù)據(jù)的API了。那么App的數(shù)據(jù)該如何抓取呢？通用的方法就是抓包，基本的做法就是電腦安裝抓包軟件，配置好端口，然后記下ip，手機(jī)端和電腦在同一個(gè)局域網(wǎng)里面，然后在手機(jī)的網(wǎng)絡(luò)連接里面設(shè)置好代理，這個(gè)時(shí)候打開App進(jìn)行一些操作，如果有網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求，則都會(huì)被抓包軟件記下，就如上Chrome分析網(wǎng)絡(luò)請(qǐng)求一樣，你可以看到所有的請(qǐng)求情況，可以模擬請(qǐng)求操作。這里Mac上我推薦軟件Charles，Windows推薦Fiddler2。

具體如何使用，之后我再做詳述，可能會(huì)涉及到HTTPS證書的問(wèn)題。

三、了解網(wǎng)絡(luò)請(qǐng)求

剛剛一直在寬泛的提到一些我們需要找到請(qǐng)求，進(jìn)行請(qǐng)求，對(duì)于請(qǐng)求只是一筆帶過(guò)，但請(qǐng)求是很重要的一部分，包括如何繞過(guò)限制，如何發(fā)送正確地?cái)?shù)據(jù)，都需要對(duì)的請(qǐng)求，這里就要詳細(xì)的展開說(shuō)下請(qǐng)求，以及如何模擬請(qǐng)求。

我們常說(shuō)爬蟲其實(shí)就是一堆的HTTP請(qǐng)求，找到待爬取的鏈接，不管是網(wǎng)頁(yè)鏈接還是App抓包得到的API鏈接，然后發(fā)送一個(gè)請(qǐng)求包，得到一個(gè)返回包（也有HTTP長(zhǎng)連接，或者Streaming的情況，這里不考慮），所以核心的幾個(gè)要素就是：

URL
請(qǐng)求方法（POST, GET）
請(qǐng)求包headers
請(qǐng)求包內(nèi)容
返回包headers

在用Chrome進(jìn)行網(wǎng)絡(luò)請(qǐng)求捕獲或者用抓包工具分析請(qǐng)求時(shí)，最重要的是弄清楚URL，請(qǐng)求方法，然后headers里面的字段，大多數(shù)出問(wèn)題就出在headers里面，最常限制的幾個(gè)字段就是User-Agent, Referer,Cookie 另外Base Auth也是在headers里面加了Autheration的字段。

請(qǐng)求內(nèi)容也就是post時(shí)需要發(fā)送的數(shù)據(jù)，一般都是將Key-Value進(jìn)行urlencode返回包headers大多數(shù)會(huì)被人忽視，可能只得到內(nèi)容就可以了，但是其實(shí)很多時(shí)候，很多人會(huì)發(fā)現(xiàn)明明url，請(qǐng)求方法還有請(qǐng)求包的內(nèi)容都對(duì)了，為什么沒有返回內(nèi)容，或者發(fā)現(xiàn)請(qǐng)求被限制，其實(shí)這里大概有兩個(gè)原因：

一個(gè)是返回包的內(nèi)容是空的，但是在返回包的headers的字段里面有個(gè)Location，這個(gè)Location字段就是告訴瀏覽器重定向，所以有時(shí)候代碼沒有自動(dòng)跟蹤，自然就沒有內(nèi)容了；
另外一個(gè)就是很多人會(huì)頭疼的Cookie問(wèn)題，簡(jiǎn)單說(shuō)就是瀏覽器為什么知道你的請(qǐng)求合法的，例如已登錄等等，其實(shí)就是可能你之前某個(gè)請(qǐng)求的返回包的headers里面有個(gè)字段叫Set-Cookie，Cookie存在本地，一旦設(shè)置后，除非過(guò)期，一般都會(huì)自動(dòng)加在請(qǐng)求字段上，所以Set-Cookie里面的內(nèi)容就會(huì)告訴瀏覽器存多久，存的是什么內(nèi)容，在哪個(gè)路徑下有用，Cookie都是在指定域下，一般都不跨域，域就是你請(qǐng)求的鏈接host。

所以分析請(qǐng)求時(shí)，一定要注意前四個(gè)，在模擬時(shí)保持一致，同時(shí)觀察第五個(gè)返回時(shí)是不是有限制或者有重定向。

本文由 諸葛io CEO 孔淼原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，?未經(jīng)許可，不得轉(zhuǎn)載。