新媒體人必會的傻瓜式爬蟲工具:上手 Web Scraper 的 5 個步驟
做新媒體運營,很多時候會需要用到數據來幫助工作,比如你新進到一家公司做新媒體內容編輯,那你需要盤點公司已有的內容資產,避免重復生產內容。這時候就需要把網頁上的數據給扒下來,放在一起,才會一目了然。
從網頁上扒數據,最好用的方法當然是爬蟲工具啦。很多人都以為爬蟲很難學吧?我一開始也這么認為的,直到我遇到了 Web Scraper 這個工具,才知道原來爬網頁數據也可以這么簡單。
下面,我就現身說法,講解一個小白是怎么快速上手 Web Scraper 的。
步驟一:下載 Web Scraper
Web Scraper 是 Chrome 瀏覽器上的一個插件,你需要翻墻進入 Chrome 應用商店,下載 Web Scraper 插件。
步驟二:打開 Web Scraper
先打開一個你想爬數據的網頁,比如我想爬今日頭條上「吳曉波頻道」這個賬戶的文章標題、時間、評論數,那我就先打開它,再一一進行操作。
然后用快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。
步驟三:新建一個 Sitemap
點擊 Create New Sitemap,里面有兩個選項,import sitemap是指導入一個現成的 sitemap,咱小白一般沒有現成的,所以一般不選這個,選create sitemap 就好。然后進行這兩個操作:
- Sitemap Name:代表你這個 Sitemap 是適用于哪一個網頁的,所以你可以根據網頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數據,那我就用 toutiao 來命名;
- Sitemap URL:把網頁鏈接復制到 Star URL 這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄。
步驟四:設置這個 Sitemap
整個 Web Scraper 的抓取邏輯是這樣:設置一級 Selector,選定抓取范圍;在一級 Selector 下設置二級 Selector,選定抓取字段,然后抓取。
咱們換個接地氣的例子,假如你要獲取福建人的姓名、性別和年齡這三個要素,那么你得這么做:首先要定位到福建省,然后再在福建省里面去定位姓名、性別、年齡。
在這里,一級 Selector 表示你要在中國這個大的國家圈出福建省,二級Selector 表示你要在福建省的人口中圈定姓名、性別、年齡這三個要素。
對于文章而言,一級 Selector 就是你要把這一塊文章的要素圈出來,這個要素可能包含了 標題、作者、發布時間、評論數等等,然后我們再在二級 Selector 中挑出我們要的要素,比如標題、作者、閱讀數。
下面我們來拆解這個設置一級、二級 Selector 的工作流:
1. 點擊 Add new selector 創建一級 Selector,按照以下步驟操作:
- 輸入id:id 代表你抓取的整個范圍,比如這里是文章,我們可以命名為 wuxiaobo-articles;
- 選擇Type:type 代表你抓取的這部分的類型,比如元素/文本/鏈接,因為這個是整個文章要素范圍選取,我們需要用 Element 來先整體選取(如果這個網頁需要滑動加載更多,那就選 Element Scroll Down);
- 勾選Multiple:勾選 Multiple 前面的小框,因為你要選的是多個元素而不是單個元素,當我們勾選的時候,爬蟲插件會幫助我們識別多篇同類的文章;
- 保留設置:其余未提及部分保留默認設置。
2. 點擊 select 選擇范圍,按照以下步驟操作:
- 選擇范圍:用鼠標選擇你要爬取數據的范圍,綠色是待選區域,用鼠標點擊后變為紅色,才是選中了這塊區域;
- 多選:不要只選一個,下面的也要選,否則爬出來的數據也只有一行;
- 完成選擇: 記得點 Done Selecting;
- 保存:點擊 Save Selector。
3. 設置好了這個一級的 Selector 之后,點進去設置二級的 Selector,按照以下步驟操作:
- 新建Selector:點擊 Add new selector ;
- 輸入id:id 代表你抓取的是哪個字段,所以可以取該字段的英文,比如我要選「作者」,我就寫「writer」;
- 選擇Type:選 Text,因為你要抓取的是文本;
- 勿勾選Multiple:不要勾選 Multiple 前面的小框,因為我們在這里要抓取的是單個元素;
- 保留設置:其余未提及部分保留默認設置。
4. 點擊 select,再點擊你要爬取的字段,按照以下步驟操作:
- 選擇字段:這里爬取的字段是單個的,用鼠標點擊該字段即可選定,比如要爬標題,那就用鼠標點擊某篇文章的標題,當字段所在區域變紅即為選中;
- 完成選擇:記得點 Done Selecting;
- 保存:點擊 Save Selector。
5. 重復以上操作,直到選完你想爬的字段。
步驟五:爬取數據
之所以說 Web Scraper 是傻瓜式爬蟲工具,就是因為只需要設置完所有的 Selector,就可以開始爬數據了,怎么樣,是不是簡單?
那么怎么開始爬數據呢?只需要一個簡單的操作:點擊 Scrape,然后點Start Scraping,會彈出一個小窗,然后辛勤的小爬蟲就開始工作了。你會得到一個列表,上面有你想要的所有數據。
如果你希望把這些數據做一個排序,比如按照閱讀量、贊數、作者等指標排序,讓數據更一目了然,那么你可以點擊 Export Data as CSV,把它導入 Excel 表里。
導入 Excel 表格之后,你就可以對數據進行篩選了。
以上就是快速上手 Web Scraper 的所有操作過程,連我這種懶癌 + 手殘都能在 5 分鐘之內搞定,相信你也可以指哪兒爬哪兒,完全 OK 的啦。
作者:半撇私塾,公眾號:BPteach2016。
本文由 @半撇私塾 原創發布于人人都是產品經理。未經許可,禁止轉載
我這里寫了十幾篇關于 web scraper 的教程,從基礎的抓取元素到高級的翻頁技巧都覆蓋了,非常適合產品運營的同學學習。感興趣的同學可以看一下:https://www.cnblogs.com/web-scraper/
您好,如果數據很多,需要翻頁,這個應該怎么實現呢?
想請問下,按照上面操作,為什么有的數據是null呢?
我有一個視頻課程就是講web scraper的使用方法,有興趣的可以看微信公眾號:全棧全網營銷,也有翻譯的文檔資料。
你好為什么我按著你的操作來 只有標題 其他的啥也沒有呢?
你好,我想請問一個問題:如果想要加載更多數據,需要選擇scroll down類型,可是我想要加載的是向上翻的數據,這樣的話該如何實現呢?
您是說翻頁還是向上滾動?一般的加載更多的模式都是翻頁或者向下滾動的呀?
是的,一般情況都是向下滾動的,可是這次要抓的數據在最上面,需要向上滾動才能加載到。請問這樣功能可以實現嗎?
非常6 gif教學,不錯不錯。你錄制gif用啥工具?
ScreenToGif
其實有一個細節,就是如果遇到類似京東的產品列表頁,想擼前10頁的內容,如何設置?下方翻頁是1 2……下一頁 123頁那種……我搜了油管,發現也沒有細節教學。
你在建一級selector的時候,不是要復制網頁url嗎,如果是多個頁面的鏈接,后面會有page=1這種字樣,你改成page=[1-10]應該就可以了
多謝,測試了下,確實可以,不過貌似這個爬的順序不是順序排列的。比如去京東,排序銷量最好的10頁手機并不能按照順序爬,這個有點兒尷尬。
怎么翻墻勒
VPN..還有一個辦法,把筆記本帶到國外上網 ??
可以用藍燈哦~
感覺挺有用,想問下作者我按步驟操作完之后最后出現的只有null,而沒有出現那些文章的信息,是什么原因呢?
你的參數可能設置錯了,看看你新建一二級selector的時候是不是出錯了?
有可能是id那,一級selector的id是 wuxiaobo還是 wuxiaobo-articles呀?因為圖片中你是輸入 wuxiaobo,但是文字說明中你又寫 wuxiaobo-articles?
這個id是自己設的,不會對結果有太大影響的~
嗯嗯好的
可以私聊幫忙解決下嗎?謝謝,這里回復不能發截圖的