八爪魚采集器產品調研分析報告

3 評論 6607 瀏覽 36 收藏 17 分鐘

大家對于八爪魚采集器這個產品的了解有多少呢?下面這篇文章是筆者對這個產品的一個調研分析報告,大家一起來看看吧!

一、調研目的和背景

1. 調研背景

八爪魚是深圳視界信息技術有限公司開發的一款數據采集器,目前在網頁數據采集軟件領域內占據領先的地位,與之相競爭得軟件還有火車頭、集搜客、神箭手云爬蟲等。對于搜索平臺,數據采集是數據集成關鍵的一環,涉及到之后的數據建庫、數據分析、數據可視化;其次簡潔高效的可交互性對于用戶也能提升較大的使用體驗。

作為數據采集器的排頭兵,八爪魚的用戶群體廣泛,其產品有獨特的亮點,能夠比較好地滿足不同類型業務下對數據搜索的需求,基于此,開展八爪魚采集器產品調研。

2. 調研目的

通過對八爪魚采集器windows10下8.2.2版本進行深度體驗,首先對八爪魚進行定位分析;然后,對八爪魚進行產品分析,挖掘不同用戶的需求和場景,并通過完成主流用戶的操作任務,還原產品的邏輯和結構;最后,通過市場上用戶反饋和競品對比分析,提出產品優化的方向。

二、對八爪魚的定位分析

八爪魚的基本定位是互聯網數據采集軟件,通過提供不同的采集方式,讓用戶能夠在短期內根據自己的業務需求,快速獲取自己所需求的數據,并支持不同的導出方式進行數據分析和可視化。

在產品上線初期,市場上多數網頁數據采集技術主要是接收指定頁面,然后用正則表達式分析里面的網頁結構,獲取指定的數據。

采集不同網站的數據,所用的正則表達式也不同。

但是八爪魚就以其傻瓜式采集的特點吸引眾多用戶,它簡略了這一過程,即使不會正則表達式或者說是不會代碼,也可以進行信息的采集,大大的降低了操作難度。

目前,八爪魚在采集上的核心功能是模板采集、智能采集、云采集、自定義采集四個方面。從最開始的簡單、快速化采集,到現在智能化、自動化采集,能夠在線5000臺云服務器,24*7小時不間斷的高效穩定采集,提供30/100云節點高并發采集能力,能完成大規模數據的采集。

八爪魚,具有清晰的產品定位,在大數據自動化時代,掌握了用戶對數據的大量需求,配合以簡單易學的可視化操作界面,在爬蟲類軟件領域占據領先地位,目前,正處于穩步優化和發展的階段。

三、對八爪魚的產品分析

為了更加深入地了解產品,本調研從市場分析、競對分析、用戶畫像、產品核心架構、產品業務流程圖、產品優缺點及改進方向六個方面進行產品分析。

1. 市場分析

近年來,中國政府對大數據產業的支持力度不斷加大。2015年,國務院發布《促進大數據發展行動綱要》,明確提出推動大數據產業發展,加快建設數據強國。在此背景下,中國爬蟲軟件市場逐漸嶄露頭角。

市場規模方面,根據相關數據,2019年中國爬蟲軟件市場規模為10.8億元,預計到2025年將達到50億元,年復合增長率達24.6%??梢钥闯?,爬蟲軟件市場具有巨大的增長潛力。

競爭格局方面,目前中國爬蟲軟件市場主要由幾家頭部企業主導,包括數倉、八爪魚、光年等。這些企業通過技術創新和精準定位,在市場上占據了重要地位。

以下的圖表展示了全球爬蟲軟件在近十年的市場增長率變化:

2. 主流的爬蟲軟件競品分析

上一節分析到關于爬蟲軟件的市場占有率在不斷增長,在中國市場中,以下的5個產品在用戶體量、軟件知名度、市場占有率等指標上表現不俗,以下為這5個產品的競品分析:

3. 用戶需求和場景

八爪魚的基本定位是數據抓取平臺,主要用戶有產品、運營、銷售、數據分析、政府機關、電商從業者、學術研究等多種身份職業,對應的業務場景也非常廣泛,這一類人對數據的利用程度和需求指數是不同的,并且受到教育程度和專業化程度不一樣。

通過對八爪魚采集器一段時間的使用,得到大致的用戶需求如下:

1) 數據采集的精準性

對于用戶來說無論采集源是什么,通過配置要采集的數據,將網頁中無用的信息忽略,只提取出用戶關心的關鍵數據點,是最為關鍵的。

2) 數據分析的有效性

完成數據采集后,就應該有準確的分析和使用數據能力,透過對采集數據的深入分析,建立分析模型,通過對數據進行分析,計算,統計,趨勢分析等等,從而幫助用戶做出正確的決策,洞察真實數據的變化。

3) 數據整合的自動化

最后整合數據,實現數據源源不斷的進入系統。讓整個數據采集,分析,決策的過程實現自動化。針對以上的數據需求,參考類似競品調研,將八爪魚的用戶分為數據小白、數據行家、企業用戶,并總結了他們各自的使用場景和需求。

4. 產品核心架構

為了更加全面地了解八爪魚產品,本調研梳理了產品的核心架構,具體內容如下圖所示:

八爪魚的大致架構比較清晰,主要是包括模板采集、智能采集、自定義采集、云采集四個板塊,以人的瀏覽行為為路徑,讓用戶在使用產品的時候比較容易上手。

首先模板采集內置了上百種主流網站數據源,如京東、天貓、大眾點評等熱門采集網站,即對于一些搜集需求量大的一些數據源網站的匯總,包括常見的數據字段,和操作,對于一些初級操作者在一些數據字段不特殊的情況下使用,例如學生對于研究某一熱點現象或者影視作品的數據搜尋,或是電商從業者對不同商品的各類指數的研究,以及疫情下對于所有疫情情報的收集。

其次自定義采集是目前用戶采集數據的主要方式,其需要用戶具備一定網頁結構的知識,或者通過八爪魚官方的教程來學習采集的流程,其最大的特點是模擬了人的瀏覽行為進行采集數據,例如不管任何操作前都要輸入目標網址,再對目標內容進行一一選中,同時進行額外的循環操作。

智能采集是在模板采集中缺少模板,同時不想在自定義采集下耗費精力的另外一種方式。輸入數據源網站后,支持一鍵識別網頁,該網頁內的各字段即可被選中采集,之后可以進行增加翻頁和滾動操作,但僅限于單一網頁結構下內容的提取,若需要進一步的對某個鏈接內部進行點擊操作,其程度類似于自定義,只不過不需要對采集字段一一選擇,而是由八爪魚自動識別后抓取。

云采集作為八爪魚的收費項目,必然有其亮點之處。通過云采集實現多任務并發和單任務加速的采集效果以便用戶快速的收集整理互聯網公開數據。

其主要功能點如下:

  1. 采集速度。
  2. 實現無人值守??申P閉電腦、軟件進行數據采集,真正實現無人值守。
  3. 定時采集。云采集星球是7*24小時,可設置任務的定時工作。
  4. 數據自動入庫。
  5. 通過數據導出API接口,實現秒級導出,無縫對接內部系統。

5. 產品業務流程圖

從根本上來說八爪魚的特質,首先其原理就是模擬人的瀏覽行為,第一步永遠是找到目標網址并進行輸入,和與手機上的操作類似,需要對目標數據進行點擊,翻頁,采集。

其次就是,八爪魚能夠根據不同的網站制定不同的采集規則,之后就能為用戶提供自動化采集的模板。因此,可以看出八爪魚的業務范圍和用戶群體都是相對大眾的,但是從制定規則處又能兼容更高層次采集業務的需要。

因此,本調研梳理了八爪魚自定義采集的業務流程圖。

由于八爪魚官方沒有關于微信公眾號文章的抓取模板,故采用自定義的方式進行抓取,由于模擬人的瀏覽習慣,在打開頁面后首先創建翻頁循環,通過選擇Ajax技術和頁面刷新等待時間,更好匹配網頁加載的時間,接著創建列表循環并提取數據,提取自己所需要的相應字段后,啟動本地采集或是云采集,之后選擇導出數據。

在梳理“自定義采集”業務流程的過程中,發現具有幾個特點:

  • 對于不同網站有不同的抓取規則,在制定好采集規則后,根據流程全自動采集數據,下一次類似網站依舊能使用相同規則。
  • 操作流程可視化。在進行采集的過程中,可以同步查看自己采集的流程圖。
  • 智能化,支持自動識別網頁,采集網頁中可提取的各個字段。并在識別頁面操作之后,提示是否需要增加翻頁采集或者列表循環采集,如果采集字段并非所需,還可以切換識別結果。
  • 上手難度比較低,有很多功能屬于隱藏款,需要在增加熟練度之后才能開發。比如配置xpath,要會查看網頁源代碼,理解網頁結構之后才會使用。但也比一般的爬蟲工具易于理解。

6. 用戶反饋和優化方向

通過對數據收集整理,剔除好評數據和無意義數據,形成以上用戶反饋表格,本調研得出以下結論:

優化方向:

  • 用戶反饋數據偏少,可能未客觀全面反映出產品存在的問題。
  • 產品的bug主要出現在采集數據的操作過程中,是產品的核心操作,直接影響用戶體驗,建議聯系反饋者,并測試bug是否存在,如果bug還原,及時處理,如果bug未還原,進入觀察期。
  • 采集數據操作的簡易型是用戶選擇八爪魚的重要因素,對于模板采集需要增加更多的模板,可以從兩個方面入手,一是開設模板上傳功能,讓用戶在采集完成后覺得不錯,穩定性高的模板采用積分鼓勵的方式上傳,二是創建官方的博客專區,放置更多的模板和介紹,并讓用戶留言的方式增加互動性,也可以解決一部分的技術問題。
  • 對于自定義采集,對于一些常用的網站可以在自定義識別后,自動保留上一次在該網站進行采集的流程,可以減少因為條件增加的基礎上導致規則崩潰的問題。
  • 關于任務數上限的問題,在同時啟動多少個任務下效率最高,且不會卡死,是一個待解決的問題。

三、總結

總的來說,八爪魚的優點是:簡單易用、規則好找、可視化界面、容易學習和模仿。

直觀看到網頁變化,不管是測試還是采集的時候都容易規避一些操作失誤;自定義規則相對較快,官方文檔詳細。而缺點則是:模板量不夠豐富,自定義規則容易因錯誤操作導致卡死,企業版出現采集速度緩慢等原因。

未來迭代方向及思路:

1)用戶引導方面

可以在用戶第一次使用之前就進行強制的操作教學,分成若干的課程給用戶進行學習,沒完成一項就給予積分鼓勵。積分可用來下載VIP模板或者提高采集速度。

2)智能化方面

若用戶在選擇進入采集頁面之后自動識別到該網頁在本模板庫中,可以先向用戶推薦使用該模板采集,若庫中沒有此類模板,則開啟自動化識別,之后為用戶提供是否需要翻頁采集,是否需要圖片采集等一系列功能。

3)模板采集方面

對于模板采集需要增加更多的模板,可以從兩個方面入手,一是開設模板上傳功能,讓用戶在采集完成后覺得不錯,穩定性高的模板采用積分鼓勵的方式上傳,二是創建官方的博客專區,放置更多的模板和介紹,并讓用戶留言的方式增加互動性,也可以解決一部分的技術問題。

4)基于同儕互助的問答社區

由于目前人工客服只對企業版開放,大多數普通用戶不到解答,就導致了用戶流失和惡意評價等問題,建立評論社區可以減少人工客服的負擔,同樣可以為產品帶來更多效益。

本文由 @瓜皮結衣 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 競品分析沒結論嘛

    來自江蘇 回復
    1. 結論這部分內容在6用戶反饋和優化總結

      來自湖北 回復
  2. 不黑,八爪魚的售后服務很差

    來自江蘇 回復