互聯(lián)網(wǎng)“蟲患”難除
編輯導(dǎo)語:作為一項計算機技術(shù),爬蟲能自動且高效地瀏覽互聯(lián)網(wǎng)完成“復(fù)制、抓取”兩個動作,存在于互聯(lián)網(wǎng)生活的方方面面,而廣泛應(yīng)用的背景下,也存在著不少“蟲患”。本文作者分析了這一問題,推薦感興趣的朋友們閱讀。
爬蟲幾乎伴隨著整個互聯(lián)網(wǎng)的發(fā)展,作為一項計算機技術(shù),它能自動且高效地瀏覽互聯(lián)網(wǎng)完成“復(fù)制、抓取”兩個動作。如果完全封禁網(wǎng)絡(luò)爬蟲,可能導(dǎo)致互聯(lián)網(wǎng)發(fā)展“寸步難行”;但倘若不設(shè)置任何“屏障”,又可能導(dǎo)致互聯(lián)網(wǎng)淪為“數(shù)字叢林”。
法律難以確定一項“既要…又要…”的規(guī)則來劃定爬蟲合法界限。
robots協(xié)議作為國際互聯(lián)網(wǎng)通行道德規(guī)范,但卻常常被網(wǎng)絡(luò)惡意訪問者所無視,有的網(wǎng)絡(luò)爬蟲行為直接侵害他人權(quán)益,有的網(wǎng)絡(luò)爬蟲行為直接涉嫌犯罪,更多的網(wǎng)絡(luò)爬蟲行為處于法律灰色地帶之中,圍繞著“爬蟲”與“反爬蟲”成為了互聯(lián)網(wǎng)世界中的“永無休止戰(zhàn)”,目的都是:獲得數(shù)據(jù)。
當數(shù)據(jù)權(quán)屬懸而未決,也就注定了網(wǎng)絡(luò)爬蟲戰(zhàn)爭難以落幕。
一、爬蟲經(jīng)過之地,“樂園”還是“焦土”?
網(wǎng)絡(luò)爬蟲是一種“自動瀏覽萬維網(wǎng)”的網(wǎng)絡(luò)機器人,它作為一項計算機技術(shù),自動且高效地瀏覽互聯(lián)網(wǎng)并完成“復(fù)制、抓取”兩個動作?!芭老x”二字在中文語境帶有“貶義”,不免讓人聯(lián)系成為一類有害之物,必須加以消滅。
但實際上,網(wǎng)絡(luò)爬蟲是項中立的技術(shù),合理合法地使用,它可以如同蜜蜂擴散傳播花粉般,在互聯(lián)網(wǎng)上充當著信息自由交換的工具;但如有使用者心懷叵測,它也可以掀起一場“蝗災(zāi)”,讓網(wǎng)站、App瞬間崩潰,或是侵犯個人隱私。
爬蟲技術(shù)最常見運用在搜索引擎中,爬蟲可以將自己所訪問的頁面數(shù)據(jù)保存下來,制作成為索引以便供用戶搜索網(wǎng)頁。通常而言,搜索引擎爬蟲是網(wǎng)站經(jīng)營者樂于接受的,爬蟲訪問會提升網(wǎng)站的曝光率。但有些時候,爬蟲并不“受人歡迎”。
2019年,國內(nèi)外不少網(wǎng)站經(jīng)營者抱怨遭遇了一些搜索引擎爬蟲的訪問,因訪問頻率過高,一度令一些網(wǎng)站癱瘓。
“短短一上午時間就收到了46萬次請求,消耗掉服務(wù)器7.42GB流量。這對平均日活可能都沒有過千的小網(wǎng)站來說,已經(jīng)算得上一次小型的DDoS攻擊?!币晃辉庥鯞ytespider爬蟲網(wǎng)站經(jīng)營者對此感嘆道。
DDos攻擊:指通過大規(guī)?;ヂ?lián)網(wǎng)流量淹沒目標服務(wù)器或其周邊基礎(chǔ)設(shè)施,以破壞目標服務(wù)器、服務(wù)或網(wǎng)絡(luò)正常流量的惡意行為。
“通常爬蟲會定位網(wǎng)站所有的URL鏈接,獲取頁面里的數(shù)據(jù),再對數(shù)據(jù)進行拆解利用。無論是在網(wǎng)頁端還是移動端,爬蟲都基于這樣的原理。”歐萊雅中國區(qū)數(shù)字化負責(zé)人劉煜晨介紹?!皩τ谀切┬【W(wǎng)站或者技術(shù)實力弱的網(wǎng)站,如果被爬蟲7?24小時持續(xù)的大量訪問,可能因服務(wù)器無法承受導(dǎo)致網(wǎng)站崩潰?!?/p>
在現(xiàn)實生活中,其實很多人都與爬蟲“打過交道”。
比如,逢年過節(jié)之時,為確保能買到回家火車票,有人會選擇使用“搶票軟件”,這個軟件就是利用網(wǎng)絡(luò)爬蟲來登錄鐵路售票網(wǎng)絡(luò),并爬取票務(wù)信息,然后輔以批量化、自動化和高速化的購票流程處理,從而能以毫秒級的刷新來獲取人工購票難以企及的信息和速度優(yōu)勢。顯然,這種“充錢加塞”的方式顯然對正常渠道的購票者有失公平。
網(wǎng)絡(luò)爬蟲不光消耗“被爬取方”網(wǎng)站的流量,同時能夠“抓走”網(wǎng)站頁面的數(shù)據(jù),因此常引發(fā)紛爭。
2016年,百度因大量使用爬蟲抓取大眾點評的點評信息,在百度地圖中進行展示,后被大眾點評訴至法院。法院審理認為,百度的行為違反了公認的商業(yè)道德和誠實信用原則,構(gòu)成不正當競爭。
對編寫網(wǎng)絡(luò)爬蟲的程序員來說,如果爬到不該爬取的數(shù)據(jù),則存在違法的可能。程序員圈內(nèi)對此戲稱,“爬蟲寫得好,牢飯吃得早”。
從裁判文書網(wǎng)的檢索結(jié)果來看,利用網(wǎng)絡(luò)爬蟲作為犯罪工具涉及的主要罪名有:
- 侵犯公民個人信息罪
- 非法獲取計算機信息系統(tǒng)罪
- 破壞計算機信息系統(tǒng)罪
- 傳播淫穢物品牟利罪
- 侵犯知識產(chǎn)權(quán)罪
- 詐騙罪等
目前,能夠檢索到50余件相關(guān)判例。
二、robots協(xié)議,一扇虛掩著的門
談?wù)摼W(wǎng)絡(luò)爬蟲,就不可避免地談及robots協(xié)議,它好比你懸掛在酒店房門口“請勿打擾”或者“請即打掃”告示牌,旨在通過代碼來溝通“爬取方”和“被爬取方”之間的“爬取意愿”。
1994年,荷蘭工程師傅馬丁·科斯特(Martijn Koster)起草了robots協(xié)議,而起草這份協(xié)議的初衷,正是由于馬丁·科斯特自建的網(wǎng)站經(jīng)常被爬蟲所淹沒。馬丁·科斯特認為,被爬蟲抓取數(shù)據(jù)這件事是把雙刃劍,良好的爬取可以提高網(wǎng)站的曝光率,而惡意的爬取可能會導(dǎo)致服務(wù)器壓力暴增而導(dǎo)致崩潰。
robots協(xié)議寫法,例如:禁止Google爬蟲User-agent: Googlebot
Disallow: /
馬丁·科斯特起草的robots協(xié)議后來成為互聯(lián)網(wǎng)世界通行的道德規(guī)范,但這份協(xié)議更像是一份“君子協(xié)議”。馬丁·科斯特聲稱,該協(xié)議既不是強制性標準,沒有任何強制執(zhí)行力,僅是一項技術(shù)措施,違反它只能放在商業(yè)道德的范疇來評價。
2012年11月1日,由中國互聯(lián)網(wǎng)協(xié)會牽頭,robots協(xié)議寫入了由12家中國互聯(lián)網(wǎng)企業(yè)簽署了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》中,此后成為多起“網(wǎng)絡(luò)爬蟲”相關(guān)訴訟案件法院裁判所參考的規(guī)則。
遵循國際通行的行業(yè)慣例與商業(yè)規(guī)則,遵守機器人協(xié)議(robots協(xié)議)。
——《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第七條第1款
互聯(lián)網(wǎng)所有者設(shè)置機器人協(xié)議(robots協(xié)議)應(yīng)遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應(yīng)有行業(yè)公認合理的正當理由,不利用機器人協(xié)議進行不正當競爭行為,積極營造鼓勵創(chuàng)新、公平公正的良性競爭環(huán)境。
——《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第八條
而robots協(xié)議被更多人所知曉,起因于2013年的“360訴百度不正當競爭案”。該案原告奇虎公司指出,2012年8月16日,奇虎公司上線運營“360搜索引擎”,但百度并未在相關(guān)網(wǎng)站的robots協(xié)議中將“360搜索引擎”列入其“白名單”。故奇虎指控百度的行為構(gòu)成不正當競爭,將其訴至法院,之后百度敗訴。
可能是為了讓人們更好地理解相關(guān)的原理,法院在一審判決中作出了形象的解釋,“robots協(xié)議就相當于在博物館入口處懸掛的提示牌,告知游客哪些區(qū)域不對外開放,提示牌的目的并不是限制游客的正常參觀活動,而是通過提示游客哪些區(qū)域為非參觀區(qū),從而引導(dǎo)游客更有效的參觀游覽。提示牌的內(nèi)容對所有游客應(yīng)一視同仁,如果要禁止某一類人進入?yún)⒂^,則需要有合理、正當?shù)睦碛??!?/p>
百度后來提起上訴認為,搜索引擎遵循robots協(xié)議就是遵守行業(yè)慣例和公認的商業(yè)道德。
robots協(xié)議體現(xiàn)了網(wǎng)站與搜索引擎之間的交易自由,而一審判決以“促進信息共享”為由限制互聯(lián)網(wǎng)內(nèi)容提供者自由選擇交易對象,若要求設(shè)置robots協(xié)議限制通用搜索引擎抓取應(yīng)當具有的合理正當理由,實質(zhì)上將廢止robots協(xié)議。
上訴案件經(jīng)過長達近六年的審理,二審法院于2020年7月做出維持原判的決定。二審法院認為,“百度在缺乏合理、正當理由的情況下,以對網(wǎng)絡(luò)搜索引擎經(jīng)營主體區(qū)別對待的方式,故構(gòu)成反不正當競爭法第二條規(guī)定所指的不正當競爭行為。”
經(jīng)營者在生產(chǎn)經(jīng)營活動中,應(yīng)當遵循自愿、平等、公平、誠信的原則,遵守法律和商業(yè)道德。
——《反不正當競爭法》第二條
盡管是一項通行規(guī)則,但robots協(xié)議僅是一道“虛掩著的門”,無法在實質(zhì)上限制爬蟲。
“robots協(xié)議只是文字宣示,不是技術(shù)措施,客觀上無法阻止網(wǎng)絡(luò)機器人抓取網(wǎng)絡(luò)數(shù)據(jù)?!?/p>
在北京微夢創(chuàng)科網(wǎng)絡(luò)技術(shù)有限公司(下稱“微夢創(chuàng)科”)與北京字節(jié)跳動科技有限公司(下稱“字節(jié)跳動”)不正當競爭糾紛中,一審被告新浪微博所屬的微夢創(chuàng)科在上訴狀中如此表示。
在該案中,一審原告字節(jié)跳動認為新浪微博將其添加至robots協(xié)議的“黑名單”無合理理由,違反了相關(guān)法律規(guī)定和行業(yè)公認的商業(yè)道德,構(gòu)成不正當競爭,訴請法院判令微夢創(chuàng)科停止不正當競爭行為、刊登道歉聲明、賠償其經(jīng)濟損失1億元及制止侵權(quán)的50萬元支出。
2017年,微夢創(chuàng)科一審敗訴,北京市知識產(chǎn)權(quán)法院支持字節(jié)跳動停止不正當競爭、刊登道歉聲明的請求,酌定微夢創(chuàng)科向字節(jié)跳動賠償經(jīng)濟損失30萬元及制止侵權(quán)的34343元支出。
北京市知識產(chǎn)權(quán)法院的主張與“360訴百度不正當競爭案”相似。
“本質(zhì)上按照經(jīng)營主體來區(qū)分網(wǎng)絡(luò)信息是否可以被抓取,…….此種針對性的限制措施顯然與行業(yè)公認的robots協(xié)議公平、開放和促進信息自由流動原則不符,與互聯(lián)網(wǎng)行業(yè)普遍遵從的開放、平等、分享、協(xié)作的互聯(lián)網(wǎng)精神相悖,不利于維護公平參與、理性競爭的互聯(lián)網(wǎng)市場競爭環(huán)境。”
四年后,北京市高級人民法院對該案作出二審判決,撤銷一審判決,并駁回了字節(jié)跳動所有訴訟請求。
法院認為,“robots協(xié)議在某種意義上已經(jīng)成為維系企業(yè)核心競爭力,維系市場有序競爭的一種手段。盡管robots協(xié)議客觀上可能造成對某個或某些經(jīng)營者的“歧視”,但在不損害消費者利益、不損害公共利益、不損害競爭秩序的情況下,應(yīng)當允許網(wǎng)站經(jīng)營者通過robots協(xié)議對其他網(wǎng)絡(luò)機器人的抓取進行限制,這是網(wǎng)站經(jīng)營者經(jīng)營自主權(quán)的一種體現(xiàn)?!?/p>
“技術(shù)是中立的,但技術(shù)應(yīng)用永遠不是中立的?!?/strong>新浪集團訴訟總監(jiān)張喆對此表示,“評價爬蟲技術(shù)原理沒有意義,更重要的是爬蟲技術(shù)用來干什么,看它的行為本身是否具有正當性?!?/strong>
設(shè)置robots協(xié)議像是一道“虛掩著的門”,盡管協(xié)議用文字向爬蟲宣告“是否接受爬取”以及“可以爬取的范圍”,但它本質(zhì)上僅是并不能阻攔爬蟲訪問。設(shè)置robots協(xié)議的行為在全球各地的司法裁判中也得到不同的評價。
2017年,在HiQ訴領(lǐng)英案中,HiQ公司對領(lǐng)英網(wǎng)站實施了網(wǎng)絡(luò)爬蟲,但加利福尼亞北區(qū)地區(qū)法院的法官認為,這種爬蟲行為并不違反法律,因為領(lǐng)英網(wǎng)站上的數(shù)據(jù)是公開數(shù)據(jù),對于公開數(shù)據(jù),即使違反對方設(shè)置的robots協(xié)議,也應(yīng)當是被法律允許的。
法官認為,爬蟲行為就像在白天推開一家未鎖門的商店進去看看,并不能將其認定為非法侵入。
法院最后不僅沒有認定 HiQ公司的爬蟲行為違法,甚至反過來認定領(lǐng)英的反爬蟲技術(shù)違法,要求領(lǐng)英公司移除針對HiQ的接入壁壘。但目前,該案由美國最高法院發(fā)回至舊金山第九巡回上訴法院重審。
早年間,以爬蟲技術(shù)訪問他人網(wǎng)站內(nèi)容,視為對于他人財產(chǎn)權(quán)的侵犯。
1992年,eBay訴Bidder’s Edge(一家提供拍賣信息的網(wǎng)站)案中,eBay指控Bidder’s Edge未經(jīng)許可復(fù)制了eBay網(wǎng)站的內(nèi)容,eBay已通過robots協(xié)議進行限制,但Bidder’s Edge并未遵守。審理此案的法官指出,eBay的服務(wù)器是私有財產(chǎn),eBay授予公眾可以有條件的訪問,并禁止包括Bidder’s Edge在內(nèi)所采取的自動化式的訪問。
審理此案法官認為,超出同意的范圍,就構(gòu)成對他人財產(chǎn)的侵犯;而Bidder’s Edge的行為明顯超越了eBay允許的使用范圍,構(gòu)成非授權(quán)的使用,是對eBay財產(chǎn)的侵犯。法官認可robots協(xié)議既是權(quán)利人保護私有財產(chǎn)的一種正當技術(shù)手段,設(shè)置robots協(xié)議為免受爬蟲騷擾性訪問的通行做法。
如被抓取的數(shù)據(jù)涉及侵犯知識產(chǎn)權(quán),是否設(shè)置robots協(xié)議則還成為授權(quán)許可與否的判斷,而這點各國采取的判斷標準則完全不一。
在2006年,美國的Field訴Google案中,原告布雷克·菲爾德(Blake Field)向法院起訴Google從自建網(wǎng)站中抓取作品侵害其享有的著作權(quán)。但Google辯稱,原告未在其網(wǎng)站中設(shè)置robots協(xié)議,即為默示許可Google的抓取行為。法院支持了Google的觀點,未設(shè)置robots協(xié)議的做法視為其默許搜索引擎抓取,Google并未侵權(quán)。
在2017年,比利時法院與美國法院的觀點截然相反。在Copiepresse訴Google案中,原告Copiepresse作為一家比利時的報業(yè)集團,因Google利用搜索引擎抓取原告網(wǎng)站中享有著作權(quán)的內(nèi)容,故訴至法院。
Google辯稱原告Copiepresse可以設(shè)置robots協(xié)議的方式來告知搜索引擎的網(wǎng)絡(luò)機器人可以抓取的范圍,但原告卻沒有這么做,說明原告對于抓取是默示許可的。最終,比利時法院認為,著作權(quán)屬于排他性權(quán)利,沒有使用robots協(xié)議并不代表默示許可,最終支持了原告的主張。
三、無休止之戰(zhàn):爬蟲與反爬蟲
“現(xiàn)在各行各業(yè)都需要用到爬蟲技術(shù),大到政府部門,小到個體商戶、科研人員,要發(fā)展大數(shù)據(jù)產(chǎn)業(yè),這些數(shù)據(jù)可能通過各種爬蟲技術(shù)來獲取,再進行數(shù)據(jù)清洗、整理、收集、入庫,調(diào)用?!被ヂ?lián)網(wǎng)爬蟲技術(shù)從業(yè)者的支先生對《財經(jīng)》E法表示道。
“數(shù)據(jù)分布在互聯(lián)網(wǎng)各個角落,爬蟲可以將其采集出來,利用數(shù)據(jù)產(chǎn)生價值?!敝壬J為,有的平臺型企業(yè)在初創(chuàng)期可能允許爬蟲爬取數(shù)據(jù),幫助其推廣和宣傳,但發(fā)展具有一定規(guī)模后,它們會認為數(shù)據(jù)已形成獨特的競爭力,從而傾向于保護數(shù)據(jù),限制爬蟲爬取?!霸趪鴥?nèi),涉及大型平臺之間的數(shù)據(jù)爬取時,大多以不正當競爭為由發(fā)起訴訟?!?/p>
爬蟲與反爬蟲之間成為一場無休止之戰(zhàn),發(fā)起攻擊的一方需要思考如何“鋒利其矛”,而防守一方則需要考慮如何“牢固其盾”。
“各個公司負責(zé)反爬蟲設(shè)計的人,一定也是爬蟲高手?!敝壬f,最為常見的反爬取手段是限制IP或者限制ID賬號,在發(fā)現(xiàn)賬號有異常訪問的情況時,就對其進行阻攔。
“但沒有絕對穩(wěn)固的城墻,只有相對的安全,如果說一家反爬取能力已經(jīng)達到80%了,哪怕在上面再往上提高1%,可能又要投入上千萬元,甚至上億元,沒有任何意義。”
最為常見的是,通過“驗證碼”進行身份驗證,像拖動圖形滑動驗證、數(shù)學(xué)計算、圖形識別、手機驗證碼等方式,但都各有局限?!跋袷謾C驗證碼。這種防線其實也能被突破,現(xiàn)在有很多供應(yīng)商提供自動驗證服務(wù),花費大概是每條1分線?!绷硪晃徊辉妇呙呐老x從業(yè)者表示,“爬蟲從技術(shù)角度根本防不住?!?/p>
谷歌作為站在爬蟲技術(shù)頂端的公司,在2009年收購由卡內(nèi)基梅隆大學(xué)研發(fā)reCAPTCHA人機驗證機制,并運用于反爬蟲領(lǐng)域,如發(fā)現(xiàn)可疑訪問者,需要完成識別后才可以繼續(xù)訪問網(wǎng)站。十多年間,reCAPTCHA人機驗證機制也在不斷升級,來對抗企圖破解繞過驗證機制的爬蟲。
reCAPTCHA人機驗證機制
從技術(shù)上看,這是一場“道高一尺,魔高一丈”的戰(zhàn)爭,但現(xiàn)實出發(fā),爬取數(shù)據(jù)的一方也并不總是處于主動地位。對于爬蟲從業(yè)者來說,他們很難明確分辨自己的行為是否違法,以及是否會遭到懲罰。有時候他們能“置身事外”,引發(fā)的爭議僅發(fā)展為平臺之間的“不正當競爭”民事訴訟,但有的時候他們則可能淪為犯罪行為中的“共犯”。
“對于我們這些從業(yè)者來說,爬蟲涉及到的法律風(fēng)險難以把握,很多大公司里崗位職責(zé)分明,技術(shù)人員可能覺得自個就是一個寫代碼的,稀里糊涂就被抓了。”支先生對此表示道?!安还苊袷虑謾?quán)還是犯罪行為,問題背后的根源還是數(shù)據(jù)的權(quán)屬不明晰?!?/p>
倘若將“爬取數(shù)據(jù)”與“入室盜竊”比較,入室行為侵犯了他人私人自治空間,而盜竊行為侵犯他人財產(chǎn)權(quán);但“爬取數(shù)據(jù)”本身行為部分卻往往發(fā)生于原本開放的網(wǎng)絡(luò)環(huán)境之中,當“數(shù)據(jù)權(quán)屬”未明晰時,則很難確定“誰因此受到損害”、“誰將遭受到懲罰”以及“誰有權(quán)能獲得賠償”。
四、爬蟲抓取的數(shù)據(jù)屬于誰?
爬蟲爬取的數(shù)據(jù)應(yīng)屬于個人還是平臺?在微夢創(chuàng)科與字節(jié)跳動不正當競爭糾紛案中,今日頭條認為,數(shù)據(jù)應(yīng)屬用戶所有,微博并不具備對用戶數(shù)據(jù)的任何權(quán)利,因此只要爬蟲是在用戶授權(quán)的情形下進行的,那么即使頭條違反了微博的robots協(xié)議,也不違法。
但微夢創(chuàng)科認為,數(shù)據(jù)應(yīng)屬于平臺所有,因為在用戶協(xié)議中已作出約定:“用戶同意不可撤銷地授權(quán)微博平臺作為微博內(nèi)容的獨家發(fā)布平臺,用戶所發(fā)表的微博內(nèi)容僅在微博平臺上予以獨家展示。”
還有一種觀點認為,數(shù)據(jù)屬于個人與平臺共有。在新浪訴脈脈不正當競爭案中,法院認為,數(shù)據(jù)開放的前提需遵循“用戶授權(quán)+平臺授權(quán)+用戶授權(quán)”的“三重授權(quán)”模式,即平臺首先取得用戶同意而收集數(shù)據(jù),在平臺向第三方授權(quán)使用此類信息時,第三方還應(yīng)當明確告知用戶其使用的目的、方式和范圍,再次取得用戶的同意。
這一判決理由意味著,個人和平臺對于數(shù)據(jù)都擁有一定的權(quán)利主張,數(shù)據(jù)在一定程度上為個人與平臺所共有。
也有觀點認為,互聯(lián)網(wǎng)具有公共屬性。加利福尼亞大學(xué)伯克利法學(xué)院教授奧林·科爾(Orin Kerr)有過經(jīng)典描述,在他看來,互聯(lián)網(wǎng)的一般原則是開放性,這種開放性允許世界上任何人發(fā)布信息或數(shù)據(jù),數(shù)據(jù)可以被任何人訪問,而無需進行身份驗證。
當然,奧林·科爾的觀點并不受企業(yè)歡迎,這些企業(yè)往往認為通過經(jīng)營活動吸引用戶積累數(shù)據(jù),對整體數(shù)據(jù)資源享有競爭性利益。
“不談?wù)摂?shù)據(jù)合法生產(chǎn)者具有控制權(quán),難以對爬蟲合法性進行判斷?!比A東政法大學(xué)法律學(xué)院教授、數(shù)據(jù)法律研究中心主任高富平認為,現(xiàn)在國內(nèi)的判決,基本在競爭法的框架下進行裁判,即爬蟲目的是否“實質(zhì)性替代”被爬一方的業(yè)務(wù),成為判斷爬蟲合法性的關(guān)鍵,有損害后果才制止爬蟲行為,總是有它的局限性。
“如果承認數(shù)據(jù)生產(chǎn)者具有數(shù)據(jù)的控制權(quán),基于控制權(quán),就可以對于那些無視robots協(xié)議的數(shù)據(jù)爬取者進行打擊。”高富平表示道,“更重要的是承認數(shù)據(jù)合法生產(chǎn)者可基于商業(yè)目的來開放數(shù)據(jù),以許可使用方式或者其他交換交易等方式,讓數(shù)據(jù)為更多人所使用?!?/p>
從國內(nèi)立法來看,2021年6月頒布的《深圳經(jīng)濟特區(qū)數(shù)據(jù)條例》首次以立法形式提及了“數(shù)據(jù)財產(chǎn)權(quán)”的概念,其中第四條作出規(guī)定,認可自然人、法人和非法人組織對其合法處理數(shù)據(jù)形成的數(shù)據(jù)產(chǎn)品和服務(wù)享有法律、行政法規(guī)及本條例規(guī)定的財產(chǎn)權(quán)益。高富平在接受媒體時表示,《深圳經(jīng)濟特區(qū)數(shù)據(jù)條例》將數(shù)據(jù)財產(chǎn)權(quán)分配給自然人、法人和非法人組織是存在沖突的。
“個人的數(shù)據(jù)權(quán)應(yīng)該保護的是個人的尊嚴和自由,基本上屬于人格權(quán)范疇,而不是一個財產(chǎn)權(quán),如果把個人的數(shù)據(jù)權(quán)定有財產(chǎn)權(quán)屬性,那個人在決定數(shù)據(jù)使用的時候,他的決定權(quán)就會和國家、企業(yè)的相沖突,這里面就會有權(quán)利“打架”的問題,無法構(gòu)建數(shù)據(jù)的利用秩序?!备吒黄綄Υ嗽u價。
爬蟲抓取的數(shù)據(jù)屬于誰?
中國人民大學(xué)法學(xué)院副教授丁曉東則認為,爬取平臺數(shù)據(jù)而引發(fā)的數(shù)據(jù)此,無論把平臺數(shù)據(jù)權(quán)屬歸于哪一方都不合理。有的場景下,屬于個人數(shù)據(jù)范疇,需要數(shù)據(jù)隱私法的優(yōu)先保護;有的場景下,平臺數(shù)據(jù)具有類似數(shù)據(jù)庫的性質(zhì),需要“類似數(shù)據(jù)庫權(quán)益”的保護;而在其他場景下,平臺數(shù)據(jù)又具有公共性,需要法律保障數(shù)據(jù)的共享與流通。
假如可能封禁所有網(wǎng)絡(luò)爬蟲的話,互聯(lián)網(wǎng)可能將會“寸步難行”;倘若又未對爬蟲設(shè)置任何“屏障”,互聯(lián)網(wǎng)則可能淪為“數(shù)字叢林”,最終侵害到用戶權(quán)益。因此,該如何規(guī)制網(wǎng)絡(luò)爬蟲行為,讓互聯(lián)網(wǎng)既保持自由、開放,又能有序健康發(fā)展,成為互聯(lián)網(wǎng)行業(yè)都面臨挑戰(zhàn)。
當數(shù)據(jù)權(quán)屬仍懸而未決時,也就意味著從未無休止爬蟲戰(zhàn)爭仍將繼續(xù)。
作者:殷繼,姚佳瑩;公眾號:財經(jīng)E法
本文由 @財經(jīng)E法 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于CC0協(xié)議。
爬蟲雖然十分方便,但是它也有一定隱患,千萬不能違反法律法規(guī)。
小編,我感覺此篇文章少一個段落,爬蟲究竟是什么,有些人第一眼是真的不知道,費腦子,下次出現(xiàn)類似的詞語的時候一定要進行解釋。
哈哈哈哈,“爬蟲寫得好,牢飯吃得早”。第一次聽說這個說法。沒想到爬蟲也是會違法的。
當數(shù)據(jù)權(quán)屬仍懸而未決時,也就意味著從未無休止爬蟲戰(zhàn)爭仍將繼續(xù)。只能說,現(xiàn)在的個人隱私越來越不隱私了。
任何事情都有雙面性,正確的爬蟲確實能節(jié)省很多時間。
為什么我咋感覺人均爬蟲大師,只有我是個廢物,這項技術(shù)真的有這么普及嗎
太恐怖了,屬實是沒有想到,但是現(xiàn)在數(shù)據(jù)這么透明,信息什么的最不值錢了
不得不說,爬蟲太智能了,快速又便捷!