馬蜂窩事件背后暴露出的數據風險
馬蜂窩利用網絡爬蟲抓取抄襲其他平臺真實評論的事件日益發酵。什么是網絡爬蟲?馬蜂窩這個事件背后暴露了什么數據風險問題?數據風險問題該如何解決?
近日,針對馬蜂窩“數據造假”的文章刷屏網絡。文章指出,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人從點評、攜程等其他平臺抄襲而來。
作者表示:在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評,1221萬條酒店點評。
其實,不僅旅游網站遭到網絡爬蟲的惡意抓取,航空、視頻等也是被惡意爬取的重災區。
今年2月,視頻彈幕網站嗶哩嗶哩(bilibili)大量用戶的視頻、昵稱、頭像及用戶評論,出現在某新成立的視頻網站上,就是非法網絡爬蟲的盜??;而航空公司的官網上的機票、訂座等信息,長期被代理公司將機票信息爬取、占座,然后在其他網站上加價銷售。
數據造假背后的“惡人”
網絡爬蟲:又被稱為網頁蜘蛛、網絡機器人,是按照一定的規則,自動地抓取網絡信息的程序或者腳本。
網絡爬蟲分為兩類:一類是搜索引擎爬蟲,一類是其他爬蟲。
前者是為搜索引擎從廣域網下載網頁,便于搜索檢索,后者則是在指定目標下載信息,用于存儲或其他用途。
網絡爬蟲不僅能夠抓取網頁商品、服務、文字、圖片等關鍵的靜態網頁信息,還能夠爬取用戶評價、價格和賬戶等動態信息等。在知識產權日益受到重視的今天,數據是互聯網平臺的重要資產。
網絡爬蟲的非法操作不僅竊取了平臺的數據資產,更消耗了平臺的服務和帶寬資源。
被網絡爬蟲竊取的信息不僅可以用于同類型平臺制作,還可能被轉售或者可能用于釣魚網站制作等其他違法行為。這不但會給平臺帶來重大損失,更可能導致平臺上的用戶敏感信息泄露,進而使用戶遭遇各類網絡和電信詐騙。
如何識別搜索引擎爬蟲和惡意爬蟲?
針對網絡爬蟲的識別一般是通過用戶HTTP請求中的UA(UserAgent)、IP地址字段以及以及瀏覽器Cookie。
首先,很多的惡意爬蟲程序頭或者UA中默認含有類似python-requests/2.18.4等固定字符串,很容易被系統辨別出來;其次,爬蟲經常使用某些固定IP,當某一個IP訪問量特別特別大、某一段時間內訪問了多次的網頁等,也可以被快速識別。
常規防御是拒絕訪問,或直接封殺IP。但是,UA可以偽造裝成搜索爬蟲或者其他瀏覽器,而IP地址可以通過頻繁變更代理IP繞過。
此外,通過模擬登錄或者手動登錄Cookie 也能繞過系統監測。所以,這三類方式均不完善。
驗證碼是比較有效的一種方式,當某一用戶訪問次數過多后,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼之后才能繼續訪問網站。而驗證碼不僅可以檢測訪問者行為,還集合設備指紋和風控等多種因素綜合判斷。
頂象數據反爬解決方案就是基于驗證碼和風控。該方案在登錄端部署頂象的智能無感驗證,直接攔截爬蟲對重點數據的爬取。同時,結合頂象設備指紋和實時風險決策系統,實現對于爬蟲的總體攔截。再基于對抗過程中的數據積累,利用智能分析平臺對數據進行分析,建立基于符合業務場景和需求的風控策略,實時優化風控效果,良好防范數據遭惡意爬取的風險。
驗證碼后面的技術
在用戶訪問方面,無感驗證通過人機交互行為進行防護。如鼠標在頁面內的滑動軌跡、鍵盤的敲擊速率、滑動驗證碼的滑動軌跡、速率、按鈕點擊等行為軌跡模型檢測來進行防護。
基于頂象機器學習模型平臺創建優化相關模型,用于驗證碼機器模擬軌跡防護。這里面包含軌跡耗時檢測、異常軌跡檢測(包括直線、勻速、聚合曲線等常規信號發生器生成的軌跡和通過異常檢測算法發現的離群行為)。
在異常檢測方面,頂象技術使用的其中一種異常檢測算法為孤立森林(Isolation Forest),Isolation Forest 中提出Isolation概念,即將異常數據從既有數據分布中孤立,用以實現異常檢測的目的,這種算法較基于正常數據點創建profile進行異常檢測的算法,如Replicator Neural Network、one-class SVM有更高的異常識別能力和準確度。
除此外,二分類器還可以根據既有的驗證碼數據進行訓練,對采集到的人機交互行為數據進行預測區分,進一步提升識別惡意行為的精確度。
此為了防止網絡爬蟲對驗證碼的防暴力破解,無感驗證通過圖片亂序切條、圖片更新定時加工、圖片變異等技術,結合關聯性檢測進行防護,通過內置規則和策略,判斷相關關聯性,如同一設備關聯性、同一IP關聯性、滑動失敗關聯性、驗證次數關聯性等,有效識別短時間內異常關聯性。
驗證碼背后的機器學習
頂象技術將深度學習技術應用于驗證碼的軌跡分析,通過LSTM等深度學習技術,對滑動驗證碼的滑動軌跡進行特征提取,然后基于LargeVis,對提取的特征進行可視化分析,如下圖所示,通過歷史數據的可視化對比分析,可以發現一些異常的軌跡數據。
LSTM是一種遞歸神經網絡,適合于處理和預測時序及行為數據。基于 LSTM 的系統可以學習翻譯語言、控制機器人、圖像分析、文檔摘要、語音識別、圖像識別等任務,由于驗證碼的軌跡是連續的行為數據,因此非常適合使用LSTM來進行特征提取。
除此之外,頂象將深度學習技術應用于點選驗證碼中,對點選驗證碼進行“風格遷移”,可大大增加驗證碼被破解的難度。
風格遷移是深度學習領域很有創意的研究成果,通過神經網絡,將一張圖片的藝術風格應用在另外一張圖片上,例如上圖中是將梵高的名作“星空”的藝術風格應用于點選驗證碼圖片上。
通過風格遷移,可以將點選圖片中的內容進行變換,例如文字變得扭曲及模糊,使得機器破解的難度增加。但是又不會完全改變圖片的內容,使用戶又可以很容易的識別圖片中的文字。
本文由 @金融科 原創發布于人人都是產品經理,未盡許可,禁止轉載。
題圖來自網絡。
- 目前還沒評論,等你發揮!