我投了份簡歷,接到了十八個騷擾電話
是誰泄露了隱私信息?可能是你的簡歷。
都說金三銀四,最近打算換工作的蘇大強(蹭熱點式化名)在各大招聘平臺掛上了自己的簡歷。誰知道剛過兩天就接到了十八個騷擾電話,其中只有兩個來自獵頭。
在接起第十八個貸款推廣騷擾電話后,蘇大強崩潰了,誰!又是誰TM泄露了我的信息,沒錢不貸款還不起還不行嗎!
你有沒有想過,數據泄露可能源于那份簡歷。
貼條巧達
先說一起新聞。不久前網上有爆料稱簡歷大數據公司北京巧達科技被查封,全員被抓,隨后有部分員工被放出。
3月24日,三言財經也實地走訪了巧達位于中關村辦公室,發現大門現已被封條封住,辦公室內空無一人。該封條由中鋼國際廣場保安部張貼,時間為2019年3月14日。
于是有人好奇,這家公司做了啥突然被封?
根據公開信息,巧達科技號稱擁有中國最大的簡歷數據庫,其主要數據來源是“喬大招”。喬大招旗下則擁有“愛伙伴”、“簡歷時光機”等在內10多款招聘相關產品。
“喬大招”可以做到通過一款工具匯總多家招聘網站賬號信息,企業客戶可以統一發布職位、收取簡歷;其次,該工具可以抓取簡歷的修改歷史,可以查看到對應簡歷被查閱次數、修改記錄等信息;不僅如此,還可以將簡歷上傳至平臺,供其他企業、獵頭使用。
愛伙伴是一款提供“員工離職預測”的工具軟件,該軟件可以檢測到員工投遞簡歷、員工簡歷更新情況以及員工簡歷被查看次數等信息。企業用戶購買愛伙伴后,即可查看其收集匯總的簡歷數據,依此判斷公司員工的離職傾向。
簡單說,這個一款給老板打小報告的軟件,哪個員工有離職的想法都可能被提前知道。
截至2015年6月30日,在喬大招的數據庫中,以人為計算,收入自然人的簡歷超過1.6億人。以版本來計算,簡歷超過18億個版本,超過25億行為軌跡。說不準你精心準備的簡歷就在其中!
這些數據都被這家公司用于牟利,甚至涉及違規收集個人信息。封條一帖,巧達涼涼。
不過,一家“巧達”倒下了,還有其他“巧達”站起來,打著智能招聘SaaS系統的簡歷公司披著偽善外衣,暗地做著吸血勾當。
智能招聘SaaS系統
想要竊取招聘網站的簡歷數據有什么招數?
1. 利用公開數據,通過爬蟲工具爬取;
2. 合法賬號內部獲取數據;
3. 利用網站平臺的漏洞進入系統獲取數據。
其中,爬蟲技術運用最為廣泛,因為不需要網站有任何漏洞,只需要模擬正常用戶訪問操作,就可以抓取。
瑞數信息CSO馬蔚彥告訴雷鋒網,一般黑產會通過腳本、自動化框架、手機等工具去訪問招聘網站平臺,通過分析招聘網站的接口,這些工具可以自動的進行搜索關鍵字輸入、翻頁,對招聘網站內容進行抓取,然后通過腳本程序,將抓取到的原始數據進行格式化處理,轉換成可閱讀的簡歷。后期爬蟲還可以同過定時機制,來進行簡歷數據的定時獲取更新。
這種爬蟲技術與爬各大網站低價機票本質是一個套路,不同點在于:機票是全公開的,誰都可以看。但部分簡歷數據需要登錄或者付費后查看的,這時候就需要爬蟲組織囤積大量賬號進行簡歷抓取。
這些賬號從何而來?于是打著智能招聘SaaS系統的簡歷公司出現了,聲稱該SaaS產品可以“幫助一個HR管理多個平臺上發布的職位和收到的簡歷”,只需要登錄一個平臺就能管理所有渠道的簡歷信息。
購買該產品后,HR手中各大招聘平臺的付費賬號都被簡歷公司所掌握。
(注:目前很多招聘網站的商業模式都包括付費下載簡歷進行收費,花幾萬元可以下載幾千份簡歷,可以查看該招聘網站的無限量個人簡歷。)
筆者詢問了某做爬蟲技術的好友,對方稱,通過爬蟲技術抓簡歷一般要解決四個問題:
1. 登陸的問題,需要購買一些賬號;
2. 破解登陸的驗證碼;
3. 購買ip代理、切換ip;
4. 控制好爬蟲的速度,因為登錄后,一般網站后臺都會存有日志記錄,抓的太快的話,會被封。
而一套賣給HR的智能招聘SaaS系統就能解決前三個問題,把非法的變成合法的,破解賬戶變成買賣服務。這操作,這腦洞,編輯嘆為觀止。
有了賬號,之后的操作就更簡單了。利用HR的賬號托管,SaaS方可以去爬取各大招聘平臺的簡歷信息,并做到實時翻新。
馬蔚彥表示這種實時可以分為實時和準實時。
實時的:有HR來招聘網站上進行簡歷檢索的時候,除了會顯示自己本地的數據,還會將搜索請求轉發給其他招聘網站的搜索接口進行數據獲取,并且可以將爬來的數據進行智能比對,更新簡歷。
準實時:每個簡歷在招聘簡歷上都一個唯一的ID,爬蟲可以定時的,以ID為參數進行簡歷數據獲取。也就是只要你更改簡歷,對方就會收到數據,同步更改。
這時候,你的簡歷還只是你的嗎?
掛鉤黑產
潘多拉魔盒未打開時一片平靜,放在黑盒中的簡歷數據也是一樣。
你的簡歷上都有什么信息?生日、電話、地址、身份證信息、工作經歷……這些詳細得不能再詳細得數據被分銷出去,可能賣給大數據分析公司,賣給獵頭,賣給貸款公司、賣給詐騙組織,這些都是黑產中的某一環節。
而信息裸奔的你可能接到N個騷擾電話卻還不知道問題出自簡歷。
即使沒有這些打著智能招聘SaaS名義的公司,你的簡歷就安全嗎?
不一定,邦盛科技產品總監焦林俊向雷鋒網透露,某國內top級別的招聘平臺曾表示,有些大商戶(付費大企業)利用在招聘平臺的賬號密碼,登錄后臺通過爬蟲刷新數據,爬取簡歷。
之后將爬取下來的簡歷放進自己的數據庫,在合適時機將這些簡歷數據出售給需要的機構,相當于二道販子。
至于是哪些公司,各位可以自由猜測。
反爬頗難
招聘公司面對各種爬蟲技術是否有反爬技術呢?
“目前也有多種反爬蟲的技術,如驗證碼,IP黑名單,頻率限制,IP限制,單一賬號可閱讀量、需要購買,通過User-Agent控制等手段都能進行一定限制。但越來越多的高級爬蟲,利用大量代理IP,并且與真實瀏覽器訪問的環境相似度很高,傳統的反爬技術在面對高級爬蟲時已經基本無能為力。”馬蔚彥說道。
焦林俊也表示,招聘網站確有采取一些反爬蟲技術,比如前端進行加密,后端加入了大數據分析,機器學習等技術。但對大商戶爬取數據的行為招聘網站也有些頭疼,迫于營收壓力,他們不會采取直接攔截的措施。而且先通過后臺數據分析誰爬取了數據,再針對不同對象采取相應的反爬措施。
目前來說,爬蟲技術仍處于灰色地帶,對于利用爬蟲技術獲取公開數據這一行為的正誤,在認知上也各有不同。目前更多的還是在道德層面,而非法律,比如:遵循robots,盡量放慢爬取速度,從而減少對提供數據查詢網站的壓力,不要造成拒絕服務,不要公開爬蟲程序源碼,不要分享爬蟲數據等等。
(注:robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。)
但這些在馬蔚彥看來,缺乏法律保障的約束力非常弱。
隨著涉及個人、企業的數據資源越來越多,提供這些數據的平臺、系統也越來越多,非常需要通過建立正確的爬蟲觀念、提升反爬技術手段、建立合理的爬蟲相關法律規定等都多方面的綜合努力,才能更好地提供對于惡意爬蟲的防御,保護企業和客戶數據資源。
對于終端用戶來說,除了接到手軟的騷擾電話,似乎是完全無感知的。
焦林俊表示,用戶應該避免在不安全的招聘網站發布簡歷,遇到打電話稱自己是獵頭需要提供本人完整信息的說法也不要輕信。而對于招聘網站,應該從業務方面進行規范,搭建自己反爬蟲平臺,利用前沿的反爬蟲技術,如大數據分析,根據訪問行為提取特征,通過設備指紋,人機識別,環境檢測等技術識別出人還是機器。這樣即可以去掉驗證碼等降低用戶體驗的操作,也避免了用戶有價值的信息被爬取。
做反爬不能誤傷正常用戶,這是反爬蟲技術的關鍵點。爬蟲與反爬蟲永遠在對抗,沒有勝負。
作者:又田
參考來源:三言財經
原文鏈接:https://mp.weixin.qq.com/s/9AOghHU–QLX8Z9LUnGXbQ
本文來源于人人都是產品經理合作媒體 @雷鋒網,作者@又田
題圖來自Unsplash,基于CC0協議。
- 目前還沒評論,等你發揮!