滴滴下架,談?wù)剶?shù)據(jù)黑產(chǎn)
編輯導(dǎo)語:滴滴的下架,帶出了數(shù)據(jù)安全的話題,隱私保護成為了人們議論的一大焦點。作者對大數(shù)據(jù)及其用戶隱私方面的事情進行了分析,提出互聯(lián)網(wǎng)時代數(shù)據(jù)隱私保護的重要性,我們一起來看下吧。
最近,滴滴他們?nèi)叶急幌录芰?。除了陽奉陰違趕去納斯達克投胎以外,數(shù)據(jù)安全、隱私保護這些多數(shù)人既關(guān)心又不了解的話題,也被推上了風口浪尖。正好前些天,金星老師要搞個新節(jié)目,導(dǎo)演組找到我,居然也想聊聊大數(shù)據(jù)、用戶隱私這方面的事兒。當然,雞一嘴鴨一嘴地控訴大數(shù)據(jù)罄竹難書的罪惡,我興趣不大。
全民關(guān)注數(shù)據(jù)和隱私,當然是好事,只是這里技術(shù)和行業(yè)知識太多,不容易透徹理解。因此,市面上驚悚的傳言頻出,似乎搞大數(shù)據(jù)的都是三頭六臂的妖精。作為一名戰(zhàn)斗在數(shù)據(jù)一線的仁波切,我感到有必要挺身而出,以我在宗教界相聲說的最好的工程師身份,給大家把這方面的事兒講明白。
弄明白這玩意有啥用?普通人,可以搞清泄露什么隱私會讓自己破財招災(zāi),免得不明就里地疑神疑鬼,心臟病和痔瘡都犯了。
對立法專家來說,可以稍微理清法規(guī)的邊界和作用,別總想著利用手里的圖章,靠加緊箍咒漁利;對想掙錢的來說,那這里面日進斗金的機會多了去了。當然,在學(xué)習本文之外,您還得同時精研刑法,先找好退身步。
首先,大家得明白一個道理:如今的世界,早已是數(shù)字世界第一性的了。利用用戶數(shù)據(jù)提供個性化服務(wù),是絕對無法逆轉(zhuǎn)的大趨勢。如果把數(shù)據(jù)的使用都停掉,其后果比全國停用電力還要嚴重。
既然數(shù)據(jù)是提供個性化服務(wù)的,那么什么樣的數(shù)據(jù)應(yīng)用,是靠譜和無風險的呢?其實,這里有個明確的標準:你的數(shù)據(jù),只能在同一個場景下服務(wù)于你本人。
打個比方,快遞可以拿到你的地址電話,但這是給你服務(wù)用的,只要不把你的數(shù)據(jù)給別人,或者服務(wù)別人,那就沒啥問題。
互聯(lián)網(wǎng)也是一樣,管他是騰訊、淘寶還是抖音,根據(jù)你的行為影響你看到的內(nèi)容,雖然乍一看菊花一緊,但是其實用不著太緊張,它對你的隱私并沒有實質(zhì)性的侵害。這樣的用途,今后會長期存在,沒必要因噎廢食。
這里隱藏的問題,在于把數(shù)據(jù)“用于服務(wù)別人”這件事該怎么界定。說起來,這在互聯(lián)網(wǎng)上并不新鮮,您想想現(xiàn)在短視頻的推薦系統(tǒng)吧,其原理基本都是去統(tǒng)計“看過這個視頻的人還會看什么”,這不就是把其他人的數(shù)據(jù)聚合起來服務(wù)你嘛!沒錯,這確實是。只不過,這是把其他人統(tǒng)計數(shù)據(jù)用于服務(wù)你。
那么,在統(tǒng)計過程中,究竟有沒有漏洞讓你可以窺見其他某個人的具體隱私呢?如果有的話,又如何解決呢?沿著這個方向,衍生出了數(shù)據(jù)安全方面一個重要的技術(shù)方向——隱私計算。你可能聽過的一些詞匯,什么差分隱私啊、聯(lián)邦學(xué)習啊,都是這個方向里的熱點,這些話題我們改天專門再談。
說完了什么算正常,再回到正題:如今的互聯(lián)網(wǎng),到底有沒有數(shù)據(jù)黑產(chǎn)呢?那肯定有??!不過這些黑產(chǎn),可能跟多數(shù)人理解的不太一樣。
跟數(shù)據(jù)相關(guān)的黑產(chǎn)門道,簡直是五花八門,一抬腳踩死一片。歸納總結(jié)一下,數(shù)據(jù)黑產(chǎn)可以分成兩個大類:一是直接從你身上騙錢;二是借你的身份去干點壞事。
從你身上騙錢,又有兩種不同的思路,先說第一種。比方說,有人拿了你的電話號碼和家庭住址,怎么掙錢呢?
很簡單,往你家里發(fā)個貨到付款的快遞,別收太貴了,比方說50塊,家里人不知買的啥,糊里糊涂就交錢收了。包裹里的小物件一塊錢,快遞費三塊錢,那還掙你40多呢!您說家里人也不一定收?就算只有百分之二十的人收,人家都掙大了!
可以看出,這是一種“廣撒網(wǎng)”的“輕詐騙”模式,可以很容易把大量用戶信息變現(xiàn)。這類模式需要的信息,是那些“可以找到你”的信息,比方說住址、電話、email之類。
這類信息有個統(tǒng)一的名字,大概您聽說過,叫“個人可定位信息(PersonalIdentifiable Information, PII)”。
該怎么防范呢?這種廣撒網(wǎng)的模式需要用到的PII信息,在如今各國的用戶隱私保護法規(guī)下,幾乎都已經(jīng)被禁止傳播和使用了。
在我國,販賣五十條以上的手機號這類信息,就有可能有刑事責任,所以這種風險在總體上是可控的。就算是信息真被泄露了,人家是廣撒網(wǎng)嘛,一般也不會把你一把薅死,倒也犯不著憂心忡忡。當然,自己的PII信息,還是要看住了,別輕易給別人。
而更生猛的模式,“廣撒網(wǎng)”就不夠了,還得“深挖洞”。這就要用到用戶身份以外的“行為數(shù)據(jù)”了。簡單來說,就是深入分析你平常的網(wǎng)絡(luò)行為,找到你的軟肋之后,一刀下去,砍你個全身不遂。
這個路數(shù)最興旺的領(lǐng)域,是放貸。放貸的愛找什么人呢?就是那些頻繁借錢的人,這種人拆了東墻補西墻,聽說哪兒能借出錢來,就跟蒼蠅見了血一樣。
于是,想辦法通過各種來源的數(shù)據(jù),找出那些頻繁借貸的人,誘使他上自己這兒來借,再設(shè)下個套路貸的陷阱,就能掙一把大的。而這些人常用的數(shù)據(jù),就是短信、搜索詞什么的。
至于來路,沒幾個正規(guī)的。當年那一撥金融科技公司紛紛被抓,不少都跟這些數(shù)據(jù)黑產(chǎn)有關(guān)。
“深挖洞”的模式,用戶就有可能蒙受重大損失了。說到底,這還是違背了上面說的“在同一個場景下服務(wù)于你本人”這條原則:一個人在A家借貸的數(shù)據(jù),按說是不應(yīng)該讓B家知道的。
但是,這樣一來麻煩就來了。本質(zhì)上看,所有的精準廣告模式,都存在把A場景/客戶的數(shù)據(jù)用于B場景/客戶的問題。如果B場景/客戶的金主有惡意,那么這里的風險不容小覷。
因此,我支持對于廣告業(yè)務(wù)中使用的數(shù)據(jù),要有明確的規(guī)范和邊界。您想想,搜空調(diào)維修把騙子引到家里來這種事,還少么?
在現(xiàn)代的大數(shù)據(jù)技術(shù)下,這種“深挖洞”的能力超乎你的想象:舉個例子,通過手機陀螺儀數(shù)據(jù),能分析出用戶的行進速度,如果速度比較快,再看看電量一直是滿的,那么他十有八九是在開車,手機插著充電。
如果一天有八九個鐘頭都是這狀態(tài),那大概就是個職業(yè)出租司機了。如果這司機在北京,消費上又不像一般司機那么節(jié)儉,那很可能是城鄉(xiāng)結(jié)合部的拆遷戶,手里有了點錢,沒啥事干只好開出租。
這些人一夜暴富,耍錢的比例不低,耍著耍著家里管得緊了,可手癮還在,就只好借錢了。抓住他們玩套路貸,那可是一抓一個準!
而像滴滴這種掌握大量用戶數(shù)據(jù)的公司,任何一點疏忽或惡意,都可能讓用戶蒙受重大損失,至于上市過程中,把什么數(shù)據(jù)交給SEC,SEC又能從中挖掘出什么,雖然不得而知,也是細思極恐了。
咱們再來說說第二類,借你的身份去干壞事。這類方法,往往是在互聯(lián)網(wǎng)的技術(shù)體系內(nèi),用一些非PII信息,從客戶而不是你身上掙錢。
最典型的例子,就是在黑產(chǎn)圈長盛不衰的的cookie stuffing。這事比較復(fù)雜,簡單說是這樣的:舉個例子,假設(shè)淘寶為了搞到更多流量,就跟一些渠道說,你們?nèi)ソo我送流量,帶來的用戶下單,我給你提成千分之二!
但是怎么才算這個渠道帶來的下單呢?就是用戶通過這個渠道的廣告位點擊到淘寶的時候,帶了個用戶的ID,后面這個ID再下單時,就能對上了。
這樣一來,雞賊的渠道就想出個辦法:盡可能多收集用戶ID,然后給每個ID偽造一個到淘寶的點擊事件,這些ID里如果有人下單,那不就算我的了!反正我一點成本也沒有,撞上多少算多少唄!
大家注意,在這樣的黑產(chǎn)中,除了用戶的ID,人家什么也沒用。而這里用的ID,也并不是電話、email這些 PII信息,而是cookie、IDFA等這些根本無法主動觸達用戶的身份號。
就這樣,人家拿你的身份證去掙了點小錢,而你沒有直接損失,就像是做了一次免費的微型無痛人流。
因為只是借用了你的身份ID,一般不會讓你受到直接損失,這類方法往往不為大家所關(guān)注。其實,前文那種“廣撒網(wǎng)”的黑產(chǎn)也好,這里借身份的黑產(chǎn)也好,雖然單個用戶損失有限,但也是赤裸裸地侵害用戶權(quán)益,這一點沒什么可說的。
更重要的是,很多黑產(chǎn)從業(yè)者,往往是從輕量級的業(yè)務(wù)入手,一步步升級到那些“深挖洞”的模式,更放肆地訛詐用戶。因此,這些“入門黑產(chǎn)”,也會像大麻這種“入門毒品”一樣,把掙了這份錢的人,引向更加邪惡的黑產(chǎn)深淵。
說到這兒,咱們拐個彎,提個坊間盛傳的傳聞:APP監(jiān)聽你線下的聊天內(nèi)容,然后給你推廣告,到底是不是空穴來風呢?這事兒比較復(fù)雜,理論上講有可能的,但是難度不小。簡單說可以這么總結(jié):硬件可以搞,軟件搞不了。
要從聲音中提取有商業(yè)價值的信息,那一定得用到語音識別技術(shù)。雖然這現(xiàn)在已經(jīng)比較成熟,可是如果有個程序喝不喝老端著,一直在后臺等著聽墻根,那會有個嚴重后果:檢測語音的程序,很快就把手機耗沒電了。這不就露餡了么?
那還有什么其它呢?有,做一個專用芯片,用于檢測語音信號,有語音信號了,再送到后臺識別。實際上,智能音箱就是這么干的,所以你喊上一句就能把他喚醒。
智能音箱能干,手機廠商當然也能干,所以說,“硬件可以搞”。如果手機把這項能力開放給APP,那么APP也就能干了。只不過,我不認為手機廠商有什么動力這么做,實踐中好像APP也拿不到這能力,所以說,“軟件搞不了”。
今天扯了不少了,最后再補充兩點:
- 數(shù)據(jù)安全問題并非互聯(lián)網(wǎng)的新問題,原來線下商業(yè)中也不少,只是因為互聯(lián)網(wǎng)讓數(shù)據(jù)變現(xiàn)成了規(guī)?;漠a(chǎn)業(yè),這事兒才讓大家格外重視;
- 很多問題都是復(fù)雜的技術(shù)問題,僅僅靠法規(guī)的約束作用有限。我相信,解鈴還須系鈴人,只有在互聯(lián)網(wǎng)場景下發(fā)展起來的隱私保護技術(shù),才能徹底解決問題。
#特邀作者#
北冥乘海生,公眾號“計算廣告”(ID:Comp_Ad)
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
實話 這篇文章寫的真不咋地。
確實夸張