隱私泄露下的數據暗網,分類標簽中的愛恨一生
談到隱私泄露這個話題,我們總會想起一個畫面——前腳,我們和朋友聊了某個商品;后腳,某平臺就推了相關產品出來。這時候的你會不會覺得平臺方在“監聽”你,竊取你的數據?筆者認為事實并非如此,這一切的背后更像是分類標簽造成的。
01
自打人類進化中出現了商業的那一刻起,營銷,就成為了人類鉆研的核心。交易的本質是價值交換,但世界上不存在永遠對等的價值,所以交換中存在套利空間,這些套利空間成就了商業的價值。
逐利是人的本性,這是刻在基因里的。
如何把一件產品附加上額外的價值,賣給自己的同類,換回更多的金錢,成了最打動人心的事情,比世界和平還要打動人。
畢竟和平是所有人的,而金錢是少數人的。
越少越珍貴。
縱觀人類歷史的每一個時代,最先進的技術往往都是最先應用于軍事和貿易,而軍事,很多時候也都是為貿易所服務的。
從古至今皆是如此,大數據年代也不例外。
在這個人人標簽化的數字年代,廣告業前所未有的深入到了我們生活的方方面面,影響了我們的各種決策。
你以為你做出的購買決策是基于自身的意愿,但現實并不一定如此。
作為一個整日與數據標簽打交道的風控,反商業作弊也是我的日常工作,如果不懂商業廣告的底層邏輯,那么是做不好風控的。
這篇文章將給大家科普大數據廣告的精準推送原理,我想為大家展示一下數據在合理的策略里可以完成多么恐怖的事情,這是真正的改變世界,或者說是掌控世界。
這里面有謠言,也有真相,更多的是真相與謠言參半。甚至有時候真相比謠言更加魔幻。
02
讓人掏錢,不是一件簡單的事情,哪怕是有技術的支持。數據廣告推送,本身是一個極為復雜的工程,這里面涉及數據采集、數據清洗、口徑對齊、數據關聯、模型訓練、策略迭代、場景驗證、流量分配、成本控制、渠道管理等一系列工作。
每家合格的數據驅動的營銷公司,都會有一只數百到上千人的團隊專門做相關的工作,數百個聰明的腦袋996只為做一件事——讓你在不知不覺中心甘情愿的掏錢。
靠一篇文章寫全這些,既不太現實,也沒必要,所以我決定圍繞一個關于大數據廣告非常經典的謠言,從辟謠開始,來一步步拆解數據廣告推送的基礎知識以及對我們生活的影響。
很多人在網上說自己的的手機被人監聽了,原因是自己剛和別人討論了某個話題,沒過多久,手機上就出現了類似信息的廣告。
- 例如自己口述了想喝奶茶,打開外賣軟件就出現了奶茶推送。
- 自己說想去歐洲旅游,打開網頁就出現了旅游廣告。
- 自己談到了某種商品,打開購物APP就出現了類似商品的推送。
所以很多人覺得自己在被自己手上的APP所監聽,然后這些監聽依據相關的關鍵詞拆解講話的意思,然后就推送給自己各種各樣的廣告,精準不精準不說,著實是嚇人一跳。
有段時間,整個互聯網都在盛傳某某APP拿錄音權限就是為了實時監控用戶,甚至某些APP還在偷偷錄像用戶云云。
我得承認大家的想象力是很豐富的,在不懂網絡廣告推送機制的前提下,提出這些猜想某種程度上也是合理的,但這都是謠言。
互聯網公司不會用這種方式來做所謂的精準推送。
不是他們良心發現,而是這么做沒有性價比。
商人逐利。
03
為什么不用錄音做推送?從用戶角度思考方案,可能只考慮這件事是否能實現,監聽錄音從技術上可以實現;
但是作為商業公司評估方案,除了需要考慮能不能實現這一點之外,還要綜合考慮成本,效率以及風險,馬虎不得。
商場如戰場。利用錄音做信息收集,然后做廣告推送,在當下,是一件成本極高,效率極低,風險極高的事情。
不僅要投入大量成本,連毛都賺不回來,還要面臨侵犯用戶隱私的指控,腦子沒冒煙的公司都不會做這件事,即使是冒煙的公司,做到一半就會發現劃不來,然后不做了。
錄音牽涉的主要問題如下:
1. 錄音功能會讓APP消耗海量手機資源
當一個APP在后臺持續錄音的時候,不僅是APP本身運轉會變得遲緩,更多的是會造成手機本身的耗電量和發熱大幅增加,一來二去,用戶直接就不使用了,因為一用你的APP手機就不好,市場上可選擇替代品又太多。
當年滴滴和快的大戰的時候,滴滴在關鍵時刻勝出靠的就是騰訊支持的1000臺服務器以及數百名頂尖工程師,比快的早半個月實現了用戶體驗的質的飛躍,后面的故事大家都知道了。
2. 錄音文件本身是占用手機存儲空間的,并且占用極大
大家可以自己錄一段30分鐘的錄音看看,這個音頻文件會有多大,一個APP如果持續錄音,在用戶重度使用的情況下,可能幾天就把手機徹底塞滿了。
這會造成非常荒謬的后果。
3. 錄音錄下來之后,無法及時處理這些錄音數據
如果把錄音處理模型放在本地APP里,那么一個是APP安裝包臃腫,一個是會被競爭對手反編譯,商業機密直接透明。
把核心能力包在APP本地,是很愚蠢的事情,吃雞為什么外掛屢禁不止,就是因為運算整體在本地文件,無法抵擋本地篡改,所以本地存儲方案不靠譜;如果走實時上傳,那么傳輸過程中需要流量,這造成用戶的流量損耗極為恐怖,并且很容易就被識別出來上傳用戶信息;這些數據屬于無用數據。
4. 錄音分析來的數據價值低,且不準確
如果手機APP監聽錄音,那么首先得保障他監聽到的是你本人講的話,因為推薦是要對你本人進行操作的,但是在現實生活中,錄音沒法保證只錄某個人的聲音,要錄就是一起錄音,這就導致錄下來的聲音也不知道是誰的。
想想看,我在你身邊走過,沖著隔壁的人大喊一聲“杜蕾斯”。
然后你打開手機給你推薦杜蕾斯,這種沙雕推薦是不是非常魔幻?
這就是無差別錄音帶來的問題。
5. 語義分析在目前依然面臨無法解決的語言本身的問題
人類的語言是一門藝術,漢語更是高階藝術,而機器尚未破解這一藝術。
如果大家試過錄音轉文字,或者語音輸入法,就會發現,機器沒有辦法完整的識別有效的語言場景。
我們來做一個語義識別題:
領導:“你這是什么意思?”
小明:“沒什么意思,意思意思。”
領導:“你這就不夠意思了?!?/p>
小明:“小意思,小意思?!?/p>
領導:“你這人真有意思?!?/p>
小明:“其實也沒有別的意思?!?/p>
領導:“那我就不好意思了?!?/p>
小明:“是我不好意思。”
這里面的每一個意思,都是什么意思?
機器根本做不到識別這些內容。甚至很多時候你只要講方言或者講話一快,機器就根本不知道你在說什么了。
精準推送的前提是數據可靠且精準,錄音絕不在這種數據中。
6. 錄音帶來的風險,要遠遠超過收益
錄音這件事情,本身是非常敏感的,要是哪個APP能被明確抓出來在偷偷錄音(目前所有的質疑都只是質疑,沒有明確的數據和代碼證據),第一個搞他們的不是網民,而是工信部。
這種侵犯隱私的行為,正是抓緊去教育的好時機。而公司只為求財,不想求進監獄里。
看到這里,我想很多人對于錄音這種謠言已經足夠了解了,但是還是有疑惑自己身上發生的神奇的事情,沒關系,我們繼續講下去,看看真正的數據推送是怎么做的。
我們如何通過巧妙的技術把我們自己困在廣告里。
04
數據推送是如何實現的?
一套最最基礎解法是——X+N=Y,這是最簡單的公式。
X是指的用戶特征變量(用戶畫像),N是指變量應用(算法,策略),Y是指推送效果(用戶是否購買)。
所有收集來的用戶數據,經過標準化ETL(數據處理),再經過特征工程,形成有效的X。
有了X之后,N就是如何使用X,讓最終結果更接近于Y。
這里可以利用算法,也可以使用策略包,目前的主流是使用策略包,因為算法的效果隨機性比較大。
所謂的精準推送,本質上其實就是一個用X和N尋找接近Y的過程,所謂的訓練模型,只不過是在已知X和Y的情況下,找尋可以讓X更接近Y的算法,找出更好用的N。
單純這么說比較抽象,我舉一個例子大家就明白了。
半佛是一個18歲的美少年,曾經在淘寶上買了很多XX品牌的跑鞋,并且經常搜索大體重跑鞋。
從廣告推送的角度,針對美少年半佛的推送會這么做。
首先拆解半佛身上的標簽,做成X。
男性,18歲,XX省人,學歷XX,跑鞋,大體重,常用購物平臺,手機型號,APP來源,手機入網時長,話費消費記錄等等,這些標簽都是X,來自于各種各樣的數據源。
然后通過過去的購買記錄,找到半佛曾經購買過的商品,就是各類跑鞋,做成Y。
一個簡單的用戶畫像就出來了:年輕男性,熱愛跑步,胖,樂意花錢,有品牌傾向性,喜歡在淘寶購物,多數購物來自于主動搜索。
那么這時候就可以通過一定的策略,給半佛推薦大量的符合他歷史購買習慣的跑鞋(從品牌到型號到價格),如果成交了,就代表算法有效,進一步強化推送;
如果沒有成交,就弱化部分特征,推送新一批跑鞋,只要成交,就依據成交結果修正算法。
最終半佛只是無聊刷淘寶,但是最終買了1000雙跑鞋回家,然后又掛到了閑魚上,創造了好幾次GMV。
當然實際應用中會比這個公式要復雜很多,各種變量間的衍生變量,不同用戶間的關系網絡變量,同一個用戶在不同場景中要匹配不同的Y,X作為Y,Y作為X,用戶消費心理勾畫,產品要素設計等等等等,廣告推送可以說是互聯網最復雜的應用,可能都沒有之一。
因為人的購買欲是不穩定的。
上面舉的例子僅僅是復雜度為1的情況,實際在應用中,數據和公式的復雜度基本是10086起。
考慮到本文是科普性質,所以我只拿最基本的東西來講,大家了解這個數據推送的邏輯就可以了,算法本身不是重點。
真正的重點在于精準數據的獲取,這才是對我們生活影響最大的。
數據時代的我們,一切都可以量化。
05
很多人所謂的自己偶爾說了什么,然后就收到了相關的廣告,所以懷疑自己被錄音。我理解這種想法,但我要說實現這樣的效果,根本不需要錄音這么麻煩,有的是更精準的方法來獲取你的X。
1. 最基礎的就是你的主動搜索記錄
包括你在搜索引擎上的搜索,你在購物網站的搜索,你在各種APP(不一定要是購物)中的搜索,這些你主動搜索的信息,都是高權重的X。
如果是網頁端的搜索,那么瀏覽器和搜索引擎都會留存你的cookie,即使你有定期清除瀏覽記錄的習慣或者知道每次上完網清cookie也沒用,現在云計算的發展已經可以做到實時上傳,你清除也沒用。
2. 除開搜索記錄和購物記錄外,最精準的數據之一就是手機App List、注冊APP列表
就是你的手機曾經安裝過哪些APP,當前手機安裝了什么什么APP,以及每一個APP的打開率,使用時長等等。
這個通過用戶授權直接讀取APP列表以及通過短信驗證碼反推安裝注冊可以實現,即使是號稱IOS,也可以通過APP跳轉撞庫的方式來撞出至少48個APP。
每一個APP都是代表了一大串的X,畢竟每個APP都有自己的屬性和目標用戶,這些特征都是很顯著的。
- 你安裝了拼多多,可能代表你是一個價格敏感型用戶,可以給你推送便宜貨;
- 你安裝了Bilibili,可能代表你是一個喜歡二次元的用戶,可以給你推薦動漫周邊;
- 你每天大量時間沉迷在抖音,可能代表你是一個熱衷于Kill Time的人,當然頭條還會用你在抖音中的瀏覽記錄來更精細化的推薦各種二類電商產品。
你用什么APP,某種程度上在機器眼中你就是什么人。
3. LBS地理位置是一個非常有用,但是很多人都會忽略的內容
很多所謂的談到奶茶后,打開外賣APP會彈出奶茶店鋪廣告的案例,其實都是因為使用了LBS推送。
大家都知道APP會實時獲取用戶的地理位置,生成與之相關的X,而外賣店鋪,本身也有自己的業務輻射范圍。
當你走入到這個外賣店鋪的輻射圈子的地理位置時,就給你推送相關的信息,讓你不得不看。
某著名網紅插,就經常喜歡對自己門店2公里內的外賣APP用戶進行無差別推送,別管你喝不喝,來了就先看個廣告吧。
獲取LBS的途徑有很多,很多時候通過WIFI的固定連接點,也可以識別你是不是在那幢樓辦公或者生活,然后圍繞這一變量給你進行推送。
你在哪里,你就是誰。
4. 聊天記錄讀取、短信讀取太尋常了,我要說的是,輸入法
只要你打字,你的輸入法是知道你鍵入了什么內容的,這部分內容,都會被留存下來,然后作為你特征變量的一部分,這可比錄音要好多了,因為百分百是你本人打的字,而且文字表達的含義也更加清晰。
某些輸入法,就在做著這樣的事情。
輸入法既然可以監控你的錄入,當然也可以直接讀取你的剪貼板,看到你曾經讀取過什么。甚至技術厲害一點的,可以直接監控你的鍵盤軌跡,連你曾經打出來但是又刪除掉的內容都拿到。
哦對了,關于錄音,有一點是真的,就是當你用輸入法的語音錄入功能的時候,他們確實是知道你的錄音的,只不過不是讀聲音,而是通過錄音轉錄文字后的關鍵詞,是讀文字。
輸入法對于用戶隱私的監控與泄露,是非常嚴重的,而且大多數人都無從感知。
你忘記的,輸入法都記得呢。
5. 手機本身就是一個最大的隱私收集器,在系統廠商和硬件廠商眼中,大家其實都是裸奔的。
再講一個恐怖故事,這些從各種APP,各類輸入法,各種手機中收集來的用戶數據,都是可以交易的,各家公司都在利用這些數據。
隨便舉一個例子。
用戶在今日頭條APP中用百度輸入法輸入【尿不濕】,百度和今日頭條都知道用戶在今日頭條輸入了這個【尿不濕】,他們有了這個數據,這個數據并且是直接關聯用戶手機號的,就是說,大家知道是誰,在什么時間,在哪個APP里,輸入了什么。
而這條精準的用戶信息,是可以賣給淘寶或者京東的,淘寶獲取了這個信息后,就可以對這個手機號關聯的用戶去進行相關的推送。
這個市場的體量和交易額遠遠超出所有人的想象,但是知道的人卻寥寥無幾。
06
如果要窮舉各種APP各種手機收集和利用用戶隱私的案例,可能講幾天幾夜也講不完。我來給大家講一個基于數據采集的用戶畫像案例吧,看看我們的一生是如何被數據拆解的。
下面的文字部分為正常生活描述,括號內為獲取這些數據的途徑。
- 小明,在廣告公司上班(通過短信讀取公積金信息,或者支付寶綁定公積金)。
- 28歲,男性(身份證號拆解)。
- 本科學歷(學信網接口通過身份證號調用),外地人(身份證號前6位對比工作所在地)。
- 租房(租房APP或者代繳水電費賬戶名字與本人不同)。
- 貸款買了一輛小車(貸款APP數據,支付寶綁定行駛證,每月短信還款提醒)。
- 平時的消費愛好是買書和拼多多(支付類APP付款記錄),以及打手游(游戲類APP以及賬號體系)。
- 經常去XX網吧通宵(外賣收貨地址,網吧管理軟件用戶體系)。
- 住在XX小區(快遞收貨地址,手機LBS活躍圈,WIFI連接熱點)。
- 偶爾也去旅游(車票酒店購買記錄,異地網紅店消費記錄)。
- 甚至喜歡看點小電影(瀏覽器記錄,購買付費記錄,轉發記錄)。
- 朋友很多(好友數,日常活躍好友數,通話記錄與通訊錄的交集),朋友們的消費水平也一般般。
- 收入一般般(短信讀取銀行到賬短信,手機話費余額消費賬單)。
- 有一個女朋友小紅(聊天記錄,通訊錄,通話詳單),已經同居(購買大量女性生活用品)。
- 女朋友公司在XXX(基于小明除家里以外的收貨地址,關聯一些女性物品交易記錄)。
- 快要結婚了(網上搜索大量與結婚有關的信息,下載了婚禮類APP)。
- 最近可能要當父親了(查看嬰兒用品,網上搜索很多育兒經)。
- 最近手頭有點緊(下載了很多借款APP,讀取短信可以知道有些下款了,外部可以采購到他的多頭負債情況)。
- 等等等等等等等(10086個等等)。
如果你是廣告商,你拿到了這些數據,你可以非常精準的在小明人生的每一個階段,都恰恰好推送一些恰恰好的廣告,很多人可能光看描述就已經在構思營銷方案了。
而且,這還只是小明一個人的數據,如果再加上小紅的數據、小明朋友的數據、小明父母的數據,最終就會成為一張關系網。
- 例如當小紅在搜索孕婦裝的時候,其實就可以給小明推薦奶粉和嬰幼兒保險了。
- 例如小明在搜索各種片子的時候,其實就可以給小紅推薦一些情趣用品了。
這種關聯多如漫天繁星。星空下是我們平凡的人生。如戲一般的人生,劇本不在我們手中。我們只是一顆棋子。
07
斯諾登的棱鏡事件大家都還記得吧,美國政府在全世界范圍搞監聽。但要我說,棱鏡那個東西,在大數據多維交叉驗證面前,只是上個世紀的玩具。
通過數據挖掘和收集,我知道你的愛好,知道你的活動范圍,知道你的詳細信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。
我比你還要懂你。
為什么我國政府近幾年特別重視個人隱私,對于各種濫用隱私行為都是嚴厲的打擊,每年都有大量數據從業者被送進去?
因為當企業知道用戶的一切的時候,某種程度上,就可以通過推送,來影響用戶的一切。這個影響可以是精準推送賺錢,也可以是做的更多。
還記得美國大選的時候,FaceBook直接倒賣用戶數據來監控輿情,甚至通過精準推送來影響大選的結果?
這是一種超越國界的能力。不僅僅是改變世界,甚至是掌控世界。
而回到我們自己。我們的一切,在公司眼中,只是一個個數據標簽,是達到他們目的的必要生產資料而已。他們做的就是把我們做成數據,然后向我們灌輸數據,從我們身上得到他們想要的東西。
我們一生的歡笑與淚水,開心與難過,認真的思考,謹慎的決策,最終都不過是一組數據,都是可以被拿來利用的。他們甚至都不屑于支配我們,你會去沖著一堆數據使勁兒嗎?他們只需要調整參數就可以達到目的。
現在巨頭們已經完成了數據的合圍,然后通過交易來壟斷這些數據。我們的一切都透明了,再技術飛速進步的年代,錢和權力都無法阻止這一切發生,除了死亡外,人類在大數據面前也是平等的。
這一切都不是秘密,完全是公開的事情,甚至那些賣數據的公司都恨不得自己去打廣告找到更多的買家來買,因為賣的人太多了,市場競爭過于激烈,數據量過于飽和。
這魔幻又現實。
數據像大白菜一樣擺在那里交易,交易的是我們每個人的人生。我們的一生的故事都在里面,愛也在,恨也在。大數據的發展確實給生活增加了便利,這無可否認。但如何掌握數據采集和數據應用的度?這是一個很大的問題。
更大的問題在于,這種被設計好的生活,真的是我們想要的嗎?
我還沒有答案,你呢?
作者:半佛仙人,微信公眾號:半佛仙人(ID:banfoSB),這是一個神奇的男人,你完全猜不出他會寫出什么,他自己也不知道。
來源:https://mp.weixin.qq.com/s/bJQ_MvHQINZYovkZfsbqLA
本文由@半佛仙人 授權發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash, 基于CC0協議
看的人脊背發涼啊…..
昨天聽了林子祥的《數字人生》,今天就看到了你這篇文章。。。
描述得很nice呀,簡單易懂有意思