大數據,算不準老天爺
#本文為人人都是產品經理《原創激勵計劃》出品。
進入夏季后,天氣開始變得“喜怒無?!?,一會狂風暴雨一會晴空萬里。出門前看看手里的天氣軟件,發現同樣的手機型號,同樣的天氣軟件,同樣的時間地點,居然有不同的天氣預測結果。這是為什么呢?本文作者對此進行了分析,一起來看看吧。
一、同樣的屋檐,不同的天氣
夏天到了,陰雨多發。
上班前閑著沒事,一群無聊的人看著窗外天色,用幾點下雨打賭,來決定午飯由誰買單。
一邊下注,一邊已經有人拿起手機,開始查攻略。
其實,這也算不上作弊。誰都知道,天氣預報軟件,報不準天氣,有時候甚至還沒猜的準。
而且,同事們拿著不同的手機,用著不一樣的天氣預報軟件。念出的天氣預測結果,果然也天差地別。
但當同事小艾,念出她手機的預測結果時,有些出乎我的意料——小艾和我用著同一款手機,天氣軟件都是系統自帶的天氣軟件,但天氣預報居然和我手機上顯示的不同。
我拿來她的手機,再次確認:我們身處同一個位置,都開著系統定位,且都賦予了天氣軟件讀取定位的權限,我們也在同一個WIFI環境下。
我們使用著同樣的手機、同一個款天氣軟件,也更新到了同一版本。
我們為了避免時間誤差,都多次刷新了天氣預報頁面。
但天氣預報結果,依然是不同的。
這兩份天氣預報中,至少有一份是錯的。又或者兩份都是錯的。
難道天氣預報的數據推送,也會根據不同人的喜愛,給出不同的結果?
二、同樣的行跡,不同的位置
最近幾年,很多同事選擇了自行車上下班。
因為健康,因為環?!灿锌赡苁且驗楦F。
公司附近有幾處重要的辦事機構,管理較為嚴格,共享單車不能隨地停放,必須放在指定的區域。
而在具體的操作中,必須現在手機上操作,確認已抵達規定還車地點,才能進行關鎖。
然后,那些鐘愛睡懶覺的同事,就體會到了什么叫噩夢。
離上班時間還有2分鐘,騎自行車來到公司樓下,駐足在停車區域內,點擊手機上的“我要還車”,然后看到提示:您不在還車區域。
之后,自然是一番折騰,向前動動,向后挪挪,但無論如何進出,手機頁面上總顯示者:距離指定還車區域3米。
更過分的是,旁邊一樣過來停車的人,紛紛抵達位置,其中有不少直接關鎖走人,沒有在定位環節遇到麻煩。
看著上班時間已過,成年人的崩潰,往往就在那么一瞬間:咱的定位數據,為什么永遠都差3米?
不過,他也很快釋然了:既然停不了車,干脆騎車出去吃個早飯吧。遲到要扣錢,違規停車也要扣錢,反正總要扣一個。
三、同樣的搜索,不同的結果
還是閑來無事的辦公室生活。
到了下午5點,人們都忙完了手頭的任務,開始刷著手機,靜待下班。
小艾新買了個頭飾,楊妹子看著不錯,問她要鏈接。
微信轉發淘寶鏈接比較麻煩,小艾是個懶人,就跟楊妹子說:你就搜索#$%%@@%,第一個就是。
楊妹子聽話照做,在淘寶搜索欄里輸入了#$%%@@%,但別說第一個,連著刷了十頁,也沒有看到小艾買到的那件頭飾。
其實,不同人在淘寶搜索同一個詞,會出現不同的結果,也不算是什么新鮮事情。
系統會根據每個人的搜索、購買習慣,給他們推薦,系統認為他們最有可能感興趣、最有可能購買的商品。
不過這些推薦,顯然還沒有完全猜透用戶心意。
搜索結果,都是楊妹子不感興趣的。
而她現在、立刻、馬上就想要購買的商品,系統卻沒有推送給她。
大數據的判斷,是不是很不準確?
四、數據缺陷,顯而易見
大數據有問題嗎?
它距離完美還差的很遠。
而在生活中這些瑣碎的事情上,我們也能看到,大數據一些顯而易見的缺陷。
1. 因為邊緣數據,忽略了主要問題
現如今的大數據,基于龐大的數據量進行推算。
不過,數據與數據間,也具有權重差異:一些數據對計算結果有重要影響,一些數據卻只作為參考。
但當邊緣數據足夠多的時候,也會對結果帶來質的影響。讓一些本應該起到決定性作用的數據,被邊緣化。
就如剛才天氣預報結果的區別,可能也是數據推算帶來的差異。
不只以氣象局的預測為依據,也結合了每個人的行動軌跡、遇雨頻率等個體差異,進行單獨分析。
但分析結果怎么樣?
同一時間,同一地點,卻給出了截然不同的天氣預報。
難道是否下雨,會根據每個人的行動軌跡而變化嗎?
我們沒有生活在楚門的世界,我們也不叫蕭敬騰。
處在同一屋檐下,應該面對同樣的天氣,這個常識,卻在計算中,被大量的數據擠到了一邊。
而在網絡世界中,事實被大量數據擊垮,其實極為常見:
點贊多的視頻,未必真的有趣。
如果能找來足夠多的人刷點擊、刷關注、刷贊、刷評論,一些低質量的視頻,也可以成為熱門,推送給很多人。
評分低的飯店,未必就很難吃。
只要找足夠多的人去惡意差評,可以輕松把一家飯店的評分搞下去。而很多飯店在開業之初,也會找大量的人刷好評,讓自己屹立在推薦頭部。
當非真實的評價足夠多時,真實就會被掩蓋。至于飯菜味道究竟怎么樣,數據又嘗不出來。
2. 用復雜的方式,做了簡單的問題
因為大數據的存在,讓很多原本非常簡單的問題,變得很復雜。
一些顯而易見的答案,卻被藏了起來。
當你搜索1+1時,首屏上80%的搜索結果,不是1+1=2,而是哥德巴赫猜想、電影、歌曲之類與1+1相關的東西,甚至關于1+1=1的推論。
明明是個很簡單的問題,卻因為大量相關資料的存在,而被演化的非常復雜。
就像小艾給楊妹子推薦的商品,她倆長期使用著同樣的WIFI地址,也在不止一個軟件上相互關注、加著好友。其中一人前幾天購買了某商品,另一人幾天后用同樣的搜索詞,搜索同一商品,想必也是數據能夠監測到的。
如果只考慮這些顯而易見的信息,推薦同樣的商品,立刻就能促成購買。
但大數據偏偏考慮了太多過去的搜索、購買結果,認為她倆不是同樣的消費群體,認為她倆具備不一樣的喜好,所以推送的搜索結果也完全不同。
很簡單的一道題,做的太過復雜。
3.?數據偏見,偏見螺旋
大數據的推送,更存在嚴重的偏見。
數據認識用戶,很多時候就像盲人摸象一樣。
只摸到了大象的腿,就認為大象是個圓柱體。
數據只看到了用戶的某一面,認為用戶就是那個樣子的。
最初,數據通過盲猜的方式,向楊妹子推薦了某些商品、某些視頻,她隨意觀看了其中的幾個。
數據會對她的觀看行為進行記錄,并再次推送類似的商品、視頻,進行驗證。
果然,楊妹子確實對這些內容感興趣,多次觀看。
時間長了,數據就會記?。簵蠲米邮莻€喜歡火鍋、喜歡年輕小鮮肉、喜歡朋克風穿搭的年輕女孩。并且會給她推送更多相關內容。
這樣的推送雖然沒錯,卻只是一種偏見。
其實,楊妹子也喜歡中國風繪畫,喜歡綠色的頭飾,喜歡吃東北菜,但數據卻并不知道。
數據并非全知全能,對于自己沒有收集到的信息,也無從得知。
尤其在針對性的推送中,更會形成一種偏見螺旋。
系統不斷給楊妹子推送火鍋、朋克、小鮮肉,楊妹子也確實喜歡看這些,持續觀看、點贊、評論、購買。
數據記錄在案,就更會不斷加大相關推薦。
最終形成一個循環:
但對一個人來說,再喜歡的東西,看的太久了,偶爾也會有膩的時候??上到y仍然樂此不疲的推送這幾種內容。
因為足夠的數據證實,她感興趣。即使偶然一兩次沒有觀看,在整體數據中,這一兩次不觀看的行為,也依然無法抵抗之前頻繁觀看的偏好。
除非她真的歇斯底里,一連點了幾十次“不要再推薦類似內容”。但一般人也不會如此做,畢竟推薦的東西,也都是自己平日里感興趣的,還擔心以后會看不到。
而在這種偏見循環中,已經確定偏好的內容推送越多,其他內容能跟用戶見面的機會就越少。所以數據補全自己偏見的機會也就變得更少。
在向楊妹子推送火鍋、朋克、小鮮肉的同時,偶然有一條熱門視頻也推送到了她眼前,是關于中國風彩繪的。
但這條視頻的主角,說話娘娘腔,恰好是楊妹子無法接受的類型,直接劃了過去。數據就恰好失去了一次,得知她喜好中國風彩繪的機會。
下次再有這樣的機會,不知道又是幾月后、幾年后了。
五、大數據,還不夠大
所有這些問題,歸根結底,是大數據還不夠大。
受限于技術、成本、隱私原因,獲取數據的方式還不夠多,不夠精確。
如果數據捕獲量夠大,不只限于一個平臺,甚至不只限于虛擬世界,能夠看到更多細節。數據就有更高的機會,真正認識一個用戶,而不是產生偏見螺旋。
如果數據獲取手段足夠細致,所有數據獲取設備都足夠精確,也就不會出現無法還車的問題。
如果大數據的探測手段足夠高級,那不可預知的天氣,也總有一天能夠判斷到一絲不差。
但受限于技術,大數據暫時還無法一眼看到事物的全貌。只能通過管中窺豹的方式,用幾億個角度觀測出的視野碎片,拼湊出一只豹子的畫像。
受限于成本,大數據無法獲得充足的數據?;蛟S幾億個視野碎片能拼出一只豹子的畫像,但成本只允許獲取幾萬個碎片,拼出的豹子自然也似是而非。
受限于隱私,大數據無法獲得一些關鍵性數據。那幾萬個碎片中,還缺乏豹子某些關鍵部位的碎片。
最終結果就是,大數據所拼湊出來的豹子畫像,雖然有了豹子的雛形,但離真實的豹子還差很遠。
六、矛盾的隱私
技術、成本的局限,隨著時代發展,總有解決的一天。
就像天圓地方的傳統觀念,終有一天會在天文衛星的見證下被顛覆。
但大數據未來的發展之路,必然還會和我們的隱私需求,出現更激烈的碰撞。
尤其是我們的真實需求,甚至連自己都很難說清——多數人對大數據的態度,欲拒還迎。
在需要大數據預測的時候,我們要求大數據保持精準。
在不需要大數據預測的時候,我們又擔心對隱私泄露。
- 打車去某個偏僻的角落,甚至我們自己都不知道該怎么搜索目標位置,大數據就直接預判出了我們的目標地點。這節約了我們的時間,也讓我們的出行變得簡單、輕松。但在坐上車之后,我們又開始擔憂,自己的出行信息,是不是會被有心人利用?
- 我們想購買的商品,被電商平臺直接推送到眼前,節省了我們搜索、瀏覽、對比的時間和精力。但在享受這種便捷的同時,有的人又產生擔憂,自己對某些商品的喜好,會不會被別人所知曉。
我們都很矛盾,既想占有大數據的好,又想摒棄它的一切不好。
但大數據的好與壞,本就是對立統一的。
沒有足夠多的數據埋點,就無法做出更準確的預測。
沒有一次次的行為監控,就無法在你需要的時候,把你所需的信息送至面前。
更簡單點說:手機中的導航軟件,若沒有精確的定位,沒人知道你在哪、你去哪,又怎么給你準確的導航?
就像一些人所說:“其實我們不是沒有選擇權,即使是現代,也完全可以扔掉手機,一個人去山里生活,保護自己完整的隱私。”
這話雖然有些風涼話的意味,但也能反映出一個問題:當我們,把非智能手機換成智能手機時,當我們享受遠程購物的便捷時,當我們隨時隨地通過搜索解答自己的疑惑時,我們也應該知道,自己將要拿出一部分隱私,去交換這種便捷。
隱私交換便捷,這是必然的結果。
而在大數據發展、完善的過程中,我們需要去爭取的、社會需要去規范的,是付出多少隱私,能換到多少便捷;大眾對隱私的付出,有沒有自主選擇的空間;付出隱私的邊界在哪里;隱私除了交換便捷外,還會不會被其他人看到、利用。
現在還沒有答案,但遲早會有答案。
總有一天,大數據能算準天氣。
也總有一天,我們能找到便捷和隱私間的平衡。
#專欄作家#
墨饕,人人都是產品經理專欄作家,網絡營銷人,心理咨詢師。擅長消費者行為學、文字傳播學、市場營銷學等領域。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
本文為人人都是產品經理《原創激勵計劃》出品。
題圖來自Unsplash,基于 CC0 協議
數據推薦還不夠精準智能啊,剛買好一件東西,短時間內也不需要買第二件但就是天天推送,就不能推一個月或半年前我買過的某些必需品嗎?那種有更換期限的產品隔段時間推送不好嗎?又不是沒有給數據
很多時候我們不是擔心隱私被數據知道,而是在擔心數據是不是在我們不知道的時候擅自獲取隱私信息,并且這些信息被其他人所利用
指定換車那個有相同的經歷,明明是同樣的共享單車,別人能換我換不了。
真是很好玩,看來現在真的啥都是因人而異的,大數據根據你的喜好進行推送,好像天氣也能根據喜好變化一樣
千人千面
現在評分也有很多是假的,就現在都是各種刷高分什么的,還挺容易受騙的