算法為什么比你還懂你自己

4 評(píng)論 7791 瀏覽 27 收藏 19 分鐘

#本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵(lì)計(jì)劃》出品。

移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展、互聯(lián)網(wǎng)信息的爆發(fā)增長,都讓用戶面臨著某種信息無法完全消化的繭房困境。在這一問題維度上,推薦算法的應(yīng)用可以幫助用戶過濾、篩選、乃至“便利”地獲取信息。不過,問題往往需要多維看待,當(dāng)被賦予過強(qiáng)的商業(yè)化目的時(shí),推薦算法應(yīng)當(dāng)回歸工具的本質(zhì)。

又是一年一度的“618”購物節(jié),瀏覽淘寶時(shí),感嘆“為你推薦”越來越精準(zhǔn)了,就像是肚子中的蛔蟲,我想要什么它馬上就可以推薦給我。

不光淘寶,還有網(wǎng)易云音樂、美團(tuán)、快手、Bilibili ……“為你推薦”、“猜你喜歡”等推薦功能似乎成了大多 APP 的標(biāo)配,既像一個(gè)貼心的管家關(guān)心著我的每一喜好,也像一個(gè)躲在屏幕后的偷窺狂窺視著我的一舉一動(dòng)。

那么“為你推薦”,“猜你喜歡”背后的推薦算法是怎么做到比你還了解你呢?

一、推薦算法的由來

在介紹推薦算法之前,先問個(gè)問題:我們?yōu)槭裁葱枰扑]系統(tǒng)?是我們對(duì)發(fā)現(xiàn)自己需求產(chǎn)生了什么困難抑或是表達(dá)需求遇到了什么阻礙?

1. 從客觀環(huán)境上,信息時(shí)代為推薦算法的誕生提供了基礎(chǔ)

1)信息爆炸

我一直很喜歡“網(wǎng)上沖浪”這個(gè)詞,不僅表現(xiàn)出瀏覽信息的暢快感,也提醒隨時(shí)有沉溺于信息之海的危險(xiǎn)。

現(xiàn)在就是這樣,每個(gè)人無時(shí)無刻被信息包裹,甚至“溺亡”。根據(jù)《科學(xué)》雜志的統(tǒng)計(jì),截止2014年,互聯(lián)網(wǎng)信息1000萬億億字節(jié),如果把這些信息打印出來,則需要1.36×1012張 A4 紙打印,一個(gè)人可能十輩子也無法看完這些信息,然而信息增長的速度還在加快。

2)碎片信息

信息時(shí)代的另一個(gè)特點(diǎn)是“碎片信息”,信息的碎片化導(dǎo)致從信息形式本身來說是反系統(tǒng)、反歸類的。文章的字?jǐn)?shù)越來越少,視頻的時(shí)長越來越短,公眾號(hào)也經(jīng)?!芭f坑還沒填完”就開始不斷“挖新坑”,就連持續(xù)關(guān)注也難以獲得系統(tǒng)的信息。

2. 從主觀需要上,我們某種程度上被裹挾著需要推薦算法

1)速食文化

“一分鐘學(xué)會(huì)**”,“十句話告訴你**的秘訣”……速食不僅僅在飲食上,也蔓延到對(duì)信息的攝取上,我們?cè)絹碓饺狈δ托模谕梢愿咝У孬@取信息。

2)錯(cuò)過焦慮

有沒有擔(dān)心錯(cuò)過某篇“大佬”的內(nèi)容,有沒有為看不完的“課程”而焦慮……我們擔(dān)心錯(cuò)過一條有價(jià)值的信息而不斷刷新,訂閱或?qū)ふ蚁乱粭l信息。這似乎是身體曾經(jīng)對(duì)食物渴求記憶的遺留,這種渴求也反映在信息上。

3)選擇無能

選擇太多也意味著難以選擇。從剛開始訂閱三四個(gè)公眾號(hào),每天還可以看一看,隨著公眾號(hào)訂閱得越來越多,除了焦慮,更多的是躺平,就這樣吧,反正也看不完,也不知道看什么。

我們對(duì)于信息的獲取,自古就有,只是以前由于技術(shù)資源等限制,這些只是少部分人才會(huì)有的煩惱,畢竟學(xué)富五車已經(jīng)是很豐富的知識(shí)量了。然而,信息時(shí)代的到來,信息早就不能用“五車”來衡量,信息的量和形式都發(fā)生了飛速的變化,幾乎人手一臺(tái)手機(jī),讓大部分人都擁有了這樣的煩惱。

就像淘寶,商品琳瑯滿目,已經(jīng)多到一個(gè)人幾輩子都不可能買完,一方面想快速找到自己想要的商品,另一方面又不想錯(cuò)過任何一個(gè)優(yōu)惠。推薦算法提供了一個(gè)可行的方法,我?guī)湍阏业侥阆胍臇|西,或者我來告訴你,你想要什么。

二、推薦系統(tǒng)的定義

推薦系統(tǒng)是一種信息過濾系統(tǒng),用于預(yù)測用戶對(duì)于物品的“評(píng)分”和“偏好”。
——維基百科

從維基百科的定義可以看出,推薦系統(tǒng)主要解決的問題是,幫助用戶發(fā)現(xiàn)自己喜歡的東西,并將其以適當(dāng)?shù)姆绞剑ˋPP 信息流)展現(xiàn)給用戶。

推薦系統(tǒng)一般由三個(gè)部分組成。

1. 行為采集模塊

主要負(fù)責(zé)采集記錄用戶的(與推薦對(duì)象交互)行為數(shù)據(jù),比如瀏覽、收藏、點(diǎn)贊、評(píng)論、加入購物車等。

2. 模型分析模塊

包括用戶模型和推薦對(duì)象模型,主要利用采集到的用戶行為數(shù)據(jù),分析用戶和不同推薦對(duì)象之間喜好程度,并結(jié)合相應(yīng)模型分析用戶興趣。

3. 推薦算法模塊

根據(jù)用戶特征和推薦對(duì)象特征,結(jié)合當(dāng)時(shí)的環(huán)境特征,對(duì)用戶進(jìn)行推薦對(duì)象的推薦。

我們現(xiàn)在使用的APP,推薦結(jié)果一般都是以列表的形式展現(xiàn),也就是“Top-N”問題,即在不同的場景下為用戶提供一個(gè)包含 N 個(gè)推薦對(duì)象的列表,這 N 個(gè)推薦對(duì)象是否是用戶喜歡的是推薦系統(tǒng)重點(diǎn)解決的問題。一般通過多個(gè)多個(gè)推薦引擎,每個(gè)引擎負(fù)責(zé)一類特性和一種任務(wù)產(chǎn)出相應(yīng)的結(jié)果,結(jié)果再按照一定的權(quán)重進(jìn)行排序生成列表。

三、常見的推薦算法

推薦算法是推薦系統(tǒng)的核心,在很大程度上決定了推薦系統(tǒng)的優(yōu)劣,也就是我們常說的“推薦得準(zhǔn)不準(zhǔn)”。如何知道你的偏好,從而讓推薦準(zhǔn)確,可以從以下四個(gè)方案提供思路。

1. 方案一:大家都喜歡的東西,你也會(huì)喜歡

人是集體性生物,個(gè)人行為會(huì)受到外界人群行為的影響,而在自己的判斷,偏好上表現(xiàn)得和大多數(shù)人一樣。這為推薦算法提供了一個(gè)思路,即“大家喜歡的東西,你也會(huì)喜歡”,熱度推薦算法也應(yīng)用而生。

對(duì)不同物品賦予個(gè)初始得分,用戶對(duì)物品的交互會(huì)產(chǎn)生不同的分值,比如點(diǎn)贊 +2,點(diǎn)踩 -1,加入購物車 +3 等,根據(jù)發(fā)布時(shí)間與當(dāng)前時(shí)間的差值再得出該物品“新鮮度”的衰減分,初始分加行為分再減去衰減分就可得出當(dāng)前得分,按照得分值的大小進(jìn)行排序就可得出推薦列表。那么大多數(shù)用戶都喜歡的(點(diǎn)贊、收藏、轉(zhuǎn)發(fā))物品,結(jié)合發(fā)布時(shí)間,會(huì)優(yōu)先推薦給你。

熱度算法的應(yīng)用很多,比如淘寶、微博的熱搜,還可以根據(jù)不同維度生成分榜單。當(dāng)然具體到各個(gè)產(chǎn)品當(dāng)中,不會(huì)像上文寫的簡單加減,會(huì)根據(jù)場景、自身用戶特點(diǎn)進(jìn)行加權(quán)等更復(fù)雜的計(jì)算。

2. 方案二:你喜歡這個(gè)東西,也會(huì)喜歡這一類東西

雖然會(huì)有“三分鐘熱度”,但在一段時(shí)間內(nèi),人對(duì)某物品的喜歡會(huì)保持穩(wěn)定,即你喜歡這個(gè)東西,也會(huì)喜歡和它同屬一類的其他東西,比如你喜歡姜文導(dǎo)演的電影《讓子彈飛》,那么他導(dǎo)演的《鬼子來了》, 你也大概率也會(huì)喜歡。這種推薦方式就是利用內(nèi)容過濾推薦算法。

基于內(nèi)容推薦,需要提前對(duì)推薦對(duì)象進(jìn)行分類,分類的方式有很多,可以按照種類,比如水果、蔬菜、糧油……也可以按照歸屬,比如某導(dǎo)演的所有電影、某歌手的所有歌曲……其實(shí)就是判斷不同對(duì)象之間的相關(guān)性,對(duì)相關(guān)性取值,劃分區(qū)間,不同區(qū)間內(nèi)的所有對(duì)象歸為一類。比如抖音,一旦你瀏覽了這一類中的某個(gè)內(nèi)容,就會(huì)推薦這一類中其他的內(nèi)容給你。

相關(guān)性可以通過貝葉斯定理計(jì)算,以用戶觀看視頻為判斷相關(guān)性的標(biāo)準(zhǔn),設(shè)用戶觀看視頻 A 的概率為 P(A),觀看視頻 B 的概率為 P(B),則:

  1. 用戶看完視頻 A 再看視頻 B 的概率為:P(B|A);
  2. 根據(jù) P(B|A) 值的大小來決定是否來推送視頻 B。

3. 方案三:找到一個(gè)和你很像的人,他喜歡的東西你也會(huì)喜歡

人總是期望得到熟悉或相似的東西,就連人也是,兩個(gè)相似的人更容易產(chǎn)生交集,也有更多相同的東西可以進(jìn)行分享,比如都喜歡某一首歌,某一部電影……

找到那個(gè)和你很像的人,不只是一個(gè)浪漫的夢(mèng)想,也是推薦算法一直嘗試實(shí)現(xiàn)的事情,協(xié)同過濾推薦算法就是致力于解決這個(gè)問題。

協(xié)同過濾推薦算法利用用戶信息進(jìn)行近鄰搜索,找到近鄰用戶,在根據(jù)近鄰用戶的喜好來進(jìn)行相應(yīng)的推薦。

舉個(gè)例子,在身高維度,身高差異最小的兩個(gè)人更像,再增加體重維度,就成了二維空間,通過兩點(diǎn)的夾角大小可以判斷相似性,如果再增加年齡維度,就是三維空間,也可以通過夾角大小來判斷相似性。

實(shí)際應(yīng)用中一般都是多維空間,比如網(wǎng)易云音樂,以用戶對(duì)歌曲的交互行為(點(diǎn)贊、收聽、收藏等)建立多維空間,在多維空間中計(jì)算你與別人的夾角值,通過夾角值的大小來尋找近鄰用戶,再將她喜歡的歌曲推薦給你。還記得有段時(shí)間,網(wǎng)易云音樂推出了社交的功能,那個(gè)推薦給你的人可能是在音樂品味上與你最相似的人。

上圖所示的余弦相似度是一種典型的協(xié)同過濾相似辦法,還有對(duì)數(shù)似然相似度法、Pearson相似度法、Jaccard相似度法……都是基于存儲(chǔ)的協(xié)同過濾算法。

4. 方案四:找到一個(gè)和你存在某種關(guān)系的人,他喜歡的東西你也會(huì)喜歡

方案三中的方法主要是利用用戶在 APP 內(nèi)的行為數(shù)據(jù),如果是新用戶,行為數(shù)據(jù)非常少,那怎么辦?

既然 APP 中沒有你的信息,那么可以從你現(xiàn)實(shí)世界中尋找線索,通過社交圈是一個(gè)不錯(cuò)的途徑,畢竟這也是你在現(xiàn)實(shí)生活中找到“近鄰用戶”。

當(dāng)然這種現(xiàn)實(shí)關(guān)系不僅僅指社交圈,比如音樂網(wǎng)站 Spotify 宣布與 DNA 網(wǎng)站合作,任何人只要允許 Spotify 查看他的 DNA 序列,Spotify 就可以給用戶推薦根據(jù)他的 NDA 定制的歌曲。

上述的四個(gè)方案提供給算法了解用戶的思路,但各有利弊,比如方案三就會(huì)面臨“冷啟動(dòng)”、“數(shù)據(jù)稀疏”等問題。所以實(shí)際使用中,都是好幾種算法的混合,即混合推薦算法。主要有七種不同的混合方式:加權(quán)、變換、混合、特征組合、層疊、特征擴(kuò)充、元級(jí)別。

四、推薦算法的挑戰(zhàn)

大數(shù)據(jù)時(shí)代一個(gè)典型的特點(diǎn)是海量的信息,信息從未像現(xiàn)在一樣龐大,也從未像現(xiàn)在一樣易得,推薦系統(tǒng)幫助我們?cè)诤A啃畔⒅锌焖僬业阶约盒枰蚋信d趣的信息,提供便利的同時(shí),也面臨著諸多挑戰(zhàn)。

1. 挑戰(zhàn)一:信息繭房

為了增強(qiáng)用戶黏性,提高用戶停留時(shí)間等,算法會(huì)遷就用戶的偏好,不斷預(yù)測并推薦符合其偏好的信息,這使得用戶接收的信息面越來越狹窄,并進(jìn)一步強(qiáng)化其偏好,就像身處在一個(gè)繭房中,被層層束縛,無法“破繭而出”。算法讓興趣相投的用戶更容易產(chǎn)生聯(lián)結(jié),但也加劇了社會(huì)價(jià)值觀念和意識(shí)形態(tài)的分化。

2. 挑戰(zhàn)二:信息暴食

“某音,某手正在毀掉一代人”這樣的營銷文甚囂塵上的同時(shí)也反映了一個(gè)現(xiàn)象,APP 越來越關(guān)注于爭奪用戶的時(shí)間,算法推薦無窮無盡的內(nèi)容,刷完一屏,馬上生成下一屏的內(nèi)容。

APP 設(shè)計(jì)也越來越看重“沉浸式體驗(yàn)”,曾經(jīng)抖音通過隱藏時(shí)鐘這一人為創(chuàng)造物,讓用戶更容易忽略掉時(shí)間流逝,一不留神好幾個(gè)小時(shí)就過去了。

3. 挑戰(zhàn)三:隱私風(fēng)險(xiǎn)

上文提到的方案四,在冷啟動(dòng)階段,為了更精準(zhǔn)地推薦,會(huì)挖掘用戶現(xiàn)實(shí)中的關(guān)系,其他方案也會(huì)存儲(chǔ)用戶行為數(shù)據(jù)以供模型的優(yōu)化,但是如果這些數(shù)據(jù)被泄露呢?科技越發(fā)達(dá),隱私越少,人們讓渡隱私,換取更便利的生活,但是什么該做、什么不該做,應(yīng)該由誰來保障?

4. 挑戰(zhàn)四:黑箱操作

“你的 APP 在監(jiān)聽你”,“APP 偷看了你的相冊(cè)”……等等諸多的懷疑都來自算法是“黑箱操作”,我們只知道被推薦了這些信息,但是不知道是怎么推給自己的,未知導(dǎo)致恐懼,恐懼加劇懷疑。

五、結(jié)語

這是一個(gè)最好的時(shí)代,也是一個(gè)最壞的時(shí)代。
——狄更斯 《雙城記》

推薦算法是技術(shù)的產(chǎn)物,也是時(shí)代的產(chǎn)物,誕生于如何在海量信息中幫助人們找到需要的信息,但是否“真正”需要是非常難界定的,是出于主觀意愿上的獨(dú)立選擇,還是外部干預(yù)下的被動(dòng)選擇,到底是“我需要”還是“平臺(tái)覺得我需要”,是兩件非常不同的事情。

信息的攝取自人類誕生之日起就存在,推薦算法面臨的挑戰(zhàn),曾經(jīng)的信息攝取工具或多或少也遇到過。

信息繭房或許是算法建立的,但終究是自己選擇躲進(jìn)去的。

信息暴食更多是物質(zhì)匱乏時(shí)代的遺留,在物質(zhì)過剩的現(xiàn)在,仍有很多人無法克服對(duì)脂肪淀粉等本能的生理渴望,錯(cuò)過一篇公眾號(hào)文章都會(huì)焦慮不已,怎么能奢求他們克服對(duì)信息的暴食。

隱私風(fēng)險(xiǎn)一直存在,人們只是數(shù)據(jù)庫中的一串?dāng)?shù)據(jù),我們用隱私作為交換,選擇便利。

黑箱操作,算法最初是作為核心機(jī)密來保護(hù)的,但隨著推薦系統(tǒng)回歸到數(shù)據(jù)本質(zhì),算法本身只是成了一把鑰匙,箱子里的寶藏是你擁有多少可用的數(shù)據(jù),這樣也提供了一些了解黑箱操作的途徑,但是比起“沙雕視頻”,了解算法并沒有那么有趣。

推薦算法某種程度上是基于一種“無能”的假設(shè),即:用戶沒有能力獨(dú)立找到自己所需的信息,所以需要算法“喂養(yǎng)”。

當(dāng)然算法可以自信地拍著胸膛說,我比你還了解你,你為什么不愿意接受我的推薦,但是作為創(chuàng)造者,作為追求自由精神的人類,我們不是“事事掛在臉上”的三體人,我們需要一些私密的空間,需要有做出選擇權(quán)利??梢杂幸徊糠秩诉x擇放棄這個(gè)權(quán)利,也可以有一部分人選擇行使這個(gè)權(quán)利,但關(guān)鍵在于能夠給予用戶做出主觀選擇的權(quán)利。

工具應(yīng)該回歸工具的本質(zhì),而不應(yīng)該被賦予太多原本不屬于它的能力。

就像推薦算法被賦予太多商業(yè)上的目的后,它雖然依舊行使著工具的作用——幫助我們獲取到了信息,但卻讓我們存在著“被無微不至關(guān)心”和“被肆無忌憚窺視”兩種割裂的體驗(yàn)。

 

本文由@Pluto_蛋蛋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵(lì)計(jì)劃》出品。

題圖來自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 脈絡(luò)清晰,見解深刻,贊一個(gè)~

    來自浙江 回復(fù)
  2. 有太多人沉溺于信息之海了,水下待的太久就變成了魚,沒有思考,沒有記憶。

    來自浙江 回復(fù)
  3. 做推薦系統(tǒng)需要什么樣的人員組織架構(gòu)???

    回復(fù)
    1. 架構(gòu)師,高級(jí)程序員,算法

      回復(fù)