算法驅(qū)動的資訊類平臺為什么讓人討厭?
我越了解算法,就越不懂人性。
人民日報在三評王者榮耀后,最近今日頭條也遭到了點名。批評的重點是以今日頭條為代表的的算法推薦資訊平臺,還提出了價值觀缺失、制造信息繭房、競爭手段無底線的“三宗罪”。
總的來說,人民日報提出的這些問題還是非??陀^的。此前也有不少新聞業(yè)內(nèi)人士反映過,低俗的信息會刺激人性中的陰暗面,吸引點擊量,在推薦算法的加持下,不知不覺我們的信息流上就全是婆婆小三、艷情野史。而得出的結(jié)論卻是,不是資訊平臺低俗,而是算法覺得你低俗。
同樣的情況也曾經(jīng)在快手上出現(xiàn)過,當(dāng)我們抱怨快手上全是鞭炮炸褲襠、老太嚼燈泡時,得到的答復(fù)是,中國的大多數(shù)就是這個樣子。
多數(shù)人的暴政
這種情況被稱為“多數(shù)人的暴政”。
大多數(shù)人忍不住會被低俗內(nèi)容吸引,所以創(chuàng)作者會創(chuàng)作更多的低俗內(nèi)容,去除人工編輯把控的中間環(huán)節(jié),算法只會根據(jù)你有意無意的點擊把那些低俗的內(nèi)容推上信息流。
這樣的多數(shù)人的暴政,不僅僅出現(xiàn)在中國,此前Facebook也深受各種驚悚標(biāo)題黨的困擾。不過外國人的腦回路是很清奇的,F(xiàn)acebook推出了一項用戶決策機制,如果讀過之后感覺內(nèi)容和標(biāo)題嚴(yán)重不符,可以將其標(biāo)注為假新聞,這樣就會降低這條消息的推薦權(quán)重。
尷尬的是,很多用戶會依照個人喜好隨意標(biāo)注,甚至?xí)蛘蝺A向?qū)δ骋慌蓜e的新聞進行惡意標(biāo)注。最后Facebook不得已還是采用了算法進行判斷——用機器學(xué)習(xí)對以往的標(biāo)題黨標(biāo)題進行總結(jié),對相似標(biāo)題的文章進行降權(quán)。就是喂給算法一批諸如《震驚了!……》、《……真相是這樣!刪前速看!》的標(biāo)題,算法學(xué)會后,就會對“震驚派”的文章進行降權(quán)。
實際上“夸張的標(biāo)題”、“假新聞”、“低俗內(nèi)容”之間往往只有一線之隔,把決策權(quán)交給用戶是一項非常冒險的行為。不管是算法還是用戶投票,只要是在去編輯體制的平臺上,多數(shù)人的暴政都會出現(xiàn)。
完全依賴用戶抉擇,平臺會被視作沒有責(zé)任感、不作為;可如果平臺參與決策,又很可能破壞“算法推薦”這一原有的特色。這樣的矛盾,不管是Facebook還是今日頭條都在經(jīng)歷,但對于國內(nèi)用戶來說,不適感來的要更強烈一些。
在App冷啟動時,用戶都會選擇好自己的興趣標(biāo)簽。可打開信息流,還是會有一些低俗夸張的內(nèi)容出現(xiàn),甚至在選擇了“不感興趣”后,劃過幾屏,類似的信息還是會出現(xiàn)。要不就像新聞中說的那樣,隨手點開了一條低俗信息,立刻有大量類似的信息涌入。
雖然幾乎沒有公開談過其推薦算法都取決于哪些權(quán)值,但我們可以從目前主流的推薦算法中看看,今日頭條們可能錯在了哪里。
如果你的信息流不對勁,可能是因為…
在推薦算法中,最常見的就是協(xié)同過濾算法。資訊類產(chǎn)品常常會使用基于用戶的協(xié)同過濾算法,即利用K鄰近算法,找到和你興趣相近的用戶,并把對方的喜好推薦給你。比如A、B兩個用戶都對時政、軍事類的資訊感興趣,而A用戶也對歷史類資訊感興趣,那么系統(tǒng)就會給B用戶推薦歷史類資訊。
這種基于用戶行為的推薦機制,在豆瓣一類更個性化的、社交屬性更強的平臺的中更為精準(zhǔn)。可今日頭條這類資訊平臺中,用戶群體更加繁雜,用戶行為往往也都是無目的性的——在豆瓣中標(biāo)記某一部電影可能是為了告訴大家“我是看這種電影的人”,而在今日頭條中點擊一條新聞往往只是因為“想看看”。
這無疑給基于用戶的協(xié)同過濾算法的精確度帶來很大挑戰(zhàn),用戶本身的屬性就是模糊的,又如何如果你的信息流中不斷出現(xiàn)一些你不感興趣的東西,很有可能是平臺利用了這種算法,為你推薦了相似用戶的喜好
不過資訊類平臺利用的更多的還是基于內(nèi)容的推薦算法。如果說用戶協(xié)同算法關(guān)注的是人與人之間的相似度,那基于內(nèi)容的推薦算法關(guān)注的則是內(nèi)容本身。
還是以電影為例,一部電影可以細分出影片類型、年代、演員、導(dǎo)演等等多種元素。用戶標(biāo)注了某一部電影,算法就會為他推薦同一導(dǎo)演的作品。這樣的推薦模式大多被適用于識別結(jié)構(gòu)化數(shù)據(jù)——算法并不知道文章、影片中到底說了什么,只能根據(jù)結(jié)構(gòu)化數(shù)據(jù)標(biāo)注判斷。
這就是為什么大多數(shù)資訊類平臺都存在標(biāo)簽和關(guān)鍵詞機制,算法要通過這些結(jié)構(gòu)化標(biāo)注對內(nèi)容進行判斷,再推薦給用戶。
這其中最大的問題,就是關(guān)鍵詞機制的不準(zhǔn)確。我曾經(jīng)在某平臺上標(biāo)注了興趣“寵物”,本意是希望看到一些可愛的貓貓狗狗,然而某一天該平臺居然給我推薦了一段斗狗視頻,視頻下面居然也有寵物的標(biāo)注。
資訊類平臺中的內(nèi)容越來越豐富,短消息、圖文、問答都有。而關(guān)鍵詞標(biāo)注只能對內(nèi)容進行浮于表面的理解,而內(nèi)容中暗含的情緒往往會冒犯到用戶。而在流量的誘惑下,很多創(chuàng)作者會更傾向于生產(chǎn)具有刺激性情緒的內(nèi)容。
斗狗、職場性騷擾、歷史艷情,這些內(nèi)容本身似乎也是合規(guī)的,但其中暗藏的暴力、歧視、色情等等情緒,被掩蓋在寵物、職場、歷史等等標(biāo)簽下,堂而皇之的污染著我們的信息流。
那么出路在哪?
我們想知道的是,除了加強平臺對低俗內(nèi)容的監(jiān)管,是否還能從技術(shù)方面解決當(dāng)前的問題?
其實相關(guān)的研究結(jié)果已經(jīng)很多,比如谷歌推出的云端自然語言分類功能,可以通過語言分析情緒。據(jù)稱這項功能在分析了報紙的某一版面后,自動將其中一篇菜譜歸入了美食欄目,還添加了具體的標(biāo)簽。而且谷歌云的自然語言API還可以識別情緒,了解文章內(nèi)容是積極的還是消極的。
更詳細的分類和情緒識別,可以很好的解決上文提到的關(guān)鍵詞機制不精準(zhǔn)問題。而人民日報在文章中提到的,用戶興趣變化問題業(yè)內(nèi)也有過相關(guān)討論。有人提出過將用戶停留時間和內(nèi)容相似度兩種數(shù)據(jù)權(quán)重加入到協(xié)同過濾算法中,以用戶在不同內(nèi)容上停留的不同時間來判斷用戶的興趣是否發(fā)生了變化,從而確定推薦內(nèi)容的權(quán)重。
其實不管是谷歌NLP這種高成本的解決方式,還是調(diào)整原有算法這種更簡單易行的方式。用技術(shù)解決推薦算法的局限沒有想象中那么難,甚至對于低俗的內(nèi)容,都已經(jīng)出現(xiàn)了“人工智能鑒黃”這種神器。
推薦算法是一種歷史悠久的技術(shù),發(fā)展到今天,電商、廣告的推薦越來越精準(zhǔn),資訊的推薦算法卻惹得天怒人怨,要是把鍋甩到算法上,恐怕有些不公。
有人說算法呈現(xiàn)出的結(jié)果是人性本質(zhì)的體現(xiàn),可從當(dāng)下看來,算法呈現(xiàn)出的更多是平臺、內(nèi)容創(chuàng)作者這些利益既得者的人性。
作為一個天天研究算法的普通內(nèi)容消費者,我倒是覺得,越了解算法,就越不懂人性。
作者: 我堂堂一個熊貓
來源:微信公眾號:腦極體(unity007)
本文由 @腦極體 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自PEXELS,基于CC0協(xié)議
噗哈哈哈 最后的觀點很隱晦 ??