從技術(shù)之戰(zhàn)開(kāi)始,信息流大戰(zhàn)的賽點(diǎn)發(fā)生輕微的變化
算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象,更深層次看,則引發(fā)了內(nèi)容生產(chǎn)者的“創(chuàng)作繭房”問(wèn)題。
半個(gè)月前還沉浸在“抖音”高速增長(zhǎng)的喜悅中的今日頭條,最近卻有點(diǎn)焦頭爛額。央視、人民日?qǐng)?bào)、第一財(cái)經(jīng)周刊等央媒和核心財(cái)經(jīng)媒體,在上周對(duì)今日頭條及旗下的抖音產(chǎn)品進(jìn)行了一輪違規(guī)發(fā)布廣告的曝光以及價(jià)值觀的批判。
在相關(guān)的許多報(bào)道中,媒體都或明或暗的強(qiáng)調(diào)了一點(diǎn):信息流推薦技術(shù)本身早已被國(guó)內(nèi)外論證了是一個(gè)成功的移動(dòng)互聯(lián)網(wǎng)產(chǎn)品,但之所以出現(xiàn)劣幣驅(qū)逐良幣的問(wèn)題還是因?yàn)槭褂眠@個(gè)技術(shù)的企業(yè)出了問(wèn)題。
也正因此,不少媒體在引述相關(guān)報(bào)道的時(shí)候都會(huì)強(qiáng)調(diào),去年初,今日頭條創(chuàng)始人張一鳴在接受《財(cái)經(jīng)》雜志專訪時(shí)提出的,不認(rèn)為今日頭條應(yīng)該有價(jià)值觀這一論調(diào)。
這在一定程度道出了今日頭條的核心問(wèn)題,但事實(shí)上更為關(guān)鍵的是,如今這個(gè)階段的基于人工智能算法的內(nèi)容之戰(zhàn),已不僅僅是打破“信息繭房”這么簡(jiǎn)單。從技術(shù)之戰(zhàn)開(kāi)始,這場(chǎng)信息流大戰(zhàn)的賽點(diǎn),已發(fā)生了輕微的變化。
一、推薦準(zhǔn)確性的PK,仍將決定于數(shù)據(jù)而非算法的技巧
對(duì)信息流來(lái)說(shuō),算法準(zhǔn)確性是競(jìng)爭(zhēng)重點(diǎn),但真正的決勝點(diǎn),卻是數(shù)據(jù)。
1、數(shù)據(jù)熱啟動(dòng)是百度實(shí)現(xiàn)奇襲的根源
首先需要明確一個(gè)理論,推薦算法的準(zhǔn)確性并不是被計(jì)算出來(lái)的,而是被統(tǒng)計(jì)出來(lái)的(這一點(diǎn)在后文底層技術(shù)分析會(huì)詳細(xì)說(shuō)明),這意味著數(shù)據(jù)量越大、越相關(guān),越能得出準(zhǔn)確的推薦效果。
而且,由于復(fù)雜網(wǎng)絡(luò)向量關(guān)系的存在,一個(gè)向量特征的準(zhǔn)確性影響是呈幾何擴(kuò)散的,數(shù)據(jù)對(duì)推薦準(zhǔn)確性的影響是非線性增長(zhǎng)的關(guān)系。在足夠多的數(shù)據(jù)量情況下,會(huì)快速提升,直到準(zhǔn)確率接近100%開(kāi)始變緩(畢竟100%準(zhǔn)確十分困難,越接近越難)如圖:
也就是說(shuō),在算法準(zhǔn)確性這里,數(shù)據(jù)熱啟動(dòng)的價(jià)值將變得更為重要,足夠豐富的數(shù)據(jù),一旦介入信息流推薦算法,就可以馬上實(shí)現(xiàn)高的準(zhǔn)確率,追趕間距很窄。
以百度為例,其老本行搜索業(yè)務(wù)與內(nèi)容直接相關(guān),在內(nèi)容大數(shù)據(jù)方面有直接優(yōu)勢(shì),官方對(duì)外宣稱整合了千億特征、百億樣本的數(shù)據(jù)體系,構(gòu)建了囊括大到科文史哲,小到一個(gè)冷僻的小游戲的特征數(shù)據(jù)。這為其數(shù)據(jù)熱啟動(dòng)做好了充分的準(zhǔn)備,而且,主動(dòng)搜索表達(dá)出的用戶向量特征,比通過(guò)被動(dòng)點(diǎn)擊總結(jié)的向量特征可能更為準(zhǔn)確有效。從這樣的技術(shù)角度看,百度信息流可以只用一年時(shí)間完成其他公司三五年才達(dá)成的目標(biāo),在較短的時(shí)間內(nèi)“杠住”今日頭條并不意外。
2、只有足夠大的試驗(yàn)平臺(tái)才能讓準(zhǔn)確率“朝上走”
另一個(gè)算法準(zhǔn)確性的問(wèn)題是推薦試算的問(wèn)題,即通過(guò)推薦的實(shí)踐來(lái)反饋當(dāng)前算法的準(zhǔn)確性,從而實(shí)現(xiàn)所謂的模型迭代。
例如,平臺(tái)通過(guò)各種方式得出某類用戶可能喜歡李娜,但推送李娜比賽新聞后效果很差(點(diǎn)擊、停留等指標(biāo)低),就證明這個(gè)推斷可能是不準(zhǔn)確的,需要返回調(diào)整。這樣的反復(fù)試驗(yàn)?zāi)軌蜃屚扑]逐漸接近真相。
而這些,說(shuō)來(lái)說(shuō)去都是硬實(shí)力的比拼,比的是誰(shuí)的平臺(tái)大、空間足夠廣闊,這會(huì)讓UC這樣早期沒(méi)跟上的信息流平臺(tái)越來(lái)越落后(如果試驗(yàn)環(huán)境不夠充分,下一次迭代的準(zhǔn)確性未必比這次好,準(zhǔn)確率呈現(xiàn)反復(fù)波動(dòng)而非一致提升),而百度這樣本來(lái)就憑借搜索頁(yè)面占據(jù)用戶眼球的平臺(tái)“廟大好念經(jīng)”。
也即,算法準(zhǔn)確性可能不是什么奇巧淫技,比來(lái)比去還是看誰(shuí)的膀子粗。
二、技術(shù)下一程,要從冰冷的統(tǒng)計(jì)學(xué)走向有溫度的內(nèi)容尊重
上文準(zhǔn)確性所行之事,從宏觀層面都是統(tǒng)計(jì)學(xué)的“花招”。而信息流的下半場(chǎng)競(jìng)爭(zhēng),則將更具有尊重內(nèi)容本身的人文色彩。也即從“量”的上半場(chǎng)進(jìn)入“質(zhì)”的下半場(chǎng)。
1、算法不帶價(jià)值觀,但產(chǎn)品要有溫度
張一鳴“算法不帶價(jià)值觀”被廣為詬病,但從上文的技術(shù)推導(dǎo)本身而言,算法可能真的沒(méi)有價(jià)值觀,這些冰冷的統(tǒng)計(jì)學(xué)數(shù)據(jù)不關(guān)注也不可能關(guān)注到內(nèi)容本身。
但同樣是推薦系統(tǒng),網(wǎng)易云音樂(lè)在QQ音樂(lè)、蝦米音樂(lè)等一眾軟件中獨(dú)樹(shù)一幟,被廣為贊譽(yù)。好聽(tīng)的冷門歌曲、年少時(shí)聽(tīng)過(guò)的磁帶、收音機(jī)播過(guò)的音樂(lè),在恰當(dāng)?shù)臅r(shí)機(jī)跳上來(lái)給予用戶驚喜?!坝袦囟取钡漠a(chǎn)品收獲用戶粘性是一種必然,有溫度的產(chǎn)品也一定是企業(yè)長(zhǎng)久發(fā)展的必要。
同樣是內(nèi)容產(chǎn)業(yè),信息流莫不如是。
2、“人人平等”要變成“生而不平等”
這里的轉(zhuǎn)化有雙重含義,首先是推薦機(jī)制不再只局限于“博眼球”的統(tǒng)計(jì)學(xué)需求指標(biāo),從而丟掉了優(yōu)質(zhì)內(nèi)容。其次是打擊套路寫(xiě)作,讓上百萬(wàn)的內(nèi)容創(chuàng)作者們實(shí)現(xiàn)真正的創(chuàng)作豐富化,而不是束縛于推薦機(jī)制的繭房中。
想要實(shí)現(xiàn)這種轉(zhuǎn)化,完全寄希望于人工不太現(xiàn)實(shí)(雖然百度這些平臺(tái)都在強(qiáng)調(diào)自己的人工投入),最終還是要通過(guò)技術(shù)本身去甄別內(nèi)容,打入內(nèi)容的“內(nèi)部”,自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂(lè)、甚至什么是好人(內(nèi)容源)。
今日頭條在公開(kāi)算法末尾就如何判斷內(nèi)容好壞做了一個(gè)章節(jié),但該章節(jié)并沒(méi)有太多驕傲的“技術(shù)”宣揚(yáng),說(shuō)明它仍在發(fā)力被社會(huì)期許的“好內(nèi)容”。因此,如果說(shuō)百度或者其他信息流平臺(tái)下一階段要徹底超越今日頭條,“好內(nèi)容”將是最合適、最必要的角力點(diǎn)。
百度發(fā)力“人工智能皇冠上的明珠”NLP(自然語(yǔ)言處理)或許就是在走這條路。雖然同時(shí)強(qiáng)調(diào)自己的AI技術(shù),但百度作為綜合性科技公司相對(duì)頭條,在AI的寬度、深度上公認(rèn)更有優(yōu)勢(shì),在利用自然語(yǔ)言處理技術(shù),對(duì)內(nèi)容的質(zhì)量、新穎度、情感傾向等進(jìn)行深度理解和挖掘方面,較今日頭條可能更有先機(jī)。
百度先于今日頭條搞出的“創(chuàng)作大腦”,表面上是為了更好地留住作者,而深層次可能更在于百度想在理解、區(qū)分內(nèi)容好壞方面更先一步。畢竟,AI輔助寫(xiě)作首先需要的就是對(duì)知識(shí)、對(duì)圖像的理解,將是錘煉內(nèi)容識(shí)別技術(shù)的恰當(dāng)機(jī)會(huì)。
無(wú)論如何,信息流的技術(shù)競(jìng)爭(zhēng)一定要回到尊重作者、尊重內(nèi)容的“供給側(cè)競(jìng)爭(zhēng)”(相對(duì)于只關(guān)心用戶需求的需求側(cè)競(jìng)爭(zhēng),它本質(zhì)上文提及的統(tǒng)計(jì)指標(biāo)集合)上來(lái),讓每一個(gè)內(nèi)容個(gè)體“生而不平等”,由他評(píng)走向自我價(jià)值認(rèn)同。
如果”澳網(wǎng)出線局勢(shì)深度分析”與“李娜3歲時(shí)干的事你絕對(duì)不知道”這樣的文章不再被同等對(duì)待,最終所謂“信息繭房”等表面問(wèn)題也將迎刃而解。
而這方面,雖然百度已經(jīng)占得先機(jī),但頭條、天天快報(bào)甚至手握公認(rèn)優(yōu)質(zhì)內(nèi)容的微信入局,必將引致一場(chǎng)新的技術(shù)惡戰(zhàn)。
三、算法流派眾多,但一切歸于貝葉斯
基于前文,我們能發(fā)現(xiàn),在信息流推薦中,數(shù)據(jù)仍然是決勝點(diǎn),而信息流也必然要更加尊重內(nèi)容。而從底層技術(shù)角度,當(dāng)我們回到算法的起源,也同樣可以印證這些。
以目前主流的算法為例歸類分析:基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于社會(huì)化網(wǎng)絡(luò)分析的推薦等,用通俗的語(yǔ)言即可解釋。
1、基于內(nèi)容的推薦算法
即用戶喜歡什么東西,推薦一些相似的東西。該推薦算法簡(jiǎn)單有效,推薦結(jié)果符合人們的認(rèn)知;無(wú)須用戶的歷史評(píng)分信息。但是,該算法必須知道內(nèi)容的特征,界定“什么才是相似”,比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息,則推薦效果較差、結(jié)果較單一。
2、協(xié)同過(guò)濾技術(shù)
即把興趣差不多的用戶群體歸類,然后給他們推薦相同偏好的內(nèi)容。它通過(guò)協(xié)作的方式分析用戶之間的喜好,避免特征提取不完全的情況。但存在冷啟動(dòng)問(wèn)題,無(wú)法準(zhǔn)確對(duì)新用戶進(jìn)行推薦,存在數(shù)據(jù)稀疏性問(wèn)題。有從用戶出發(fā)和從內(nèi)容出發(fā)兩種協(xié)同,如圖所示:
圖:從用戶出發(fā)和從內(nèi)容出發(fā)的協(xié)同過(guò)濾推薦(來(lái)源:CSDN“數(shù)據(jù)挖掘工人”博客)
3、關(guān)聯(lián)規(guī)則推薦
即通過(guò)某些技術(shù)挖掘大數(shù)據(jù),建立內(nèi)容之間的關(guān)聯(lián)規(guī)則,起初用在實(shí)體零售,比如經(jīng)典案例尿不濕與啤酒的搭售。在信息流領(lǐng)域中,主要是用統(tǒng)計(jì)學(xué)的方式發(fā)掘那些表面上看不出關(guān)聯(lián)的內(nèi)容與內(nèi)容之間的某些相關(guān)性,及相關(guān)程度。
4、社會(huì)化網(wǎng)絡(luò)分析
即身邊的人喜歡什么,就給該用戶推薦類似的內(nèi)容。例如親戚、朋友、同學(xué)等雙邊關(guān)系,微博關(guān)注、微信公眾號(hào)訂閱等單邊關(guān)系,織就一個(gè)由用戶組成的節(jié)點(diǎn)網(wǎng)絡(luò),探索與分析各節(jié)點(diǎn)、邊的重要程度,利用這些重要關(guān)系來(lái)進(jìn)行推薦。
圖:社會(huì)化網(wǎng)絡(luò)分析(來(lái)源:知乎“社會(huì)網(wǎng)絡(luò)分析”專欄)
上述這些主要的推薦算法,都源于貝葉斯理論。其主要解決的就是根據(jù)已發(fā)生的事實(shí)推斷關(guān)聯(lián)事件發(fā)生的概率。
而信息流算法核心推薦系統(tǒng)正是通過(guò)利用用戶的歷史行為數(shù)據(jù),分析用戶的興趣愛(ài)好并構(gòu)建相應(yīng)的用戶模型,從待推薦的項(xiàng)目中選擇與其興趣偏好相符的項(xiàng)目進(jìn)行推薦。例如,在一個(gè)極簡(jiǎn)化的模型中,已知一個(gè)喜歡李娜的用戶喜歡網(wǎng)球的概率為x,那么就可以得出喜歡網(wǎng)球的用戶喜歡李娜的概率y,藉此推薦內(nèi)容。這
種推斷的準(zhǔn)確性,就是信息流算法能夠達(dá)到的準(zhǔn)確性,其基礎(chǔ)框架就是貝葉斯理論。可以看出,不管是基于何種類型的推薦,在算法前的機(jī)器學(xué)習(xí)層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來(lái)。不管最終構(gòu)筑成多么龐大的體系,但它們開(kāi)始的基點(diǎn)卻是一樣的,這也使得算法推薦容易陷于“信息繭房”的怪圈。
“人人平等”造就信息流“創(chuàng)作繭房”
在業(yè)務(wù)層面,貝葉斯的特性也不可避免地造就了“創(chuàng)造繭房”現(xiàn)象。而打破“創(chuàng)造繭房”,就唯有跳出當(dāng)下的貝葉斯框架,靠的就是上文所言的內(nèi)容尊重,從“人人平等”變成“生而不平等”,最終也給出信息流算法技術(shù)演化的應(yīng)有方向。
1、概率統(tǒng)計(jì)基礎(chǔ)上的算法,都是“他評(píng)體系”
主流算法,就是通過(guò)推斷個(gè)體與個(gè)體之間的關(guān)系(方式可以有上文提到的多種),參考熱度等評(píng)價(jià)指標(biāo),從而有目的進(jìn)行推薦。例如,對(duì)一個(gè)喜歡李娜的用戶推薦澳網(wǎng)的資訊,在推薦時(shí)就已經(jīng)根據(jù)復(fù)雜的計(jì)算(基礎(chǔ)是貝葉斯)。由一個(gè)預(yù)期的點(diǎn)擊率、停留時(shí)間、點(diǎn)贊、評(píng)論情況計(jì)算,計(jì)算不達(dá)標(biāo)的,就不會(huì)推薦出去。
在今日頭條算法發(fā)布會(huì)上,曹歡歡在講到今日頭條的數(shù)據(jù)量時(shí),稱其有幾十億“向量特征”。所謂向量,指的是帶方向,例如喜歡李娜和喜歡網(wǎng)球是兩個(gè)“原始特征”,而“喜歡李娜→喜歡網(wǎng)球”才構(gòu)成一個(gè)向量特征(帶概率數(shù)據(jù))。
但事實(shí)上,向量不過(guò)就是從一個(gè)點(diǎn)到另一個(gè)點(diǎn),是點(diǎn)與點(diǎn)之間的數(shù)據(jù)關(guān)系,每一個(gè)內(nèi)容個(gè)體(一篇文章、一個(gè)短視頻等)都被當(dāng)作一個(gè)點(diǎn)存在。是否被推薦,是由各種外圍向量關(guān)系決定,是典型的“他評(píng)體系”(數(shù)學(xué)上,點(diǎn)已經(jīng)不可再分割)。
2、“人人平等”后,“創(chuàng)作繭房”成信息流頑疾根源
這意味著,內(nèi)容和內(nèi)容,在算法這里是“人人平等”的,一篇精心編撰的圖文與一個(gè)拼湊熱文會(huì)被一視同仁,都依據(jù)向量特征進(jìn)行推薦。但這也造成了內(nèi)容質(zhì)量的“參差不齊”。
可以說(shuō),在當(dāng)下的算法體系下,內(nèi)容個(gè)體真正缺乏的是“自我認(rèn)可”,高質(zhì)量?jī)?nèi)容源不被重視;算法更多地是“世俗評(píng)價(jià)”,算法為上,人人都在追求曝光量。
于是,在當(dāng)前算法模式下,創(chuàng)作導(dǎo)向被冰冷的統(tǒng)計(jì)學(xué)規(guī)則限制,越來(lái)越收斂到某些高推薦、高曝光、高點(diǎn)擊的范圍內(nèi)(褥羊毛有意為之,或者被環(huán)境脅迫),最終形成“創(chuàng)作繭房”。
算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象,更深層次看,則引發(fā)了內(nèi)容生產(chǎn)者的“創(chuàng)作繭房”問(wèn)題。
誠(chéng)然,他評(píng)體系確實(shí)對(duì)增強(qiáng)推薦內(nèi)容與用戶的匹配有重要意義,提升準(zhǔn)確性仍然是算法的重要任務(wù),但解決“創(chuàng)作繭房”問(wèn)題,不再把內(nèi)容個(gè)體當(dāng)做一個(gè)不能分割的點(diǎn),而把算法擴(kuò)展到內(nèi)容的內(nèi)部,尊重每一個(gè)內(nèi)容,會(huì)是下一階段信息流技術(shù)突破的重點(diǎn)。
本文由 @智能相對(duì)論(微信公眾號(hào):智能相對(duì)論) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Pexels,基于 CC0 協(xié)議
寫(xiě)的真好,謝謝分享