欧美一区二区人人喊爽,亚洲亚洲人成网站,一本大道无码人妻精品专区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

從技術(shù)之戰(zhàn)開(kāi)始，信息流大戰(zhàn)的賽點(diǎn)發(fā)生輕微的變化

智能相對(duì)論

2018-04-04

2 評(píng)論 2620 瀏覽 17 收藏

18 分鐘

算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象，更深層次看，則引發(fā)了內(nèi)容生產(chǎn)者的“創(chuàng)作繭房”問(wèn)題。

半個(gè)月前還沉浸在“抖音”高速增長(zhǎng)的喜悅中的今日頭條，最近卻有點(diǎn)焦頭爛額。央視、人民日?qǐng)?bào)、第一財(cái)經(jīng)周刊等央媒和核心財(cái)經(jīng)媒體，在上周對(duì)今日頭條及旗下的抖音產(chǎn)品進(jìn)行了一輪違規(guī)發(fā)布廣告的曝光以及價(jià)值觀的批判。

在相關(guān)的許多報(bào)道中，媒體都或明或暗的強(qiáng)調(diào)了一點(diǎn)：信息流推薦技術(shù)本身早已被國(guó)內(nèi)外論證了是一個(gè)成功的移動(dòng)互聯(lián)網(wǎng)產(chǎn)品，但之所以出現(xiàn)劣幣驅(qū)逐良幣的問(wèn)題還是因?yàn)槭褂眠@個(gè)技術(shù)的企業(yè)出了問(wèn)題。

也正因此，不少媒體在引述相關(guān)報(bào)道的時(shí)候都會(huì)強(qiáng)調(diào)，去年初，今日頭條創(chuàng)始人張一鳴在接受《財(cái)經(jīng)》雜志專訪時(shí)提出的，不認(rèn)為今日頭條應(yīng)該有價(jià)值觀這一論調(diào)。

這在一定程度道出了今日頭條的核心問(wèn)題，但事實(shí)上更為關(guān)鍵的是，如今這個(gè)階段的基于人工智能算法的內(nèi)容之戰(zhàn)，已不僅僅是打破“信息繭房”這么簡(jiǎn)單。從技術(shù)之戰(zhàn)開(kāi)始，這場(chǎng)信息流大戰(zhàn)的賽點(diǎn)，已發(fā)生了輕微的變化。

一、推薦準(zhǔn)確性的PK，仍將決定于數(shù)據(jù)而非算法的技巧

對(duì)信息流來(lái)說(shuō)，算法準(zhǔn)確性是競(jìng)爭(zhēng)重點(diǎn)，但真正的決勝點(diǎn)，卻是數(shù)據(jù)。

1、數(shù)據(jù)熱啟動(dòng)是百度實(shí)現(xiàn)奇襲的根源

首先需要明確一個(gè)理論，推薦算法的準(zhǔn)確性并不是被計(jì)算出來(lái)的，而是被統(tǒng)計(jì)出來(lái)的（這一點(diǎn)在后文底層技術(shù)分析會(huì)詳細(xì)說(shuō)明），這意味著數(shù)據(jù)量越大、越相關(guān)，越能得出準(zhǔn)確的推薦效果。

而且，由于復(fù)雜網(wǎng)絡(luò)向量關(guān)系的存在，一個(gè)向量特征的準(zhǔn)確性影響是呈幾何擴(kuò)散的，數(shù)據(jù)對(duì)推薦準(zhǔn)確性的影響是非線性增長(zhǎng)的關(guān)系。在足夠多的數(shù)據(jù)量情況下，會(huì)快速提升，直到準(zhǔn)確率接近100%開(kāi)始變緩（畢竟100%準(zhǔn)確十分困難，越接近越難）如圖：

信息流戰(zhàn)爭(zhēng)的新賽點(diǎn)1.png

也就是說(shuō)，在算法準(zhǔn)確性這里，數(shù)據(jù)熱啟動(dòng)的價(jià)值將變得更為重要，足夠豐富的數(shù)據(jù)，一旦介入信息流推薦算法，就可以馬上實(shí)現(xiàn)高的準(zhǔn)確率，追趕間距很窄。

以百度為例，其老本行搜索業(yè)務(wù)與內(nèi)容直接相關(guān)，在內(nèi)容大數(shù)據(jù)方面有直接優(yōu)勢(shì)，官方對(duì)外宣稱整合了千億特征、百億樣本的數(shù)據(jù)體系，構(gòu)建了囊括大到科文史哲，小到一個(gè)冷僻的小游戲的特征數(shù)據(jù)。這為其數(shù)據(jù)熱啟動(dòng)做好了充分的準(zhǔn)備，而且，主動(dòng)搜索表達(dá)出的用戶向量特征，比通過(guò)被動(dòng)點(diǎn)擊總結(jié)的向量特征可能更為準(zhǔn)確有效。從這樣的技術(shù)角度看，百度信息流可以只用一年時(shí)間完成其他公司三五年才達(dá)成的目標(biāo)，在較短的時(shí)間內(nèi)“杠住”今日頭條并不意外。

2、只有足夠大的試驗(yàn)平臺(tái)才能讓準(zhǔn)確率“朝上走”

另一個(gè)算法準(zhǔn)確性的問(wèn)題是推薦試算的問(wèn)題，即通過(guò)推薦的實(shí)踐來(lái)反饋當(dāng)前算法的準(zhǔn)確性，從而實(shí)現(xiàn)所謂的模型迭代。

例如，平臺(tái)通過(guò)各種方式得出某類用戶可能喜歡李娜，但推送李娜比賽新聞后效果很差（點(diǎn)擊、停留等指標(biāo)低），就證明這個(gè)推斷可能是不準(zhǔn)確的，需要返回調(diào)整。這樣的反復(fù)試驗(yàn)?zāi)軌蜃屚扑]逐漸接近真相。

而這些，說(shuō)來(lái)說(shuō)去都是硬實(shí)力的比拼，比的是誰(shuí)的平臺(tái)大、空間足夠廣闊，這會(huì)讓UC這樣早期沒(méi)跟上的信息流平臺(tái)越來(lái)越落后（如果試驗(yàn)環(huán)境不夠充分，下一次迭代的準(zhǔn)確性未必比這次好，準(zhǔn)確率呈現(xiàn)反復(fù)波動(dòng)而非一致提升），而百度這樣本來(lái)就憑借搜索頁(yè)面占據(jù)用戶眼球的平臺(tái)“廟大好念經(jīng)”。

也即，算法準(zhǔn)確性可能不是什么奇巧淫技，比來(lái)比去還是看誰(shuí)的膀子粗。

二、技術(shù)下一程，要從冰冷的統(tǒng)計(jì)學(xué)走向有溫度的內(nèi)容尊重

上文準(zhǔn)確性所行之事，從宏觀層面都是統(tǒng)計(jì)學(xué)的“花招”。而信息流的下半場(chǎng)競(jìng)爭(zhēng)，則將更具有尊重內(nèi)容本身的人文色彩。也即從“量”的上半場(chǎng)進(jìn)入“質(zhì)”的下半場(chǎng)。

1、算法不帶價(jià)值觀，但產(chǎn)品要有溫度

張一鳴“算法不帶價(jià)值觀”被廣為詬病，但從上文的技術(shù)推導(dǎo)本身而言，算法可能真的沒(méi)有價(jià)值觀，這些冰冷的統(tǒng)計(jì)學(xué)數(shù)據(jù)不關(guān)注也不可能關(guān)注到內(nèi)容本身。

但同樣是推薦系統(tǒng)，網(wǎng)易云音樂(lè)在QQ音樂(lè)、蝦米音樂(lè)等一眾軟件中獨(dú)樹(shù)一幟，被廣為贊譽(yù)。好聽(tīng)的冷門歌曲、年少時(shí)聽(tīng)過(guò)的磁帶、收音機(jī)播過(guò)的音樂(lè)，在恰當(dāng)?shù)臅r(shí)機(jī)跳上來(lái)給予用戶驚喜?！坝袦囟取钡漠a(chǎn)品收獲用戶粘性是一種必然，有溫度的產(chǎn)品也一定是企業(yè)長(zhǎng)久發(fā)展的必要。

同樣是內(nèi)容產(chǎn)業(yè)，信息流莫不如是。

2、“人人平等”要變成“生而不平等”

這里的轉(zhuǎn)化有雙重含義，首先是推薦機(jī)制不再只局限于“博眼球”的統(tǒng)計(jì)學(xué)需求指標(biāo)，從而丟掉了優(yōu)質(zhì)內(nèi)容。其次是打擊套路寫(xiě)作，讓上百萬(wàn)的內(nèi)容創(chuàng)作者們實(shí)現(xiàn)真正的創(chuàng)作豐富化，而不是束縛于推薦機(jī)制的繭房中。

想要實(shí)現(xiàn)這種轉(zhuǎn)化，完全寄希望于人工不太現(xiàn)實(shí)（雖然百度這些平臺(tái)都在強(qiáng)調(diào)自己的人工投入），最終還是要通過(guò)技術(shù)本身去甄別內(nèi)容，打入內(nèi)容的“內(nèi)部”，自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂(lè)、甚至什么是好人（內(nèi)容源）。

今日頭條在公開(kāi)算法末尾就如何判斷內(nèi)容好壞做了一個(gè)章節(jié)，但該章節(jié)并沒(méi)有太多驕傲的“技術(shù)”宣揚(yáng)，說(shuō)明它仍在發(fā)力被社會(huì)期許的“好內(nèi)容”。因此，如果說(shuō)百度或者其他信息流平臺(tái)下一階段要徹底超越今日頭條，“好內(nèi)容”將是最合適、最必要的角力點(diǎn)。

百度發(fā)力“人工智能皇冠上的明珠”NLP（自然語(yǔ)言處理）或許就是在走這條路。雖然同時(shí)強(qiáng)調(diào)自己的AI技術(shù)，但百度作為綜合性科技公司相對(duì)頭條，在AI的寬度、深度上公認(rèn)更有優(yōu)勢(shì)，在利用自然語(yǔ)言處理技術(shù)，對(duì)內(nèi)容的質(zhì)量、新穎度、情感傾向等進(jìn)行深度理解和挖掘方面，較今日頭條可能更有先機(jī)。

百度先于今日頭條搞出的“創(chuàng)作大腦”，表面上是為了更好地留住作者，而深層次可能更在于百度想在理解、區(qū)分內(nèi)容好壞方面更先一步。畢竟，AI輔助寫(xiě)作首先需要的就是對(duì)知識(shí)、對(duì)圖像的理解，將是錘煉內(nèi)容識(shí)別技術(shù)的恰當(dāng)機(jī)會(huì)。

無(wú)論如何，信息流的技術(shù)競(jìng)爭(zhēng)一定要回到尊重作者、尊重內(nèi)容的“供給側(cè)競(jìng)爭(zhēng)”（相對(duì)于只關(guān)心用戶需求的需求側(cè)競(jìng)爭(zhēng)，它本質(zhì)上文提及的統(tǒng)計(jì)指標(biāo)集合）上來(lái)，讓每一個(gè)內(nèi)容個(gè)體“生而不平等”，由他評(píng)走向自我價(jià)值認(rèn)同。

如果”澳網(wǎng)出線局勢(shì)深度分析”與“李娜3歲時(shí)干的事你絕對(duì)不知道”這樣的文章不再被同等對(duì)待，最終所謂“信息繭房”等表面問(wèn)題也將迎刃而解。

而這方面，雖然百度已經(jīng)占得先機(jī)，但頭條、天天快報(bào)甚至手握公認(rèn)優(yōu)質(zhì)內(nèi)容的微信入局，必將引致一場(chǎng)新的技術(shù)惡戰(zhàn)。

三、算法流派眾多，但一切歸于貝葉斯

基于前文，我們能發(fā)現(xiàn)，在信息流推薦中，數(shù)據(jù)仍然是決勝點(diǎn)，而信息流也必然要更加尊重內(nèi)容。而從底層技術(shù)角度，當(dāng)我們回到算法的起源，也同樣可以印證這些。

以目前主流的算法為例歸類分析：基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于社會(huì)化網(wǎng)絡(luò)分析的推薦等，用通俗的語(yǔ)言即可解釋。

1、基于內(nèi)容的推薦算法

即用戶喜歡什么東西，推薦一些相似的東西。該推薦算法簡(jiǎn)單有效，推薦結(jié)果符合人們的認(rèn)知；無(wú)須用戶的歷史評(píng)分信息。但是，該算法必須知道內(nèi)容的特征，界定“什么才是相似”，比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息，則推薦效果較差、結(jié)果較單一。

2、協(xié)同過(guò)濾技術(shù)

即把興趣差不多的用戶群體歸類，然后給他們推薦相同偏好的內(nèi)容。它通過(guò)協(xié)作的方式分析用戶之間的喜好，避免特征提取不完全的情況。但存在冷啟動(dòng)問(wèn)題，無(wú)法準(zhǔn)確對(duì)新用戶進(jìn)行推薦，存在數(shù)據(jù)稀疏性問(wèn)題。有從用戶出發(fā)和從內(nèi)容出發(fā)兩種協(xié)同，如圖所示：

信息流戰(zhàn)爭(zhēng)的新賽點(diǎn)2.png

圖：從用戶出發(fā)和從內(nèi)容出發(fā)的協(xié)同過(guò)濾推薦（來(lái)源：CSDN“數(shù)據(jù)挖掘工人”博客）

3、關(guān)聯(lián)規(guī)則推薦

即通過(guò)某些技術(shù)挖掘大數(shù)據(jù)，建立內(nèi)容之間的關(guān)聯(lián)規(guī)則，起初用在實(shí)體零售，比如經(jīng)典案例尿不濕與啤酒的搭售。在信息流領(lǐng)域中，主要是用統(tǒng)計(jì)學(xué)的方式發(fā)掘那些表面上看不出關(guān)聯(lián)的內(nèi)容與內(nèi)容之間的某些相關(guān)性，及相關(guān)程度。

4、社會(huì)化網(wǎng)絡(luò)分析

即身邊的人喜歡什么，就給該用戶推薦類似的內(nèi)容。例如親戚、朋友、同學(xué)等雙邊關(guān)系，微博關(guān)注、微信公眾號(hào)訂閱等單邊關(guān)系，織就一個(gè)由用戶組成的節(jié)點(diǎn)網(wǎng)絡(luò)，探索與分析各節(jié)點(diǎn)、邊的重要程度，利用這些重要關(guān)系來(lái)進(jìn)行推薦。

信息流戰(zhàn)爭(zhēng)的新賽點(diǎn)3.jpg

圖：社會(huì)化網(wǎng)絡(luò)分析（來(lái)源：知乎“社會(huì)網(wǎng)絡(luò)分析”專欄）

上述這些主要的推薦算法，都源于貝葉斯理論。其主要解決的就是根據(jù)已發(fā)生的事實(shí)推斷關(guān)聯(lián)事件發(fā)生的概率。

而信息流算法核心推薦系統(tǒng)正是通過(guò)利用用戶的歷史行為數(shù)據(jù)，分析用戶的興趣愛(ài)好并構(gòu)建相應(yīng)的用戶模型，從待推薦的項(xiàng)目中選擇與其興趣偏好相符的項(xiàng)目進(jìn)行推薦。例如，在一個(gè)極簡(jiǎn)化的模型中，已知一個(gè)喜歡李娜的用戶喜歡網(wǎng)球的概率為x，那么就可以得出喜歡網(wǎng)球的用戶喜歡李娜的概率y，藉此推薦內(nèi)容。這

種推斷的準(zhǔn)確性，就是信息流算法能夠達(dá)到的準(zhǔn)確性，其基礎(chǔ)框架就是貝葉斯理論。可以看出，不管是基于何種類型的推薦，在算法前的機(jī)器學(xué)習(xí)層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來(lái)。不管最終構(gòu)筑成多么龐大的體系，但它們開(kāi)始的基點(diǎn)卻是一樣的，這也使得算法推薦容易陷于“信息繭房”的怪圈。

“人人平等”造就信息流“創(chuàng)作繭房”

在業(yè)務(wù)層面，貝葉斯的特性也不可避免地造就了“創(chuàng)造繭房”現(xiàn)象。而打破“創(chuàng)造繭房”，就唯有跳出當(dāng)下的貝葉斯框架，靠的就是上文所言的內(nèi)容尊重，從“人人平等”變成“生而不平等”，最終也給出信息流算法技術(shù)演化的應(yīng)有方向。

1、概率統(tǒng)計(jì)基礎(chǔ)上的算法，都是“他評(píng)體系”

主流算法，就是通過(guò)推斷個(gè)體與個(gè)體之間的關(guān)系（方式可以有上文提到的多種），參考熱度等評(píng)價(jià)指標(biāo)，從而有目的進(jìn)行推薦。例如，對(duì)一個(gè)喜歡李娜的用戶推薦澳網(wǎng)的資訊，在推薦時(shí)就已經(jīng)根據(jù)復(fù)雜的計(jì)算（基礎(chǔ)是貝葉斯）。由一個(gè)預(yù)期的點(diǎn)擊率、停留時(shí)間、點(diǎn)贊、評(píng)論情況計(jì)算，計(jì)算不達(dá)標(biāo)的，就不會(huì)推薦出去。

在今日頭條算法發(fā)布會(huì)上，曹歡歡在講到今日頭條的數(shù)據(jù)量時(shí)，稱其有幾十億“向量特征”。所謂向量，指的是帶方向，例如喜歡李娜和喜歡網(wǎng)球是兩個(gè)“原始特征”，而“喜歡李娜→喜歡網(wǎng)球”才構(gòu)成一個(gè)向量特征（帶概率數(shù)據(jù)）。

但事實(shí)上，向量不過(guò)就是從一個(gè)點(diǎn)到另一個(gè)點(diǎn)，是點(diǎn)與點(diǎn)之間的數(shù)據(jù)關(guān)系，每一個(gè)內(nèi)容個(gè)體（一篇文章、一個(gè)短視頻等）都被當(dāng)作一個(gè)點(diǎn)存在。是否被推薦，是由各種外圍向量關(guān)系決定，是典型的“他評(píng)體系”（數(shù)學(xué)上，點(diǎn)已經(jīng)不可再分割）。

2、“人人平等”后，“創(chuàng)作繭房”成信息流頑疾根源

這意味著，內(nèi)容和內(nèi)容，在算法這里是“人人平等”的，一篇精心編撰的圖文與一個(gè)拼湊熱文會(huì)被一視同仁，都依據(jù)向量特征進(jìn)行推薦。但這也造成了內(nèi)容質(zhì)量的“參差不齊”。

可以說(shuō)，在當(dāng)下的算法體系下，內(nèi)容個(gè)體真正缺乏的是“自我認(rèn)可”，高質(zhì)量?jī)?nèi)容源不被重視；算法更多地是“世俗評(píng)價(jià)”，算法為上，人人都在追求曝光量。

于是，在當(dāng)前算法模式下，創(chuàng)作導(dǎo)向被冰冷的統(tǒng)計(jì)學(xué)規(guī)則限制，越來(lái)越收斂到某些高推薦、高曝光、高點(diǎn)擊的范圍內(nèi)（褥羊毛有意為之，或者被環(huán)境脅迫），最終形成“創(chuàng)作繭房”。

算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象，更深層次看，則引發(fā)了內(nèi)容生產(chǎn)者的“創(chuàng)作繭房”問(wèn)題。

誠(chéng)然，他評(píng)體系確實(shí)對(duì)增強(qiáng)推薦內(nèi)容與用戶的匹配有重要意義，提升準(zhǔn)確性仍然是算法的重要任務(wù)，但解決“創(chuàng)作繭房”問(wèn)題，不再把內(nèi)容個(gè)體當(dāng)做一個(gè)不能分割的點(diǎn)，而把算法擴(kuò)展到內(nèi)容的內(nèi)部，尊重每一個(gè)內(nèi)容，會(huì)是下一階段信息流技術(shù)突破的重點(diǎn)。

本文由 @智能相對(duì)論（微信公眾號(hào)：智能相對(duì)論）原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自 Pexels，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App