比對(duì)象還懂你!推薦算法為啥這么準(zhǔn)?
信息過度和廣告過多的社會(huì)中,推薦算法的使用也就顯得理所當(dāng)然,但是它是如何做到了解用戶的呢?本文從用戶畫像的定義和設(shè)計(jì)出發(fā),結(jié)合實(shí)際案例,深入淺出地闡述了基于用戶畫像的推薦算法及其產(chǎn)品設(shè)計(jì)。
為了方便讀者更好的理解本文,筆者將以今日頭條(建議在手機(jī)上下好“今日頭條”APP,且最好注冊一個(gè)頭條號(hào)并登錄到后臺(tái))這款產(chǎn)品為例輸出一些內(nèi)容推薦(分發(fā))相關(guān)的“干貨”。
何為推薦?簡言之:“物以類聚,人以群分”,那何為物,何為人呢?答:物為內(nèi)容(文章/圖文/視頻等),人為用戶(刷今日頭條的用戶);那么機(jī)器怎么知道內(nèi)容和人屬于什么類別(斷物識(shí)人)呢?再答:“內(nèi)容畫像”和“用戶畫像”的構(gòu)建,而推薦的過程其實(shí)就是完成用戶和內(nèi)容的匹配。那么什么是“內(nèi)容畫像”和“用戶畫像”呢?機(jī)器是如何對(duì)兩者進(jìn)行精準(zhǔn)構(gòu)建和匹配呢?
一、內(nèi)容畫像
內(nèi)容畫像,簡單來說就是內(nèi)容的特點(diǎn)。如果具象化內(nèi)容,筆者更傾向于假設(shè)是一個(gè)內(nèi)容漏斗(類似于倒三角形用戶漏斗,不過所示關(guān)系不一定為層級(jí)關(guān)系,見圖1)。第一層通常表示內(nèi)容的一個(gè)垂直領(lǐng)域(大類別)而后面幾層可以大致表示為標(biāo)簽/關(guān)鍵詞/主題詞等小類別。
▲ 圖1:用戶漏斗
1. 垂直領(lǐng)域
劃分方式:機(jī)器標(biāo)注(NLP技術(shù)),人工手打,PUGC創(chuàng)作者選擇(已不需要)。
考慮到內(nèi)容漏斗有很多層,為了便于理解,筆者簡單說一下用戶可以直觀看到的幾層。最顯眼的可能就是第一層了,在頭條(指今日頭條)內(nèi)部通常指的就是垂類(垂直領(lǐng)域),如:科技、娛樂、體育等。舉個(gè)栗子,筆者之前發(fā)布的一篇vivo NEX的軟廣,被機(jī)器識(shí)別成了“科技”領(lǐng)域的文章。那這個(gè)內(nèi)容第一層就是科技。
垂類的劃分方式通常為機(jī)器標(biāo)注(涉及NLP技術(shù):文本分類、命名實(shí)體識(shí)別等)、人工手打(傳說中“打tag”的一種主要形式),或PUGC創(chuàng)作者(統(tǒng)稱:頭條號(hào))在發(fā)布內(nèi)容時(shí)進(jìn)行領(lǐng)域選擇(如圖3),不過,現(xiàn)在發(fā)布內(nèi)容已不需要進(jìn)行選擇。
▲ 圖2:筆者頭條號(hào)“不二科技君”標(biāo)題截圖
▲ 圖3:來源百度圖片,早期頭條號(hào)發(fā)布內(nèi)容時(shí)需選領(lǐng)域
2. 細(xì)分tag
劃分方式:機(jī)器標(biāo)注(NLP技術(shù))
顯然,光知道內(nèi)容的大類并不能給用戶精準(zhǔn)的推薦感興趣的內(nèi)容。那就需要第二層內(nèi)容漏斗了,這里要講的其實(shí)也是一種打tag的形式(涉及NLP技術(shù):文本主題/關(guān)鍵詞抽?。皇瞧脚_(tái)根據(jù)用戶的喜好對(duì)內(nèi)容做更進(jìn)一步的更細(xì)化了。還是上面舉例的這篇vivo NEX雙屏版文章,對(duì)應(yīng)的一些細(xì)分tag就有vivo、手機(jī)、科技等。「不過“一起皮一下才開心”是什么鬼?」
▲ 圖4:上述舉例文末對(duì)應(yīng)的細(xì)分tag
當(dāng)然,這個(gè)內(nèi)容漏斗遠(yuǎn)不止這兩層,細(xì)分其實(shí)有很多種,比如接著上文舉例的文章來說,漏斗可能是這樣的:科技->手機(jī)->Android->vivo->vivo旗艦機(jī)->vivo NEX->vivo NEX雙屏版。而細(xì)分得越精細(xì),內(nèi)容畫像也就越清晰,推薦才越精準(zhǔn),當(dāng)然,技術(shù)難度也是同樣提高的。
像頭條比較強(qiáng)悍的競品之一“一點(diǎn)資訊”,就號(hào)稱有365萬個(gè)個(gè)性化訂閱頻道,可想后面支撐的一個(gè)推薦算法團(tuán)隊(duì)是有多強(qiáng)。當(dāng)然,除了內(nèi)容的特點(diǎn)之外,內(nèi)容畫像還包含內(nèi)容的質(zhì)量、熱度、原創(chuàng)度、所發(fā)布用戶的權(quán)重等。而這個(gè)權(quán)重指的就是頭條對(duì)頭條號(hào)所發(fā)布文章的推薦權(quán)重(更多的是內(nèi)容冷啟動(dòng)推薦數(shù)量,以及后續(xù)推薦的加成幅度),如圖5可見頭條對(duì)筆者這篇“軟廣”的推薦量,也可以側(cè)面看出頭條對(duì)于軟文的打壓力度。
▲ 圖5:上文舉例文章的后臺(tái)數(shù)據(jù),推薦數(shù)為5228
那推薦權(quán)重由什么來決定呢?其中一項(xiàng)就是頭條號(hào)指數(shù)。頭條號(hào)指數(shù)是之前平臺(tái)為了讓做作者們過新手/評(píng)原創(chuàng)而提出的一個(gè)量化指標(biāo)(如圖6),而這個(gè)頭條號(hào)指數(shù)其實(shí)可以理解為平臺(tái)對(duì)于頭條號(hào)的一個(gè)打分,決定了頭條號(hào)所發(fā)布內(nèi)容的推薦權(quán)重。而頭條號(hào)指數(shù)的評(píng)定標(biāo)準(zhǔn)有5大方面(如圖7):原創(chuàng)度、垂直度、關(guān)注度、健康度、傳播度。
不過,現(xiàn)在頭條號(hào)Web端后臺(tái)已經(jīng)看不到了,不過手機(jī)端還可以看到。除了內(nèi)容的特點(diǎn)之外,內(nèi)容畫像還包含內(nèi)容的質(zhì)量、熱度、原創(chuàng)度、所發(fā)布用戶的權(quán)重等。
▲ 圖6: 2017年6月26日筆者頭條號(hào)后臺(tái)
▲ 圖7:來源百度圖片,頭條號(hào)指數(shù)的五大影響因素
二、什么是用戶畫像?
什么是用戶畫像呢?簡而言之就是你(顯式&隱式)的基本特征(比如:性別、學(xué)歷、年齡、常駐位置等)和興趣愛好(籃球迷、數(shù)碼控、動(dòng)漫迷等)所構(gòu)建出來的一個(gè)“屬性圖”(技術(shù)通常稱為“知識(shí)圖譜”)。舉個(gè)栗子,我們通常被機(jī)器標(biāo)注成一個(gè)數(shù)據(jù)組合(如圖8):科技|20%、體育|10%、娛樂|30、養(yǎng)生|5%……..
▲ 圖8:用戶畫像實(shí)例,來源《內(nèi)容算法》
三、機(jī)器如何構(gòu)建用戶畫像
那么問題來了,機(jī)器如何知道一個(gè)用戶的畫像呢?首先,用戶分為新用戶和老用戶兩類。針對(duì)前者就涉及到了用戶畫像構(gòu)建的一個(gè)常見且難點(diǎn)(策略產(chǎn)品面試問題)——(用戶)冷啟動(dòng),通常面試官會(huì)問你,如何做用戶冷啟動(dòng)?那么筆者告訴大家一些常見的答案。
首先,新用戶打開APP會(huì)讓選擇喜歡的領(lǐng)域。其二,絕對(duì)的冷啟動(dòng)并不存在,用戶在其他APP的行為其實(shí)也會(huì)被監(jiān)督到。比如你在淘寶看球鞋,打開頭條刷新聞就能刷到你剛看的那款球鞋的廣告,也就是說在你打開淘寶APP那一刻,你的一個(gè)比較明顯的屬性·體育|籃球已經(jīng)被獲取了。
其三,機(jī)器通常會(huì)給你推薦當(dāng)前熱點(diǎn)內(nèi)容「比如科技領(lǐng)域|iPhone發(fā)布新品,娛樂領(lǐng)域|汪峰上頭條等」,通過你在這些內(nèi)容下的用戶行為(點(diǎn)擊,點(diǎn)贊,轉(zhuǎn)發(fā),跳出,停留時(shí)長等),機(jī)器會(huì)對(duì)屏幕前面的你有一個(gè)“初印象”。通過你在不同領(lǐng)域內(nèi)容的用戶行為,判斷你對(duì)內(nèi)容的興趣度,從而構(gòu)建你的一個(gè)初步用戶畫像(這是當(dāng)前常用的一種用戶冷啟動(dòng)方式)。
比如:打開頭條,給你冷啟動(dòng)推送了12條內(nèi)容(3條NBA+3條娛樂+3條科技+3條美食),然后你點(diǎn)擊了3條體育,2條數(shù)碼,1條娛樂……那么,最開始的用戶畫像(V1.0)可能為體育|30%,數(shù)碼領(lǐng)域|20%,娛樂領(lǐng)域|10%,其他領(lǐng)域|20%,目測是一名男性,愛好運(yùn)動(dòng),科技宅等。然后,還發(fā)現(xiàn)里面2條體育內(nèi)容都是和科比有關(guān)的,那么你大概率是個(gè)男性科密數(shù)碼控。
后來,你變成了老用戶,隨著你使用頭條的次數(shù)越多,你產(chǎn)生的用戶行為數(shù)據(jù)越多,背后的模型就會(huì)被訓(xùn)練的越“聰明”。隨著你“刷”的越多,你的用戶畫像也會(huì)隨之發(fā)生不斷的變化,變得越來越細(xì)化,越精準(zhǔn)。
四、如何推薦?
最后,關(guān)于機(jī)器在用戶畫像和內(nèi)容畫像精準(zhǔn)構(gòu)建出來之后,如何做推薦呢?事實(shí)上,這其實(shí)就是一個(gè)匹配(match)的操作。當(dāng)然,簡單說匹配筆者認(rèn)為還是不夠恰當(dāng),因?yàn)槌擞脩舢嬒窈蛢?nèi)容畫像(相關(guān)性特征)之外,機(jī)器在訓(xùn)練模型時(shí)還會(huì)考慮熱度特征(全局熱度、分類熱度等)、協(xié)同特征(相似用戶、興趣分類用戶等)、環(huán)境特征(時(shí)間、地理位置等),詳見圖9。
▲ 圖9:來源文章“今日頭條算法原理(全)”
那么,機(jī)器學(xué)習(xí)到了這些如圖9的這些特征之后,推薦模型就會(huì)被不斷的更新(準(zhǔn)確的說是模型的參數(shù)在發(fā)生更新,如:神經(jīng)網(wǎng)絡(luò)在做后向傳播時(shí)會(huì)在每一次迭代時(shí)發(fā)生相關(guān)權(quán)重參數(shù)的變化),最后機(jī)器呈現(xiàn)給不同用戶的內(nèi)容也會(huì)因?yàn)檫@些特征的不同而不一樣,甚至同類型的用戶,也就是所謂的“千人千面”(最早用在電商平臺(tái))。
而作為內(nèi)容消費(fèi)”平臺(tái),這里主要指的是內(nèi)容分發(fā)。那么如何讓內(nèi)容分發(fā)變得更加精準(zhǔn)呢?這里不得不提這兩個(gè)名詞,即:召回和排序。這里難講,簡言之,召回比較依賴于內(nèi)容和用戶的標(biāo)簽匹配度,而排序則涉及到一個(gè)用戶興趣傾向性,或者是一個(gè)更加細(xì)粒度的匹配問題上,因?yàn)橐WC合適的內(nèi)容放在合適的位置,比如筆者是一個(gè)數(shù)碼控,那如果推送12篇內(nèi)容給我,我更傾向于第一篇是關(guān)于數(shù)碼的而不是娛樂的。
而排序也往往能夠反映出推薦策略的優(yōu)秀程度,因?yàn)橹挥凶層脩糇羁斓挠|達(dá)你感興趣的內(nèi)容才會(huì)產(chǎn)生更多的留存,才會(huì)激活,才能進(jìn)行轉(zhuǎn)化(才能更便于平臺(tái)推送廣告等商業(yè)化操作)。當(dāng)然,AI時(shí)代,決定模型表現(xiàn),或者說我們這里的推薦系統(tǒng)(也可以理解為是一種機(jī)器學(xué)習(xí)模型)的表現(xiàn),除了算法本身,還有算力(指的是計(jì)算機(jī)運(yùn)算能力,這方面頭條和競品無法拉開差距,因?yàn)檫@是錢能夠解決的問題),還有另外一個(gè)關(guān)鍵項(xiàng)就是數(shù)據(jù)(高質(zhì)量的數(shù)據(jù))。
關(guān)于數(shù)據(jù)的重要性,讓我想到了帶我做科研的一位博士師兄(目前在Amazon做推薦)說過的一句話:“Garbage in, Garbage out”,而這句話更適用于AI+產(chǎn)品落地上。簡言之,數(shù)據(jù)對(duì)于推薦結(jié)果(或者說內(nèi)容分發(fā))的好壞起著十分根本性的作用。
說到這,請(qǐng)大家跟著筆者思考一個(gè)問題,頭條DAU(日活)據(jù)說2.4億+,而每個(gè)用戶日均使用時(shí)長70min+,假設(shè)用戶閱讀一篇內(nèi)容(文章/視頻)的平均時(shí)間是2min,那么用戶閱讀內(nèi)容數(shù)據(jù)得有2.4億*70/2 = 84億+(條)!所以,回到最開始的問題,為啥說頭條推薦如此牛逼呢?那是因?yàn)橥扑]算法的3個(gè)核心壁壘,頭條都屬于業(yè)內(nèi)前列(甚至可以稱得上是國內(nèi)NO.1)。
One More Thing
看完筆者“粗鄙”的輸出,大家對(duì)推薦策略有沒有想深入的興趣呢?如果有想了解的沖動(dòng),甚至想定位做策略產(chǎn)品經(jīng)理的話,那么后面的一些話遠(yuǎn)比之前的長篇大論更加實(shí)在。
私認(rèn)為(內(nèi)容推薦)策略產(chǎn)品經(jīng)理入門之前,一定的推薦算法“技術(shù)”輸入是必須的。而一個(gè)較好且體系的學(xué)習(xí)方式就是“閱讀+思考+實(shí)戰(zhàn)三位一體”「摘自@劉飛老師很久之前在群里說的的一段話」。所以,這里的“One More Thing”是指筆者希望帶(和)大家一起做一些實(shí)際的,有意義的輸入,從根本上去尋找打開推薦策略這一黑匣的鑰匙。
關(guān)于“閱讀”,大家可以移步至我的微信公眾號(hào),之前寫的一個(gè)“策略產(chǎn)品入門”的一篇文章獲取一下推薦書籍資源。那么,大家比較關(guān)心的“實(shí)踐”部分該如何去做呢?這里要賣個(gè)關(guān)子,相信你看完《內(nèi)容算法》這本書就會(huì)有答案了,因?yàn)楣P者覺得本書的后半部分其實(shí)就是澤華老師在教大家如何去做實(shí)踐。
以上,皆為筆者粗鄙之見,所講內(nèi)容只是今日頭條推薦算法里的極少部分,背后的Model和Data十分龐大與強(qiáng)大,紕漏難免,還望諒解并給予批評(píng)指正。另外,筆者認(rèn)為機(jī)器(計(jì)算機(jī))再厲害,也是人類所“賦予”的,機(jī)器越來越聰明的背后反映的應(yīng)該是人(如:推薦算法團(tuán)隊(duì)| Modeling & Data processing)在不斷的進(jìn)化變強(qiáng)!
在此,作為南開人,忍不住向今日頭條創(chuàng)始人@張一鳴師兄致敬,向您帶領(lǐng)的優(yōu)秀團(tuán)隊(duì)表示崇高的敬意!
參考文獻(xiàn):
- 閆澤華|《內(nèi)容算法》
- 今日頭條·曹歡歡博士 | 今日頭條算法原理(全)
- 3Dietmar Jannach等著,蔣凡譯 | 《推薦系統(tǒng) [ Recommender systems:An introduction]》
- 項(xiàng)亮 | 《推薦系統(tǒng)實(shí)踐》——策略產(chǎn)品小白 | 南開NLP碩士·熊慧超 2018.12.27
作者:產(chǎn)品TED;公眾號(hào):產(chǎn)品TED
本文由 @產(chǎn)品TED 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!