2張圖帶你看懂今日頭條推薦系統(tǒng)
推薦系統(tǒng)是一個(gè)策略行為,本文將用兩張圖,來帶你看懂今日頭條的推薦系統(tǒng)。
推薦系統(tǒng)的“前身”
2016年,騰訊以80億美元估值投資今日頭條,結(jié)果大家都知道,張一鳴拒絕了騰訊的投資,現(xiàn)在大家也知道,字節(jié)跳動(dòng)估值750億美元,這一切,推薦系統(tǒng)功不可沒。
因?yàn)樗阉饕婧屯扑]系統(tǒng)太相似,相對(duì)來說也更簡單(勿噴),所以我們先來了解一下搜索引擎。至于搜素引擎是不是推薦系統(tǒng)的前身,我很懶,沒有考察。
如上圖,搜索引擎分成為離線部分和在線部分,每一部分有不同的使命。
簡單來說,搜索引擎的離線部分,專注于內(nèi)容的搜集和處理。搜索引擎通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上的原始內(nèi)容,并將內(nèi)容建立索引。這些內(nèi)容會(huì)根據(jù)搜索系統(tǒng)的不同要求建立不同的索引體系,比如新聞?lì)愋偷膬?nèi)容,會(huì)建立時(shí)效性的索引數(shù)據(jù)。
搜索引擎的在線部分,負(fù)責(zé)響應(yīng)用戶的搜索請(qǐng)求,完成內(nèi)容的篩選和排序,并將最終結(jié)果返回給用戶。我們舉一個(gè)例子來說明這個(gè)流程:
- 用戶在搜索引擎輸入一個(gè)關(guān)鍵詞NBA,搜索引擎搜索會(huì)對(duì)關(guān)鍵詞進(jìn)行分析、變換、擴(kuò)充和糾錯(cuò)等處理,比如發(fā)現(xiàn)美職籃與NBA是同義詞,就會(huì)將其擴(kuò)充。
- 接下來,搜索引擎會(huì)通過多種方式從不同索引數(shù)據(jù)獲得候選集,這個(gè)環(huán)節(jié)叫召回。
- 得到候選集后,搜索引擎通過更精細(xì)的計(jì)算模型對(duì)每一篇候選內(nèi)容進(jìn)行分值計(jì)算,對(duì)候選集的每一項(xiàng)進(jìn)行排序。
- 這個(gè)時(shí)候,還不能將結(jié)果展示給用戶,需要經(jīng)過規(guī)則干預(yù)這一過程。這個(gè)過程服務(wù)于特定的產(chǎn)品目的。假如有這樣一條“官方網(wǎng)站保護(hù)規(guī)則,確保所有品牌搜索詞都可以優(yōu)先返回官網(wǎng)”,則此時(shí)就會(huì)將官網(wǎng)插入并置頂,最后再將結(jié)果展示給用戶。
- 此時(shí),搜索引擎的工作還未結(jié)束。搜索引擎會(huì)根據(jù)用戶的點(diǎn)擊反饋去優(yōu)化排序模型。比如,大部分用戶都沒有點(diǎn)擊文章10,則文章10后續(xù)就不會(huì)獲得更靠前的展現(xiàn)位置。
對(duì)以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第一張圖:
今日頭條的推薦系統(tǒng)
通過上“一”張圖,我們明白了搜索引擎的原理(無論怎樣我都會(huì)裝作你看懂了),而今日頭條的這張圖,就是比上圖上多了一筆,考慮到這兩張圖高度相似,我這么懶的人,當(dāng)然是不會(huì)去畫的了,你們發(fā)揮想象吧。
其實(shí),推薦系統(tǒng)也有離線部分和在線部分。上圖(那不是圖,是PNG)即是推薦系統(tǒng)的離線部分,與搜索引擎大同小異。
- 和搜索引擎一樣,推薦系統(tǒng)也需要獲取內(nèi)容。推薦系統(tǒng)通過數(shù)據(jù)庫導(dǎo)入、協(xié)議同步和用戶提交等方式獲取推薦內(nèi)容。區(qū)別于搜索引擎,推薦系統(tǒng)獲取內(nèi)容的方式較多,且內(nèi)容的結(jié)構(gòu)化程度要遠(yuǎn)勝于搜索引擎爬蟲抓取的內(nèi)容。
- 推薦系統(tǒng)也需要將待推薦的內(nèi)容進(jìn)行索引化處理,這一點(diǎn)與搜索引擎較為相似。推薦系統(tǒng)的維度會(huì)更多。
接下來,就是推薦系統(tǒng)的在線部分了。天啊,看到上圖,發(fā)現(xiàn)推薦系統(tǒng)真的和搜索引擎太像了,就多了一筆。
- 搜索引擎的輸入為用戶的搜索關(guān)鍵詞,推薦系統(tǒng)同樣需要輸入,只是這個(gè)過程用戶沒有感知,對(duì)推薦系統(tǒng)來說,它的輸入為場景信息,比如時(shí)間、地點(diǎn)和設(shè)備等。
- 搜索引擎獲得輸入后,會(huì)進(jìn)行關(guān)鍵詞處理,對(duì)于推薦系統(tǒng)來說,會(huì)進(jìn)行用戶畫像查詢。這個(gè)案例中,推薦系統(tǒng)了解到,該用戶在實(shí)體詞維度,對(duì)NBA感興趣,在分類維度,對(duì)體育和科技感興趣。
- 查詢到用戶畫像后,推薦系統(tǒng)就進(jìn)入召回環(huán)節(jié)。它通過多種方式,根據(jù)用戶畫像查詢結(jié)果“NBA、體育和科技”,從不同索引數(shù)據(jù)里獲得候選集合。
- 在召回完成后,和搜索引擎一樣,推薦系統(tǒng)按照預(yù)定預(yù)估目標(biāo)對(duì)候選集進(jìn)行排序。
- 同樣,推薦系統(tǒng)也需要經(jīng)過規(guī)則干預(yù)步驟后,才會(huì)將最終結(jié)果展示給用戶。
- 對(duì)于最后一步,用戶的各種動(dòng)作行為,在搜索引擎里,會(huì)持續(xù)優(yōu)化排序模型,在推薦系統(tǒng)里,還會(huì)持續(xù)改進(jìn)自身的畫像。
對(duì)以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第二張PNG(圖):
推薦系統(tǒng)的本質(zhì)
通過對(duì)搜索引擎和推薦系統(tǒng)的兩張圖,我們大致明白了推薦系統(tǒng)是怎么個(gè)一回事。實(shí)際上,推薦系統(tǒng)是一個(gè)策略行為。對(duì)于策略,他有四要素,分別是:
- 待解決問題
- 輸入(影響解決方案的因素)
- 計(jì)算邏輯(將輸入轉(zhuǎn)換成輸出的規(guī)則)
- 輸出(具體的解決方案)
對(duì)于今日頭條來說:
它待解決的問題是“從海量的內(nèi)容中,找到用戶喜歡的內(nèi)容”;
他的輸入是“用戶畫像和內(nèi)容特征”;
計(jì)算邏輯:將這些內(nèi)容特征按一定規(guī)則轉(zhuǎn)化為喜歡度;
輸出:將內(nèi)容按喜歡度從高到低排序。
由于我推薦系統(tǒng)的課程還未結(jié)束,先不展開這部分內(nèi)容了。后面博客會(huì)對(duì)上文進(jìn)行展開,有興趣的同學(xué),歡迎關(guān)注。
說明:以上內(nèi)容來源于個(gè)人閱讀和付費(fèi)課程的歸納整理。
本文由 @皮帶 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
寫的很好,通俗易懂,突然就流產(chǎn)結(jié)束了
基于《走近內(nèi)容推薦時(shí)代:寫給內(nèi)容行業(yè)從業(yè)者的推薦分發(fā)入門書》的洗稿。幾乎連案例,圖片,文案都沒有換。完全截取部分段落。想學(xué)習(xí)的直接去看書即可。
寫的挺好的啊,做推薦產(chǎn)品經(jīng)理,能給些建議嗎
我猜您曾經(jīng)閱讀過內(nèi)容算法這本書~
是的 內(nèi)容被網(wǎng)站刪除了 我猜懷疑我?guī)ж?/p>
希望盡快出新文章
寫的很好,期待更深入的內(nèi)容。
哈哈哈哈
頭條的來了 抓住 別跑 ??
寫的很不錯(cuò),思路清晰
謝謝
其實(shí)稍微理解技術(shù)的都能大致推出原理,本文非常清晰描述了智能推薦的大致原理,適合小白理解,但是往細(xì)里講還有很多內(nèi)容
期待大神分享
寫的不錯(cuò),讓我快速了解了些推薦系統(tǒng)的內(nèi)容,謝謝
???
不知道有沒有從產(chǎn)品應(yīng)用場景角度或者對(duì)各行業(yè)推薦系統(tǒng)的解讀呢?
解讀不敢 后續(xù)會(huì)總結(jié)著名視頻和電影網(wǎng)站的推薦系統(tǒng)
我覺得挺有道理的呀
謝謝 感謝肯定
??
胡說八道
有何高見
完全不知道說些什么
通俗易懂
謝謝
有些人不屑于你寫的東西
看起來很簡單,我想落地可能很難
你是不是揭某些人的底了?看起來應(yīng)該是3個(gè)A的底,被你一說怎么感覺是235啊。
還是說真的是胡說八道?
您這邊想說的是規(guī)則干預(yù)環(huán)節(jié)嗎
這個(gè)從產(chǎn)品上來說 是有必要存在的 特別是推薦系統(tǒng)需要學(xué)習(xí)過程 對(duì)于熱門事件 推薦系統(tǒng)可能不會(huì)那么快響應(yīng)過來 這個(gè)時(shí)候 規(guī)則干預(yù)系統(tǒng)就可以起作用了 但這個(gè)功能 在用的過程中 確實(shí)會(huì)存在一些我們不愿意看到的情況
標(biāo)題黨
這里有7張圖~
其他是贈(zèng)品 哈哈哈
加油
謝謝 一起加油 寒冬會(huì)更加溫暖