2張圖帶你看懂今日頭條推薦系統(tǒng)

32 評(píng)論 26364 瀏覽 289 收藏 8 分鐘

推薦系統(tǒng)是一個(gè)策略行為,本文將用兩張圖,來帶你看懂今日頭條的推薦系統(tǒng)。

推薦系統(tǒng)的“前身”

2016年,騰訊以80億美元估值投資今日頭條,結(jié)果大家都知道,張一鳴拒絕了騰訊的投資,現(xiàn)在大家也知道,字節(jié)跳動(dòng)估值750億美元,這一切,推薦系統(tǒng)功不可沒。

因?yàn)樗阉饕婧屯扑]系統(tǒng)太相似,相對(duì)來說也更簡單(勿噴),所以我們先來了解一下搜索引擎。至于搜素引擎是不是推薦系統(tǒng)的前身,我很懶,沒有考察。

如上圖,搜索引擎分成為離線部分和在線部分,每一部分有不同的使命。

簡單來說,搜索引擎的離線部分,專注于內(nèi)容的搜集和處理。搜索引擎通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上的原始內(nèi)容,并將內(nèi)容建立索引。這些內(nèi)容會(huì)根據(jù)搜索系統(tǒng)的不同要求建立不同的索引體系,比如新聞?lì)愋偷膬?nèi)容,會(huì)建立時(shí)效性的索引數(shù)據(jù)。

搜索引擎的在線部分,負(fù)責(zé)響應(yīng)用戶的搜索請(qǐng)求,完成內(nèi)容的篩選和排序,并將最終結(jié)果返回給用戶。我們舉一個(gè)例子來說明這個(gè)流程:

  1. 用戶在搜索引擎輸入一個(gè)關(guān)鍵詞NBA,搜索引擎搜索會(huì)對(duì)關(guān)鍵詞進(jìn)行分析、變換、擴(kuò)充和糾錯(cuò)等處理,比如發(fā)現(xiàn)美職籃與NBA是同義詞,就會(huì)將其擴(kuò)充。
  2. 接下來,搜索引擎會(huì)通過多種方式從不同索引數(shù)據(jù)獲得候選集,這個(gè)環(huán)節(jié)叫召回。
  3. 得到候選集后,搜索引擎通過更精細(xì)的計(jì)算模型對(duì)每一篇候選內(nèi)容進(jìn)行分值計(jì)算,對(duì)候選集的每一項(xiàng)進(jìn)行排序。
  4. 這個(gè)時(shí)候,還不能將結(jié)果展示給用戶,需要經(jīng)過規(guī)則干預(yù)這一過程。這個(gè)過程服務(wù)于特定的產(chǎn)品目的。假如有這樣一條“官方網(wǎng)站保護(hù)規(guī)則,確保所有品牌搜索詞都可以優(yōu)先返回官網(wǎng)”,則此時(shí)就會(huì)將官網(wǎng)插入并置頂,最后再將結(jié)果展示給用戶。
  5. 此時(shí),搜索引擎的工作還未結(jié)束。搜索引擎會(huì)根據(jù)用戶的點(diǎn)擊反饋去優(yōu)化排序模型。比如,大部分用戶都沒有點(diǎn)擊文章10,則文章10后續(xù)就不會(huì)獲得更靠前的展現(xiàn)位置。

對(duì)以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第一張圖:

今日頭條的推薦系統(tǒng)

通過上“一”張圖,我們明白了搜索引擎的原理(無論怎樣我都會(huì)裝作你看懂了),而今日頭條的這張圖,就是比上圖上多了一筆,考慮到這兩張圖高度相似,我這么懶的人,當(dāng)然是不會(huì)去畫的了,你們發(fā)揮想象吧。

其實(shí),推薦系統(tǒng)也有離線部分和在線部分。上圖(那不是圖,是PNG)即是推薦系統(tǒng)的離線部分,與搜索引擎大同小異。

  1. 和搜索引擎一樣,推薦系統(tǒng)也需要獲取內(nèi)容。推薦系統(tǒng)通過數(shù)據(jù)庫導(dǎo)入、協(xié)議同步和用戶提交等方式獲取推薦內(nèi)容。區(qū)別于搜索引擎,推薦系統(tǒng)獲取內(nèi)容的方式較多,且內(nèi)容的結(jié)構(gòu)化程度要遠(yuǎn)勝于搜索引擎爬蟲抓取的內(nèi)容。
  2. 推薦系統(tǒng)也需要將待推薦的內(nèi)容進(jìn)行索引化處理,這一點(diǎn)與搜索引擎較為相似。推薦系統(tǒng)的維度會(huì)更多。

接下來,就是推薦系統(tǒng)的在線部分了。天啊,看到上圖,發(fā)現(xiàn)推薦系統(tǒng)真的和搜索引擎太像了,就多了一筆。

  1. 搜索引擎的輸入為用戶的搜索關(guān)鍵詞,推薦系統(tǒng)同樣需要輸入,只是這個(gè)過程用戶沒有感知,對(duì)推薦系統(tǒng)來說,它的輸入為場景信息,比如時(shí)間、地點(diǎn)和設(shè)備等。
  2. 搜索引擎獲得輸入后,會(huì)進(jìn)行關(guān)鍵詞處理,對(duì)于推薦系統(tǒng)來說,會(huì)進(jìn)行用戶畫像查詢。這個(gè)案例中,推薦系統(tǒng)了解到,該用戶在實(shí)體詞維度,對(duì)NBA感興趣,在分類維度,對(duì)體育和科技感興趣。
  3. 查詢到用戶畫像后,推薦系統(tǒng)就進(jìn)入召回環(huán)節(jié)。它通過多種方式,根據(jù)用戶畫像查詢結(jié)果“NBA、體育和科技”,從不同索引數(shù)據(jù)里獲得候選集合。
  4. 在召回完成后,和搜索引擎一樣,推薦系統(tǒng)按照預(yù)定預(yù)估目標(biāo)對(duì)候選集進(jìn)行排序。
  5. 同樣,推薦系統(tǒng)也需要經(jīng)過規(guī)則干預(yù)步驟后,才會(huì)將最終結(jié)果展示給用戶。
  6. 對(duì)于最后一步,用戶的各種動(dòng)作行為,在搜索引擎里,會(huì)持續(xù)優(yōu)化排序模型,在推薦系統(tǒng)里,還會(huì)持續(xù)改進(jìn)自身的畫像。

對(duì)以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第二張PNG(圖):

推薦系統(tǒng)的本質(zhì)

通過對(duì)搜索引擎和推薦系統(tǒng)的兩張圖,我們大致明白了推薦系統(tǒng)是怎么個(gè)一回事。實(shí)際上,推薦系統(tǒng)是一個(gè)策略行為。對(duì)于策略,他有四要素,分別是:

  1. 待解決問題
  2. 輸入(影響解決方案的因素)
  3. 計(jì)算邏輯(將輸入轉(zhuǎn)換成輸出的規(guī)則)
  4. 輸出(具體的解決方案)

對(duì)于今日頭條來說:

它待解決的問題是“從海量的內(nèi)容中,找到用戶喜歡的內(nèi)容”;

他的輸入是“用戶畫像和內(nèi)容特征”;

計(jì)算邏輯:將這些內(nèi)容特征按一定規(guī)則轉(zhuǎn)化為喜歡度;

輸出:將內(nèi)容按喜歡度從高到低排序。

由于我推薦系統(tǒng)的課程還未結(jié)束,先不展開這部分內(nèi)容了。后面博客會(huì)對(duì)上文進(jìn)行展開,有興趣的同學(xué),歡迎關(guān)注。

說明:以上內(nèi)容來源于個(gè)人閱讀和付費(fèi)課程的歸納整理。

 

本文由 @皮帶 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 寫的很好,通俗易懂,突然就流產(chǎn)結(jié)束了

    來自江蘇 回復(fù)
  2. 基于《走近內(nèi)容推薦時(shí)代:寫給內(nèi)容行業(yè)從業(yè)者的推薦分發(fā)入門書》的洗稿。幾乎連案例,圖片,文案都沒有換。完全截取部分段落。想學(xué)習(xí)的直接去看書即可。

    來自浙江 回復(fù)
  3. 寫的挺好的啊,做推薦產(chǎn)品經(jīng)理,能給些建議嗎

    來自廣東 回復(fù)
  4. 我猜您曾經(jīng)閱讀過內(nèi)容算法這本書~

    來自北京 回復(fù)
  5. 是的 內(nèi)容被網(wǎng)站刪除了 我猜懷疑我?guī)ж?/p>

    來自福建 回復(fù)
    1. 希望盡快出新文章

      回復(fù)
  6. 寫的很好,期待更深入的內(nèi)容。

    來自北京 回復(fù)
  7. 哈哈哈哈

    回復(fù)
    1. 頭條的來了 抓住 別跑 ??

      來自福建 回復(fù)
  8. 寫的很不錯(cuò),思路清晰

    回復(fù)
    1. 謝謝

      回復(fù)
  9. 其實(shí)稍微理解技術(shù)的都能大致推出原理,本文非常清晰描述了智能推薦的大致原理,適合小白理解,但是往細(xì)里講還有很多內(nèi)容

    來自廣東 回復(fù)
    1. 期待大神分享

      回復(fù)
  10. 寫的不錯(cuò),讓我快速了解了些推薦系統(tǒng)的內(nèi)容,謝謝

    來自浙江 回復(fù)
    1. ???

      回復(fù)
  11. 不知道有沒有從產(chǎn)品應(yīng)用場景角度或者對(duì)各行業(yè)推薦系統(tǒng)的解讀呢?

    回復(fù)
    1. 解讀不敢 后續(xù)會(huì)總結(jié)著名視頻和電影網(wǎng)站的推薦系統(tǒng)

      回復(fù)
  12. 我覺得挺有道理的呀

    回復(fù)
    1. 謝謝 感謝肯定

      回復(fù)
  13. ??

    回復(fù)
  14. 胡說八道

    回復(fù)
    1. 有何高見

      回復(fù)
  15. 完全不知道說些什么

    回復(fù)
  16. 通俗易懂

    回復(fù)
    1. 謝謝

      回復(fù)
  17. 有些人不屑于你寫的東西
    看起來很簡單,我想落地可能很難
    你是不是揭某些人的底了?看起來應(yīng)該是3個(gè)A的底,被你一說怎么感覺是235啊。
    還是說真的是胡說八道?

    來自浙江 回復(fù)
    1. 您這邊想說的是規(guī)則干預(yù)環(huán)節(jié)嗎
      這個(gè)從產(chǎn)品上來說 是有必要存在的 特別是推薦系統(tǒng)需要學(xué)習(xí)過程 對(duì)于熱門事件 推薦系統(tǒng)可能不會(huì)那么快響應(yīng)過來 這個(gè)時(shí)候 規(guī)則干預(yù)系統(tǒng)就可以起作用了 但這個(gè)功能 在用的過程中 確實(shí)會(huì)存在一些我們不愿意看到的情況

      來自福建 回復(fù)
  18. 標(biāo)題黨

    來自上海 回復(fù)
  19. 這里有7張圖~

    來自北京 回復(fù)
    1. 其他是贈(zèng)品 哈哈哈

      回復(fù)
  20. 加油

    來自北京 回復(fù)
    1. 謝謝 一起加油 寒冬會(huì)更加溫暖

      來自福建 回復(fù)