Netflix,為何能成為個性化推薦的王者?
從《紙牌屋》開始,Netflix越來越多地進入國人的視線中。關于它的用戶推薦系統、“大數據分析”等等神話和傳說也有不少,本文是我在查找了一些資料后,整理出來的Netflix的推薦思路和一些方法。太過技術的算法內容實在是hold不住,因此僅從邏輯上進行說明。一來整理自己的思路,二來盡可能學習些東西,分享出來歡迎各位討論。
一、坐等風來
回顧歷史,Netflix是一家典型的提前布局等風來的公司。
1997年8月,在DVD機僅推出幾個月后,Reed Hasting和Marc Randolph創立了Netflix,并在1998年3月上線了全球第一家線上DVD租賃商店。以僅30名雇員拿下了925部電影,這幾乎是當時所有的DVD電影存量。
1999年他們推出了全新的按月訂閱的模式,用戶第一次有機會享受到沒有過期罰款、沒有運費、手續費等等一系列煩人的東西的服務。相比Netflix之前使用的單部電影租賃的方式,新模式對用戶更加友好,于是Netflix憑借著這個模式迅速在行業里建立起了口碑,老舊的單部影片租賃模式也于2000年壽終正寢。
隨后的2001年,由于DVD機售價越來越低,成為當年圣誕節成為最受歡迎的禮物之一,Netflix也在2002年坐上了這趟快車,用戶量得到了巨幅增長。這是Netflix創立四年迎來的第一個風口,現在看來不得不感嘆其眼光之獨到。
2005年,他們發現盡管沒有高清內容,但Youtube的流媒體服務(可簡單理解為在線播放)仍然十分受歡迎,于是放棄了自己的硬件產品Netflix Box轉入其中,于2007年上線了流媒體服務。而隨著日后網絡帶寬的提升和費用的降低,占據了先發優勢的Netflix又一次收獲了巨大增長。
2006年,一項名為Netflix Prize的算法大賽橫空出世,Netflix拿出100萬美元獎金讓開發者們為他們的優化電影推薦算法。截至2012年第四季度,Netflix已在全球擁有2940萬訂閱用戶。
2012年,Netflix開始嘗試自制內容,并于2013年推出《紙牌屋》,高超的內容質量和一次放出整季內容的發行方式,讓它瞬間風靡全球。
今年4月,Netflix的全球訂閱用戶達到1.25億,服務超過190個國家和地區。截至今日,它的市值超越迪士尼成為全球互聯網企業排名第六的公司。
回顧Netflix這21年的歷史,似乎每一次轉型的時機和方向都是如此準確,以至于有些“自然而然”地達成今天的高度。然而如果我們透過現象看本質,從萬變中找不變的話,有一件事一定會被提到——個性化推薦。甚至可以說,“個性化推薦”就像Netflix自制的鼓風機,第三個風口是他們自己造出來的。
沒有明確的資料說明Netflix在做郵寄租賃DVD的時候有沒有推薦機制。但他們確實從最開始的時候,就十分重視數據,并開始收集用戶數據了:他們會在郵寄的信封里附上問卷讓用戶給電影打分。這些打分數據是之后Netflix推薦系統的重要基石之一。
“個性化推薦”一直都是Netflix的殺手锏,數據積累和算法研發的提前讓它在這方面幾乎是不可被超越的,時至今日用戶在Netflix上觀看的80%內容都是由推薦而來的。
二、解構好萊塢
Netflix的推薦系統之所以能夠如此高效地達成目標,我認為最大的理由是他們教會了“讓機器懂電影”。在一篇名叫<How Netflix Reverse Engineerd Hollywood>的文章中(由Alexis C. Madrigal于2014年發表)。作者從Netflix的推薦分類出發,解說了他們是如何解構好萊塢進而去給用戶做推薦系統的。
在Netflix的首頁中你會看到一行一行的電影,每一行是一個分類,官方叫它altgenre,或者說“微分類”,每個分類中是一系列的電影。這些分類和電影都是為你量身推薦的。
在這些分類中有一些非常精準、十分有意思的標題:情感充沛的反體制紀錄片(Emotional Fight-the-System Documentaries)、基于事實的皇室掠影(Period Pieces About Royalty Based on Real Life)、80年代的外國邪惡電影(Foreign Satanic Stories from the 1980s)。
那么這些類型是怎么來的呢,作者Alexis做了一件很絕的事情:
他把Netflix的所有分類全爬了下來,共有76897個分類之多。并且將這些分類的用詞和語法做了深入分析,還自己開發了一個“類型生成器”,生成出了和Netflix類似的結果。他甚至給出了公式:地區+形容詞+類型+故事基礎+拍攝地+時代+關于(什么的內容)+適合年齡段(Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y)。
但看到這里,我們只是看到了Netflix解構好萊塢的結果,那么這一切是從哪里開始的呢?
2006年,Netflix產品副總裁Todd Yellin帶領一票工程師用數月時間寫了一份長達24頁的名為《Netflix量子論》(Netflix Quantum Theory)的文檔。專門講述如何用“微標簽”(microtag)拆解電影。
這份文檔的目的是作為訓練手冊,讓不同的人對微標簽有同樣的理解,以保證能夠系統性地、標準統一地解構上千部電影。如今這份手冊已經擴展到了36頁。
這份36頁的訓練手冊講述了如何給一部影片的性暗示內容、血腥程度、浪漫等級、甚至情節總結等元素評級。文檔還解釋了如何給影片結局打標簽、給主要演員的“社會接受度”打標簽、給每部影片的浪漫程度打標簽,更重要的是,每個標簽都有從1到5的評級。
以《超膽俠》電影為例,標簽會包括“四個主要角色”,至于其中Matt Murdock這個角色,會有演員名、角色名、他很“英雄”(heroic)、是個律師等等。
Netflix就是用這樣的方式,解構了幾乎所有的電影,用精細、準確的微標簽和評級教會推薦系統去認識電影、解讀電影。
更令人稱道的是,給Netflix打標簽真的是一份工作。Netflix組建了一只團隊,付錢讓他們看電影同時給這些電影打上標簽。有好事的媒體采訪到了一位“標簽員”(tagger),讓他講述給Netflix打標簽是一種什么樣的體驗,十分有意思。
三、解構用戶
2012年前后,Netflix的推薦系統經歷了一次重大的策略變化,官方技術博客以名為<Netflix Recommendations: Beyond the 5 stars>的文章(分為1、2兩部分)闡述了這種變化的前因后果:
在郵寄租賃DVD的時代,Netflix能夠獲得用戶的評分,但是用戶觀看電影的過程對平臺是隱形的。但是隨著流媒體業務的開展,Netflix終于有機會看到用戶的更多方面。于是他們認識到:
“Everything is a Recommendation.”——一切都是推薦。
由這一想法催生出的,是更加細致、深入的用戶推薦。
Netflix的官方文檔中把自己稱為“幸運”,因為他們有大量的相關數據和能夠把這些數據應用到產品中的人才。
以下是Netflix用來優化推薦系統的數據源:
- 數以百萬計的用戶評分數據(tagins),而且每天還在以百萬量級增長;
- 作為算法基準線的項目熱度(item popularity);
- 包含時長、時間、設備類型的數百萬播放數據(stream plays);
- 用戶每天會想自己的列表(queue)中添加數百萬項目;
- 每個項目下豐富的元數據(metadata);
- 每個項目的展示位置(presentation)和效果;
- 用戶的社交數據(social);
- 百萬級的用戶搜索數據(search terms);
- 來自外部(external data)的票房或影評數據;
- 當然,實際上用到的數據還遠不止這些。
除了和影片相關的數據外,用戶數據是Netflix推薦系統的另一重要基石。
轉型流媒體后,用戶的所有行為全部在平臺內完成,這給了Netflix觀察用戶的絕佳環境,他們不僅僅知道用戶看過什么,甚至知道他們是怎么看的:什么時候看的,看了多長時間,在哪里暫停,在哪里反復,在哪里關閉等等,這些行為數據無一不是用戶喜好的體現。
通過分析這些行為數據,和解構好萊塢得來的影片數據進行匹配,讓Netflix的推薦精度越發準確。
四、推薦新姿勢:個性化海報推薦
去年Netflix推出了一項新的推薦功能:個性化海報推薦,具體來說就是“不同的用戶看到的同一個電影的推薦海報是不一樣的”。如果你喜歡動作戲,則可能你看到的海報是片中的打斗場面,如果你喜歡片中某個主演,那么你看到的是以他為主角的海報。
這一功能的源頭同樣是對電影內容和用戶喜好的解讀。認為地去創造更多的“一見鐘情”,進一步提高了推薦系統的效率。
五、Netflix的自省
1.從官方文檔透露中的信息來看,長久以來Netflix雖然對算法十分依賴,但也意識到它的不足,這種不足可能是所有的算法都躲不開的——“越推薦越相似”。因此Netflix的算法中十分關注“不同”(adversity)。新奇、多樣性、新鮮度,都是推薦中考慮的因素。
盡力幫用戶去“發現”興趣,這也是Netflix的推薦目標之一。
2.關于前邊提到的個性化海報推薦,官方特別地說明了對它的擔憂:不希望它變成“騙”用戶看電影的功能,也就是說要盡力把這個功能控制在一個度里,說白了就是不“標題黨”,為了讓用戶去看某個電影而強行用海報勾引他。
六、后記
就在我寫這篇文章的前幾天,Netflix又做出了兩個重要改變:1. 把五星評價系統改為“喜歡/不喜歡”的評價系統;2. 取消了影片下的評論功能。
關于這兩個改變網上有些解讀,但我還沒想清楚,就不追這個熱點了。
關于Netflix可說的還有很多,最近他們還推出了另一個官方博客:Netflix Research,加上原有的the Netflix Tech Blog,有興趣的各位可以關注一下。
參考資料:
- <Netflix Recommendations: Beyond the 5 stars (Part 1)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429
- <Netflix Recommendations: Beyond the 5 stars (Part 2)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5
- < How Netflix Reverse Engineered Hollywood>:https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
- <Netflix tagging: Yes, it’s a real job>:https://www.washingtonpost.com/news/arts-and-entertainment/wp/2015/06/11/netflix-tagging-yes-its-a-real-job/?noredirect=on&utm_term=.51f470d15c18
作者:Shady,微信公眾號:ShadyDesign
本文由 @Shady 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協議
公司都要有收據么:cgkc.com