為什么今日頭條們,總知道你喜歡看什么?
現在有很多像今日頭條、輕芒閱讀這樣為你個性推薦資訊的 app,為什么同樣是個性推薦,它們卻有著不同的風格?今天分享的這篇文章,作者是曾在 Facebook 工作的宋一松,他從 3 個方面為你簡單介紹,app 是如何為你推薦個性化資訊的。
不了解今日頭條是怎么運作的。不過因為在 Facebook 工作時負責新鮮事(Newsfeed)的個性化推薦與排序,我可以說說 Facebook 是怎么衡量自己推薦和排序的質量的。
在具體執(zhí)行層面,主要有 3 個方式,分別是從機器學習模型、產品數據,和用戶調查上來考核推薦引擎的效果。
1. 機器學習模型
推薦引擎的一大核心就是機器學習(不過現在都說人工智能了,但本質上還是 supervised learning)。如果是想考察機器學習模型的質量,學術上早就有一套成熟的實踐方法。
無論是模型的選擇(比如從 decision tree 替換成 neural network),還是迭代改進(比如模型訓練時多用一倍的數據),都可以使用基于 supervised learning 的衡量辦法。最常見的就是 AUC。
另一方面,對于某一類特定問題也有更細致的指標。比如說,可以通過模型特征的重要性(feature importance)知道新加的特征是不是有用。
2. 產品數據
再牛逼的機器學習模型都要經歷產品數據的實際檢驗。這方面大家就都比較熟悉了,KPI 嘛。不過在 Facebook 特別是 Newsfeed 這種牽一發(fā)動全身的地方,我們會追蹤一系列數據來描述產品,而不是依賴某一個單一標準。
這些數據包括但不限于:
- 日/月活躍用戶(DAU,MAU)
- 用戶互動(點贊,評論,轉發(fā)等)
- 用戶發(fā)帖量
- 用戶停留時間和消耗的內容量
- 收入
- 用戶互動率(比如看過的內容中點贊/評論/長閱讀/收藏的比例)
- 用戶舉報和屏蔽的數量
而且,在日常的快速迭代和 A/B 測試中,只有這些籠統的數據是不夠的,我們還需要些更細致的數據來真正理解我們的一些改動。比如說:
- 內容類型的分布是怎么變動的:用戶原創(chuàng)和轉發(fā)的比重分布,網頁鏈接和圖片視頻的比重分布,長視頻和短視頻的比重分布等等
- 對公眾帳號是怎么影響的:什么樣的公眾號會受益于這次改動
- 哪些第三方巨頭受到了影響,影響是否合理:比如我最早在 FB 實習時候的項目是整頓 SPAM 帳號。那個改動重創(chuàng)了 Zynga(因為 Zynga 嚴重依賴用戶騷擾它的好友來吸量),但大家覺得挺合理的,讓公關去溝通了下就發(fā)布了。
另外,為了防止短暫的眼球效應,對每一個重要的產品決策,我們都會維護一個長期的 backtest,用來評估這個決策的長久影響。比如說:
- 對于在 feed 里面放廣告這個決定,我們會選擇一小部分用戶,對他們長期不顯示廣告,然后將他們的用戶活躍度同正常能看到廣告的用戶做對比,來衡量廣告的長期影響。
- 類似的,對于 Newsfeed 是否排序,我們也有一個 holdout group,他們的 feed 是完全按時間排的。
這樣,對每一個可能會有爭議的決策,但未來的每個時間點,我們都能清楚地知道,我們是面臨著怎樣的取舍。有了這層保障,在決策的當下,我們也就敢于冒險些,走得更快些。
3. 用戶調查
大多數產品數據有其局限性,因為它們是顯性而被動的。比如說,你給用戶推送了一個博眼球的低俗內容,用戶在當下可能是會去點開看的,所以數據上是好的。
但用戶可能心里對這個內容的評價是低的,連帶著對作為內容平臺的產品也會看輕,長此以往對產品的傷害是巨大的。
KPI 無法完全描述產品質量,在硅谷互聯網圈是有共識的,但如何解決,每個公司答案都不同。
Twitter 系的 CEO 們,無論是 Jack Dorsey 還是 Evan Williams,都傾向于輕視 KPI 而依賴自己主觀想法來決策。
Google 和 Facebook,則采取了另一條路,他們決定把用戶評價納入到 KPI 中。
Google 在這方面的工作開始得比較早,因此公開的資料也比較多。概括地說,他們雇傭大量的普通人,以用戶的角度來對 Google 搜索排序的質量和廣告推薦的質量做主觀打分。
當打分的量大到一定程度,這些數據就足以成為一個穩(wěn)定有效的,且可持續(xù)追蹤并改進的 KPI 了。Facebook 雖然產品領域有所不同,但在個性化推薦上也采取了類似的方法。
回答的最后,還是想重申兩個方法論:
- 永遠不能依靠單一一個 KPI 來評價產品上的工作。任何 KPI,任何產品,都不能。
- 在明確 KPI 局限性的前提下,數字可以終結大多數無意義的扯皮,無論是技術上的,還是政治上的。
相關閱讀:
作者:宋一松
來源:http://www.ifanr.com/app/826575
本文來源于人人都是產品經理合作媒體@愛范兒,作者@宋一松
標題黨
有點淺
同感。
大多數產品數據有其局限性,因為它們是顯性而被動的。比如說,你給用戶推送了一個博眼球的低俗內容,用戶在當下可能是會去點開看的,所以數據上是好的。
但用戶可能心里對這個內容的評價是低的,連帶著對作為內容平臺的產品也會看輕,長此以往對產品的傷害是巨大的。
這段文字給滿分!
哈哈 少見評論啊