這可能是你看過最“硬核”的小紅書算法
編輯導語:分析小紅書的算法,可以產品角度出發,也可以從運營角度出發,而本文作者則是從技術角度出發,對小紅書的算法進行了分析。感興趣的小伙伴們,一起來學習一下吧。
這是一篇哈佛醫學院的HMS學術文章,一個叫Nsoesie和他的小伙伴們分析了醫院停車場的車輛數量和互聯網搜索趨勢,得出了疫情最早在19年8月在武漢開始。當然這一說法被哈佛醫學院自己否了,理由是不適當和不充分的數據、對統計方法的濫用和誤解,以及挑選互聯網搜索詞。事情并沒有隨著問題的發現終止,Nsoesie這些人的說法得到了媒體的廣泛報道。
我們來把整個時間進行簡單概括,大致就是——很多數據說明醫院里的車多了;車多了,肯定是看病的人多了;看病的人多了,肯定是得了新冠肺炎;同類類比,南京中華門景區旁邊是市第一醫院,直線距離1.1公里。除了一個小停車場、一個巷子、醫院地下停車場,沒有其他停車位,小停車場和巷子日常是停滿了的。國慶假期到了,醫院停車場滿了。得出的結論是——南京爆發疫情了。
如果從現象推原因,事實會差多少?上不了臺面的科研騙局,但是用腳投票的大眾選擇相信,不相信的人卻別有用心地傳播。
對應到運營行業中,是不是很像整天方法論、刀法、套路、核心、SOP的某些人?從結果拆方法,方法匯總復用告訴100個人。只要有1個人做好,就可以說“你沒有做好,別人能做好,是你的問題”。哲學中有個樸素的觀點是“實踐是檢驗真理的唯一標準”,而實踐之所以作為真理的檢驗標準,這是由真理的本性和實踐的特點決定的。
做火了一兩個賬號/甚至沒做過賬號,總結出的運營經驗語句都不通順,前后經不起推敲,而大家已經掏錢上車了。如下圖,其實所有需要分發內容的APP都是這個邏輯。
所以這篇內容我不會寫那些網上一搜就會搜到10篇有9篇一樣的小紅書算法內容,同樣和上篇內容一樣做不到通俗易懂,甚至枯燥,看了不知所云。但相信我,看完你們會有很大的收獲。也許業務中的一些小的問題終于得到確認,可能看待小紅書運營的角度更加的多元化,或者學會了更加具象的思維。
想聽刀法、方法論、扯淡的可以點右上角的×了,如果你們想從更底層去一點點認知自己在做的平臺,這篇內容如果對你們有幫助那就太好了。我扒了很多論文、論壇以及找來了不少小紅書公開演講的PPT梳理總結,與實際業務相結合,歡迎關注點贊留言。
01
很多人經常說小紅書算法,大部分人從產品角度出發,少部分人從運營角度出發,幾乎沒有人從技術角度出發。
算法是一系列解決問題的清晰指令,算法代表著用系統的方法描述解決問題的策略機制。定向A?定向B,可能是男性和女性,也可能是國王和皇后。我們應該先解釋A和B,而不是討論怎么從A?B。
從產品角度出發沒有什么大問題,但是有兩類大點,即產品的背景及使用。產品的背景包括解決什么需求、具體的使用場景是什么樣、目標用戶是什么。產品的使用包括體驗、UI、美工、交互。我看了大多數人對小紅書算法的分析,是從UI角度出發,即使用者界面出發,其實是相當不準確或者說淺層次的。
從UI角度出發,抖音和小紅書相似程度是非常高的。抖音的首頁-推薦、關注、同城和小紅書的首頁-發現、關注、同城基本一致,消息頁和我的頁面也基本一致,那么算法和邏輯就一致嗎?
差的太多了,反映到結果上,我們抖音和小紅書同樣的都做了200萬粉左右,一個基本沒有任何變現,一個收益很高。后來我們反復復盤,平臺就像那些年我們追的女孩子,沒有人永遠年輕,但總有人正在年輕。即使運營了很多年,我們對當初的這個女孩也時常感到陌生。而平臺也總會誕生新的機會,給后來者遐想空間。
話不多說,讓我們簡單的梳理小紅書算法。不少段落取自ArchSummit深圳演講-趙曉萌(小紅書算法架構師,負責機器學習應用)、2019阿里云峰會·上海開發者開源大數據專場小紅書實時推薦團隊負責人郭一的發言、以及秦波(推薦引擎北京工程負責人)、馬爾科(小紅書大數據組工程師)的帖子/PPT。如有侵權,聯系修改或者刪除。
小紅書社區是一個分享社區+電商的APP,分享社區通常意義上都是以女性為主,少量話題引導。每天平臺生產的內容,要如何轉發分發給用戶,讓用戶看到用戶想看的,這是算法需要解決的問題。
對于小紅書來說,社區提供用戶黏性,為電商引流,電商把這部分流量變現,在APP里形成閉環,社區和電商互相推動。對于算法團隊來說,有社區的用戶數據,有用戶在電商版塊的行為數據,如何把兩邊的用戶行為連接起來,更好的理解用戶,是算法的根本出發點。
現在大家普遍認可的都是下面這個流量分發模型,系統根據用戶互動效果進行評分的體系是CES。實際上太籠統了,CES評分也不知道是出現在整個推薦流程中的第一步、第二步、第三步,還是反復計算。接下來我會通過具體的一些案例,從技術的角度去解釋。
如果有看過我上篇講搜索流量的小伙伴應該有印象,一篇筆記的搜索流量相對穩定占位,而推薦流量是筆記成為爆款的核心。小紅書線上推薦的流程主要分為三步:
- 從小紅書用戶每天上傳的筆記池中選出候選集,通過各種策略從千萬條的筆記中選出幾千個候選集進行初排。
- 在模型排序階段給每個筆記打分,根據小紅書用戶的點贊和收藏行為給平臺帶來的價值設計了一套權重的評估體系,通過預估用戶的點擊率,評估點擊之后的點贊、收藏和評論等的概率進行打分。
- 在將筆記展示給用戶之前,選擇分數高的筆記,通過各種策略進行多樣性調整。
02
那么小紅書是如何從每天的筆記池中選出候選集進行初排的呢?
小紅書的內容圖文并茂,用戶產生的內容圖片多,質量很高。用CNN(卷積神經網絡)提取圖像特征,用Doc2Vec(文本到向量模型)提取文本特征,通過一和簡單的分類器就能把用戶分到主題中,而主題是人工標定的上百上千個主題。這是初排。
03
CNN和Doc2Vec具體是怎么提取筆記進行分類的?
關于圖片的識別,小紅書是一個非常視覺的社區,圖像很多,小紅書用圖像提取特征就已經能達到良好的效果,準確率大概是85%時覆蓋率能達到73%左右。加上文本以后效果更好,準確率達到90%,覆蓋率達到84%。
圖片這是第一個在內容創作中需要注意的地方,對圖像的夸張識別到什么程度?
我們有一次發幼兒、中小學的教育案例,拍到了角落翻開來的書上關于母嬰胎教類的兩行字,肉眼都看不清,違規發警告說涉及到嬰兒遺傳等敏感內容,賬號不被推薦3天。后來反復查找原因,才發現這個問題。
這里再舉一個更常見的例子,涉及到了GBTD模型里的機器深度學習。小紅書上流行分享治痘,有很多臉上有很多痘痘怎么治好的筆記,怎么把這些觀感其實不適的內容推薦給要看的人是一個問題。
當小紅書嘗試用CNN model做這個事的時候,發現無論照片是全臉漏出、半臉、1/4臉甚至只有少量的臉部器官,都可以很好地識別甚至識別圖里的文本,對反作弊有一定的幫助。所以,不要在圖片上進行任何夾帶私貨,圖片識別+圖片文本識別,基本上準確率有90%。
再講一下文本的向量表示,文本的向量表示有非常多種,其中一個比較有名的向量表示叫做Word2Vec,是Google提出來的。它的原理非常簡單,其實是一個非常淺的淺層神經網絡,根據前后的詞來預測中間這個詞的概率,優化預測的時候模型就得到了詞的向量表示。
同樣的這個詞的向量表示在空間里也是有意義的,相似的詞也處在相近的空間里。這個模型比較有意思的是,把向量拿出來隨時可以做向量運算。
女人到男人之間的那個指向的向量,和皇后到國王之間是一樣的,所以我們知道其中三個,就能算出另外一個。假如我們的筆記重點是“自駕”和“露營”,Word2Vec會據前后的詞來預測中間這個詞的概率,可能是裝備、路線、西藏、過夜、海邊、周邊、攻略,推送到對應的用戶頁面。
04
用戶畫像和筆記畫像是什么?在算法中扮演什么角色?
1. 小紅書推薦預測模型已經演化到了GBDT+Sparse D&W的模型
主要有9個預測任務,包括click、hide、like、fav、comment、share、follow等。點擊、保持、喜歡、評論、分享、關注。點擊是小紅書最大的模型,一天大概產生5億的樣本進行模型訓練。GBDT模型中的筆記分發,有非常多的用戶行為統計,產生了一些靜態的信息和動態特征,用來描述用戶或者筆記。
通過用戶畫像和人口統計信息來描述用戶,比如性別年齡這些靜態信息。筆記分作者和內容兩個維度,比如作者打分、筆記質量、標簽、主題。動態特征雖然不多,但是非常重要。
動態特征包括用戶在瀏覽和搜索中有沒有點擊、有沒有深度行為等類似的用戶反饋。這些交互的數據有一個實時的pipeline從線下直接放到線上的模型里,在線上會利用這些數據對點擊率等交互質量的指標進行預測,然后根據用戶和筆記的隱形分類進行推薦。
2. 關于動態特征的提取,小紅書用的是Doc2Vec模型,也叫做相關筆記
相關筆記的要求是什么?推薦的筆記和用戶在看的筆記,最好講的是一個東西。比如說同一款口紅、同一個酒店、同一個旅游城市、同一款衣服,可能不是一個酒店,但是是類似的酒店。
可能不是同一個旅游城市,但可能是類似的旅游城市,是不是很難理解?那我們再具體一點,我如果看的是亞特蘭蒂斯這種級別的酒店,那么小紅書就不會給我推薦格林豪泰,而是類似同等級別的酒店。如果我經常搜的是雪山/草原/沙漠,那么就不會給我推薦上海/北京/廣州這種人文和城市景觀突出的地方。
有一點需要注意的是,TFIDF model 雖然基本要求詞是一樣的,但它可以把一類筆記找出來,就是講用戶心理、描述用戶心情的筆記,因為用戶描述心情用的詞匯很接近,所以這個方法也會把擴展的內容找出來?!敖^絕子”是非常明顯的一個語氣詞或者形容詞,在小紅書有461萬+篇筆記。
最核心的實時歸因場景業務,是如何制作用戶的行為標簽的?
用戶畫像比較簡單,不會存在過多的狀態,而實時歸因是整個實時流處理中最關鍵的場景。實時歸因將筆記推薦給用戶后會產生曝光,產生打點信息,用戶的每一次曝光、點擊、查看和回退都會被記錄下來。
看一下下面這張圖,四次曝光的用戶行為會產生四個筆記曝光。如果用戶點擊第二篇筆記,就產生第二篇筆記的點擊信息,點贊會產生點贊的打點信息。如果用戶回退,就會顯示用戶在第二篇筆記停留了20秒。實時歸因會生成兩份數據,第一份是點擊模型的數據標簽,下圖中第一篇和第三篇筆記沒有點擊,第二篇和第四篇筆記有點擊,這種數據對訓練點擊模型很重要。點贊模型也和上面幾乎完全一樣。
05
CES評分參與在算法中的什么階段?
整個線上推薦的流程,只有在模型排序階段給每個筆記打分。筆記在筆記展示給用戶之前,小紅書會選擇分數高的筆記通過各種策略進行多樣性調整。
Score=pCTR*(plike*Like權重+pCmt*Cmt權重……)
CES如果參與其中,只是非常小的一部分。我通過爬蟲把爆文筆記爬了下來并做成CES形式的Excel表格分析,無論是表現各項數據關系的散點圖還是曲線圖,都沒有一個有規律的圖表,所以CES最多用在冷啟動,聊勝于無。
06
綜合以上,最后我們還是用比較通俗的話去解釋這篇內容想要論證或者體現的觀點:
小紅書算法是一系列解決問題的清晰指令,算法代表著用系統的方法描述解決問題的策略機制。不應該從使用者界面或者從已經成熟的賬號中去梳理總結方法論,因為梳理總結的只是一系列機制中特別瑣碎的小點,更不應該形成所謂通用的方法論。
大家工作業務開展也是,很多運營文章一下子就把整個運營流程說全了,我更建議從算法開始了解,工作也是從你實際的理論和認知中開展,并不是照葫蘆畫瓢。給你飛機讓你照葫蘆畫瓢,好的,你來造。
不要做公司想要推廣的內容/你喜歡的內容,而是要做算法覺得用戶想看的內容,畢竟算法需要解決的問題就是——把平臺生產的內容,轉發給用戶,讓用戶看到用戶想看的。
對于小紅書,算法的出發點是如何把社區的用戶數據和電商版塊用戶的行為數據鏈接起來?,F在小紅書的盈利模式主要集中在達人種草,其實是算法團隊不夠優秀,沒有辦法提供足夠優秀的中臺支撐。無論是電商或者廣告,其實大家都怨聲哀道。
前臺主要面向客戶以及終端銷售者,實現營銷推廣和交易轉換。中臺主要面向運營人員,完成運營支撐。后臺主要面向后臺管理人員,實現流程審核、內部管理以及后勤支撐,比如采購、人力、財務、OA等系統。
算法崗在各大公司招聘線中也是發OFFER最高的一檔,目前來看,想做視頻內容電商的算法人才會傾向于去抖音和快手。想做傳統電商的,會傾向于去阿里或者拼多多。至于圖文和純文形式的電商或者廣告,其實各家做了很多年都做的不是特別好。小紅書圖文能做好,得益于70%的用戶群體是女性,社區氛圍搭建的生活氛圍非常精致。
選擇合適的內容很重要,如果內容小眾又剛需,那么小紅書通過策略選出的候選集相對容易選到我們的筆記。在整個筆記出現在大批量用戶的過程中,我傾向于CES評分沒有參與在內,預測模型實際上扮演著很大的作用。體現在實際運營中就是,一張圖片一句話的筆記火的一塌糊涂、老賬號發什么什么火,因為預測模型。
小紅書算法對圖片的優先級非常高,并且有至少85%的準確率。如果加上文本以后,準確率能達到90%。所以無論是正常的圖文、下水不報備的筆記、違規引流的筆記,算法一直是可以清晰無誤地查出來的,只不過是運營中臺對賬號處理的松緊程度有關。例如哪個月要封賬號,哪個月要查資質,哪個月要抓引流,算法都有數據,人為去干預就好了。
關于文本的動態特征提取,大家可以重點看一下上面說的預估詞以及相關筆記,是一個非常有趣但是又很實用的模型算法,我從普通用戶的角度,覺得抖音和小紅書這塊做得很不錯。
小紅書算法對筆記內容的好壞,取決于用戶畫像和筆記畫像。用戶畫像一般是靜態信息,注冊賬號的時候就完成了一大半,性別年齡這些。筆記畫像包括做著打分、筆記質量、標簽、主題(主題是我上面提到的人工分類的幾百個算法里的主題,并不是下面帶的標簽或者內容主旨)。
在我們瀏覽推薦頁的時候,可以多看看一屏的內容(四篇筆記),特別是用別的賬號刷到自己賬號的時候,如果一屏還有其他和你一樣類目的筆記,重點研究,算法認為你們各方面都差不多,都展示了給用戶看。
本文由 @老趙說運營 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
小紅書絕對做了監聽和盜聊天記錄,跟朋友聊天新提到的,馬上就推薦了。
現在每個app都是~害
愛了愛了,看完后學到了很多。說實話小紅書推薦的內容真的大部分是我愛看的哈哈
哈哈有幫助就好
贊
感謝支持