如何構建推薦系統(tǒng)的優(yōu)化目標
在推薦系統(tǒng)當中,一旦策略產品經理和算法工程師在商量與構建優(yōu)化目標不夠準確,這會帶來的后果就是和實際期望的效果南轅北轍、大相徑庭,甚至給整個公司業(yè)務目標、商業(yè)收入帶來致命的影響。有一句話說的很好:如果一項技術本身是新穎并且先進的,但是應用的方向和實際需求的方向有很大的偏差,那么這項技術的成果不可能是顯著的。
做策略產品在構建你的目標的時候,一定要像毛主席說的那樣“戰(zhàn)術上藐視敵人戰(zhàn)略上重視敵人”。切忌不能用戰(zhàn)術上的勤奮掩蓋戰(zhàn)略上的懶惰,所以合理設定與構建推薦系統(tǒng)業(yè)務目標建模應該是推薦策略產品經理需要再構建推薦系統(tǒng)業(yè)務目標排序的時候應該首要考慮的問題,這也是Arthur在這里著重強調業(yè)務建模的重要性。這里以抖音短視頻、京東作為推薦系統(tǒng)的兩個案例,來講講內容推薦場域、電商推薦場域下構建優(yōu)化目標建模的差異。
一、抖音短視頻以構建有效觀看時長為優(yōu)化目標的合理性
1.1 抖音短視頻現狀與背景
抖音短視頻的主要商業(yè)模式是通過免費視頻播放帶來的廣告收入(此處僅說明巨量廣告,非巨量千川廣告,CPM計費),其視頻廣告會在自然推薦的媒體視頻之間進行穿插,因此抖音本身的廣告收入適合用戶的觀看時長、下拉短視頻數量呈現正比關系的。因此為了達成抖音短視頻的商業(yè)目標,其優(yōu)化核心建模不是圍繞點擊率CTR、等傳統(tǒng)推薦系統(tǒng)意義上的CTR預估優(yōu)化目標,而是用戶的有效播放時長。
圖1-1 抖音推薦系統(tǒng)
如上圖所示,我們邏輯推演與猜想下來看,用戶的點擊率CTR在數據分布上會與用戶的短視頻播放時長有一定的正相關性,但是兩者還是存在“用戶、物料特征”以及“優(yōu)化動機”上存在一定的差異。
圖1-2 抖音夸張式吸睛內容
如果推薦系統(tǒng)是優(yōu)化點擊率來看的話,那么推薦系統(tǒng)模型側重就會以優(yōu)化——創(chuàng)意優(yōu)選/生成部分,推薦“標題黨”、“吸睛眼球一跳”等虛假、色情類吸引眼球的短視頻,這一類短視頻的特點就是點擊率CTR賊高,但是用戶一旦發(fā)現虛假宣傳就會跳失,客戶觀看時長較短,對劣質內容缺少觀看下去的耐心。
圖1-3 抖音優(yōu)質內容
如果推薦系統(tǒng)是優(yōu)化觀看時長來看的話,更多的就需要考慮視頻本身的質量、內容的興趣度,用戶視頻的互動、好評以及視頻本身的長短特征內容,此時推薦 優(yōu)質的內容 > 吸睛的內容。
所以綜上述來看推薦目標建模的差異其實就直接導致了推薦系統(tǒng)傾向性、特征工程等細節(jié)策略工作的不同,進而就直接影響了“增加用戶播放時長”這個集團商業(yè)化目標。
1.2 Youtube在推薦系統(tǒng)排序模型設計
我們借助Youtube在推薦系統(tǒng)模型來距離推演一下(抖音與youtube在優(yōu)化視頻優(yōu)化目標上有一定的相似性,因此可以作為借鑒),引入播放時長作為優(yōu)化目標。其本質還是把推薦視頻的問題看做是一個分類問題對待,也就是預測用戶是否點擊某個視頻。
這一點大家肯定會比較好奇,Arhtur的老粉應該知道,預測短視頻的播放時長應該是個回歸問題(預測離散數值),而不是個分類問題。Youtube巧妙就在于其把播放時長轉化成了正樣本的權重,輸出層再利用加權的邏輯回歸進行訓練,預測過程中利用算式來計算樣本的概率,這個概率就是模型對播放時長的預測,這就完美的把邏輯回歸輸出的結果映射成了對于觀看時長的預測。
圖1-4 Youtube推薦模型框架設計
從左往右的部分用的是依次是視頻觀看的低維稠密embedding向量,包括歷史看過的視頻id,曝光視頻id、互動行為下的視頻id等等然后做平均池化。第二個是語言Embedding,主要是用戶語言以及視頻語言。第三個是對上次觀看時間進行歸一化。第四個是對已經曝光次數進行歸一化。
由此而看,視頻對于播放時長的預測是符合抖音、Youtube視頻類型廣告盈利模式和商業(yè)價值的,制定一個合理的優(yōu)化目標對于推薦系統(tǒng)實現商業(yè)目標是關鍵而且非常有必要的。
二、淘寶、京東電商推薦系統(tǒng)以構建點擊轉化率為優(yōu)化目標的合理性
2.1 電商場域構建點擊轉化率優(yōu)化目標的難點
在淘寶等電商類網站做推薦,用戶從登陸到購買的過程可以劃分為兩步:
第一步,商品發(fā)生曝光行為,用戶點擊后進入商品詳情落地頁。
第二步,用戶在商品內頁發(fā)生成交、下單行為。
電商網站推薦系統(tǒng)的商業(yè)目標是通過推薦使用用戶產生更多的點擊、購買行為。所以如果按照這個商業(yè)建模目標來說應該是一個CVR預估模型。
圖1-5 淘寶、京東推薦系統(tǒng)
但是大家應該有所發(fā)現,下單成交的行為其實是發(fā)生在了第二步,故推薦CVR模型在進行訓練的時候光訓練點擊后的成交轉化行為樣本其實是脫節(jié)的——客戶并不是登陸電商APP就直接到了商品詳情頁,一定是曝光一跳頁面點擊發(fā)生之后預估轉化CVR模型才會有效。如果直接在一跳創(chuàng)意信息流情形暴力預估轉化率CVR,肯定會有預估偏差,導致效果與目標的不一致問題。
圖1-6 訓練空間和預測空間不一致問題
如1-6所示,點擊Click點擊 -> Conversion轉化和Impression展現 -> Click點擊,存在樣本空間銜接,但是本身是相互獨立的,兩者沒有完全的正相關關系,所需要的樣本、模型需要的特征、屬性都是不一樣的。例如點擊可能只是看用的興趣,可以用比較吸引眼球的創(chuàng)意 99%的人都在賣,100%好評,70%的都在回購等。但是成交考慮的特征可能更多的就是物品的優(yōu)惠程度、用戶的消費力等特征。
所以,最佳的思路方法還是分兩步來構建模型,第一步構建CTR點擊率預估模型,第二步構建點擊轉化的CVR預估模型。這個方法有個缺陷就在于第一步CTR模型預估其實和最終的優(yōu)化目標是脫節(jié)的,因為問題的最終是希望優(yōu)化下單成交而不是點擊,在第一步只考慮點擊數據顯然不是全局最優(yōu)。
2.2 阿里的多目標優(yōu)化模型ESSM
為了同時達到電商場景的上述兩階段目標,阿里提出了多目標ESSMM模型(Entire Space Multi-task Model)。其同時模擬優(yōu)化CTR、CVR兩個階段。
圖1-7 ESSM優(yōu)化模型架構圖
上述為阿里的ESSM模型,最下層分別是CVR預估模型用戶域、商品域Embedding和CTR預估模型用戶域、商品域Embedding,兩者中間的Shared Lookup Table是通過標的形式共享Embedding的內容,目的就是為了解決CVR因為正樣本系數的問題,利用CTR數據生成更加準確的用戶和物品的特征向量表達。
中間的神經網絡域感知池化層、多層感知機,兩個目標的模型各自獨立完全隔離,去擬合各自的優(yōu)化目標pCVR和pCTR,最終在最上部分預估點擊率pCTR和預估轉化率pCVR相乘得到最后的結果預估點擊轉化率pCTCVR,兩者之間的關系如下圖所示。
pCTCVR是左側,指代一個條件概率事件,首先必須要發(fā)生曝光點擊行為,即p(y = 1 | x),再來計算CVR轉化概率。ESSM即同時將pCVR、pCTR以及pCTCVR三個目標統(tǒng)一融入到一個模型當中,可以得出三個優(yōu)化目標的值,可以根據對應的目標場景預測對應的值,一個多目標優(yōu)化的模型即解決前面說的“訓練樣本的空間和模型預估優(yōu)化空間不一致”的問題,同時也實現了曝光點擊和點擊轉化的全局優(yōu)化效果。
三、關于推薦系統(tǒng)構建優(yōu)化目標因地制宜的一些思考與總結
所以從上述的例子可以看出來,無論是抖音、YouTube,還是淘寶、京東,推薦系統(tǒng)的應用場景和真正的商業(yè)目標其實是有差異的,并不是推薦系統(tǒng)可以“一招鮮吃遍天”的方式進行優(yōu)化,所有的推薦系統(tǒng)都按照一個優(yōu)化目標方向都采用統(tǒng)一的模型去優(yōu)化。
很多策略產品、算法工程師都是直接調研照抄行業(yè)最領先的模型,表示“阿里用的就是這個,你別管做完實驗推全就行了”,這是典型的沒有將實際業(yè)務場景和策略目標相結合。
為什么一直鼓勵大家一定要距離業(yè)務更近一點?對業(yè)務目標建模后面才是我們運用“策略”這個工具幫助我們高效去實現業(yè)務目標的達成,每一個策略產品首要遵循的原則就是結合公司業(yè)務發(fā)展的階段與場景,來實現優(yōu)化目標的落地,這不是一個純粹的系統(tǒng)性技術問題,而是多方協(xié)調一致的結果,需要產品、運營,前臺內容團隊共同協(xié)商達成的結果,只有確定好優(yōu)化目標,技術團隊才可以轉型的致力于模型的改進和調整,上下同心去解決公司的也目標,避免戰(zhàn)略性的錯誤和失敗,提高各方效率。
最后,還是一句建議給到策略產品經理的小伙伴們:戰(zhàn)術上藐視敵人戰(zhàn)略上重視敵人,切忌不能用戰(zhàn)術上的勤奮掩蓋戰(zhàn)略上的懶惰。如果有幫助大家希望大家?guī)兔c贊、評論與收藏,這個對我很重要。
本文由 @策略產品Arthur 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
是技術轉產品的嗎?感覺對技術的理解很深入,厲害厲害