做AI推薦系統,產品經理要“能文”也要“會武”
編輯導讀:文章從AI推薦系統的概況和增長壓力下業務對推薦系統產品的渴求出發,介紹了介紹產品經理必懂的推薦系統技術,包含文的技術、武的技術、推薦系統框架、推薦系統大數據和推薦系統算法,其中重點講解了寬度學習在推薦系統產品中的應用,供大家一同參考和學習。
AI推薦系統,這些年我參加過不少線下推薦系統的會,推薦系統是繼數據產品經理,B端產品經理,AI產品經理之后最熱門的產品經理崗位。
例如:不同年份參加有關Amazon亞馬遜公司GMV有多少來自推薦系統的功勞時,據會上有關PPT顯示是一年比一年高,具體如下:
- 2019年PPTAmazon40%收入來自推薦引擎;
- 2017年PPTAmazon35%收入來自推薦引擎;
- 2015年PPTAmazon25%收入來自推薦引擎;
但是做推薦系統需要產品負責人必須懂得兩個方面的內容,一個方面是文,一個方面是武。
文一:標簽體系
能夠梳理自己的手頭資料,例如,有什么內容,內容以圖文為主還是以長視頻和短視頻為主。
會對內容進行打標簽。例如:我工作過的視頻APP結合硬件的公司其標簽系統如下:
標簽系統是推薦系統產品經理的基本功,屬于非算法技術的模塊,故此算“文”的部分。上圖是視頻的標簽系統的業務架構邏輯。
此標簽體系主要是針對視頻,其中業務包含長視頻和短視頻,長視頻:基于最細粒度標簽向量,人工打權重,用向量相似計算節目相似度;短視頻:基于三級標簽,利用產品運營策略、規則、算法計算相似度。利用NLP從標題中提取關鍵詞補充三級標簽,建立倒查索引表,實時更新相似度。
標簽系統主要分,標簽的數據結構,標簽的數據類型,標簽的數據來源,標簽的系統功能。
數據結構(英語:data structure)是計算機中存儲、組織數據的方式。
標簽的數據結構一般分為三級,一級,二級表示標簽的功能;三級表示標簽的具體信息;這種數據結構來自按業務需求進行的梳理。梳理標簽分類時,盡可能按照MECE原則,相互獨立,完全窮盡。每一個子集的組合都能覆蓋到父集所有數據。標簽深度控制在三、四級比較合適,方便管理,到了第四級就是具體的標簽實例。
我們的視頻標簽數據結構是分為三級,例如,人口屬性——性別-性別(男)這樣的數據結構來梳理的。
數據類型(英語:Data type),又稱數據型態、數據型別,是用來約束數據的解釋。在編程語言中,常見的數據類型包括原始類型(如:整數、浮點數或字符)、多元組、記錄單元、代數數據類型、抽象數據類型、參考類型、類以及函數類型。數據類型描述了數值的表示法、解釋和結構,并以算法操作,或是對象在存儲器中的存儲區,或者其它存儲設備。
在我們的標簽體系中一般是指產品對應具體的業務內容,視頻的產品經理一般會按照長視頻,例如:短視頻的變遷數據類型會分為,分類標簽,欄目標簽,內容標簽等。分類標簽是指短視頻的類別,例如屬于教育、音樂還是舞蹈等等,欄目標簽是指某個短視頻欄目,然后是具體的內容。
那么標簽的數據來源是怎么來的呢?一方面是手工人工對內容進行梳理,標簽化。另外一方面算法對視頻標題內容和視頻簡介進行分詞理解。
文二:用戶畫像
用戶畫像是由N維度的用戶標簽生成的,用戶畫像將推薦系統設計的焦點放在目標用戶的動機和行為上,從而避免產品設計人員草率地代表用戶。產品設計人員經常不自覺的把自己當作用戶代表,根據自己的需求設計產品,導致無法抓住實際用戶的需求。往往對產品做了很多功能的升級,用戶卻覺得體驗變差了。
在大數據領域,用戶畫像的作用遠不止于此。用戶的行為數據無法直接用于數據分析和模型訓練,我們也無法從用戶的行為日志中直接獲取有用的信息。而將用戶的行為數據標簽化以后,我們對用戶就有了一個直觀的認識。
同時計算機也能夠理解用戶,將用戶的行為信息用于個性化推薦、個性化搜索、廣告精準投放和智能營銷等領域。
為視頻做推薦系統,需要了解視頻用戶的特征,這些特征傳統方法可以通過特征工程來做,但是有了AI后,可以用神經網絡自動提取特征。如下圖:
我們已經落地的視頻用戶的標簽體系主要分為基礎標簽,包含設備的型號和設備的LBS位置等,以及用戶的家庭結構還有核心目的預測用戶的需求的標簽,例如:是否已婚、是否有房、從事的行業等等。
我們視頻類產品用戶的標簽主要來自于業務系統,例如用戶用過手機看視頻,用戶通過電視看視頻,用戶看廣告并點擊了某類型的廣告,用戶在第三方平臺的數據等等。
然后我們將用戶數據ETL進入數倉,同時也會利用AI的工具例如TensorFlow等生產出新的數據,進而形成用戶畫像,然后封裝好供推薦系統和內容運營人員利用。
武一:懂大數據和推薦系統的關系
推薦系統是幫助人們解決信息獲取問題的有效工具,對互聯網產品而言用戶數和信息總量通常都是巨大的,每天收集到的用戶在產品上的交互行為也是海量的,這些大量的數據收集處理就涉及到大數據相關技術,所以推薦系統與大數據有天然的聯系,要落地推薦系統往往需要企業具備一套完善的大數據分析平臺。
推薦系統與大數據平臺的依賴關系如下圖。
上圖顯示,大數據平臺包含數據中心和計算中心兩大抽象,數據中心為推薦系統提供數據存儲,包括訓練推薦模型需要的數據,依賴的其他數據,以及推薦結果,而計算中心提供算力支持,支撐數據預處理、模型訓練、模型推斷 (即基于學習到的模型,為每個用戶推薦) 等。
武二:推薦系統架構
好的技術架構一定來自對業務發展的持續支撐,不僅不耽誤業務發展且能夠激發業務發展。我們的架構平臺不是為了追隨熱點而是為了持續的激發業務創新,為客戶用戶提供搞好的有價值的內容。
上圖為我們產品,我們的產品有很多,例如有手機APP應用,有電視端應用,有愛奇藝,也有奇秀,還有奇巴布等等產品,中間左側我們有BI中臺,中間右側我們有AI中臺,包含做好的推薦結果,推薦文檔等等,下面是大數據處理架構,將數據源數據進行數據清洗,然后輸入到數據中臺,數據中臺包含數倉,下面右側是計算平臺,包含實時(流式計算)計算引擎和離線計算以及聯合GPU拓展做的機器學習平臺。最右側是一些常規的例如:AB測試、業務監控、業務指標體系等等功能模塊。
好的推薦系統不是計算平臺里有多少前沿的未經融合的算法,也不是AI中臺里面封裝了多少算法模型,而是能夠給用戶帶來喜悅感和價值,同時為公司來帶業務的持續增長,否則推薦系統就僅僅放在實驗室里的擺設。
武三:寬度學習
一個好的推薦系統目標是清晰的,但是在實現用戶驚喜和公司業務的持續增長上完全靠機器學習有時候是不能給用戶帶來人性的溫暖的。所以筆者提出用寬度學習來做推薦系統的想法。(當然Wide本身的靈感來自2015年谷歌的論文,只是筆者用于實踐并落地了)。
上圖是筆者繪制的將寬度學習應用于推薦系統的抽象圖。我們知道一般推薦系統要么基于用戶進行推薦,用類似用戶的相似偏好進行推薦,要么是基于物品(我們是視頻)的相似度進行推薦,但是這種方式放入機器學習會有兩個方面的問題:
一個是數據稀疏,例如用戶沒有對某物品購買夠,收藏過,觀看過,點贊過那么構成的用戶行為數據矩陣或者物品數據矩陣里面會有很多空白。另外一個問題是總有一些維度數據缺失,目前據筆者所知淘寶可以為用戶標簽打到幾百萬維度,但是依然存在不懂用戶的角度,所以這個時候就需要員工從人性的角度為推薦引擎進行協同。
所以,寬度學習應用于推薦系統是指在機器學習深度學習所搭建的推薦引擎之外搭建人工推薦引擎一融合更好的為用戶帶來推薦的驚喜和滿意。
寬度學習寬的部分主要是指,用戶年齡、用戶的設備型號、用戶的社會參與狀況及人文背景。這樣就拓展了人物在機器學習不到或者難以機器學習的地方的信息量和作為人類的心理感受參數。
最后
做出優秀的推薦系統需要克服的問題有:
- 多端設備相同用戶或單端設備不同用戶;
- 用戶非登錄;
- 新用戶;
- 用戶對隱私的關注;
- 算法配合UI和內容運營在邊緣端呈現給用戶的結果;
- 數據源的拓展;
- 另選與行業競對的內容或者體驗。
能做到以上七點的推薦系統時下應該能夠獲得用戶的驚喜。
我有時候喜歡做工程師,喜歡這種靜下來做出東西來的小成就感,我有時候喜歡市場運營喜歡那種對用戶運營的套路慢慢,不論是哪種最后我們都要給客戶持續帶來新產品新服務和新體驗。
#專欄作家#
連詩路,公眾號:LineLian。人人都是產品經理專欄作家,《產品進化論:AI+時代產品經理的思維方法》一書作者,前阿里產品專家,希望與創業者多多交流。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash, 基于CC0協議
算法配合UI和內容運營在邊緣端呈現給用戶的結果
老師您好,這個在“邊緣”端,是什么意思???