說說智能推薦的那些事兒

7 評論 10909 瀏覽 135 收藏 20 分鐘

編輯導語:有人認為,智能推薦是一個偉大創造,是信息時代必不可少的工具。與此同時,有人急切的想要拒絕智能推薦,認為這種追蹤是對個人隱私的侵犯,也有人認為智能推薦會使我們獲取的信息越來越狹窄、越來越片面從而走進信息繭房。今天這篇文章中,作者就來為我們說說智能推薦的那些事兒。

一、智能推薦的重要性

智能推薦是非常重要的數據產品,是比較早期的實現了智能化、自動化的的數據產品。在現在的科技發展中,客服智能化了么?沒有~優惠券?定價?都還沒有智能化,只有分發實現了智能化。

字節跳動做智能推薦很厲害,對公司的業務產生了巨大的變革,所以今天我們把智能推薦這個事情來講講清楚,讓大家明白明白。

二、智能推薦的背景

用戶越來越多,商品越來越多,那么用戶想要找到想要找到的商品也越來越困難,讓某個或某些產品在眾多產品中脫穎而出也是特別特別的困難,簡單的來講就是供需匹配,兩者無法匹配的上,所以怎么辦呢?如何解決這個問題呢?

三、各類方案解決的優劣

所以當前有這么幾種解決方案,分別是搜索引擎、分類目錄和智能推薦,接下來我們就簡單介紹一下這三種解決方案的優劣勢。

1. 搜索引擎

需要用戶主動去搜索,這個是百度干的事兒,但是這個時候是需要用戶的目的性很強才行,要知道自己想要什么,但是很多時候我們并不知道我們想要什么東西,我也不想去絞盡腦汁去想我要什么,只想放松,那搜索可以做到么?做不到,可能搜索出來的東西并不是可以滿足我們的東西~

2. 分類目錄

在這個里面,我們要知道我們想要的東西屬于哪一種屬性,知道了之后才能去找,如果分類屬性選擇錯了,那就在當下這個錯的目錄里面永遠也找不到我想要的東西。而且一旦我不清楚我自己想要什么的時候,面對紛繁復雜的分類目錄,更是無從下手~

3. 智能推薦

而智能推薦呢?我不需要用戶提供明確的需求,我只需要根據用戶的歷史行為去建模,然后根據他們的歷史行為判斷接下來的行為和喜好,去給用戶做相對應的內容、產品推薦。所以當用戶沒有明確的目的的時候,也可以幫助用戶發現新內容。

四、智能推薦的機制

1. 人

建立用戶畫像,給用戶打上事實標簽和模型標簽,什么是事實標簽?就拿虛擬人物“小明”舉個例子吧!小明經常在某購物平臺上購物,并已完善自己的個人信息,那么平臺就會把該信息收集,作為事實標簽。

  • 姓名:小明
  • 性別:男
  • 身高:180cm
  • 體重:70kg
  • 愛好:看電影
  • 職位:產品經理
  • 目前所在地:上海
  • 消費等級:極高(根據日常消費習慣判斷)
  • ??搭愋彤a品:高科技產品、數碼產品、大牌運動鞋

那什么是模型標簽呢?就是系統可能會把一類人劃分為一個模型,他們的事實標簽可能會比較相似,這就是一個模型標簽。

我接著拿玉康舉例子:比如說系統給他們這一類人建的模型標簽名稱是“大款”,那可能別的某個大款看上了一個布加迪,加購并付款了,雖然孫玉康沒有看這個產品,但是可能布加迪及相關產品也會出現在孫玉康的推薦列表中。

2. 貨(內容)

給內容或產品打上標簽,比如一個運動上衣,可能會有夾克、運動、長袖、外套等等各種各樣符合這個產品的標簽,并記錄這個產品的售賣數量,收藏、加購的數量等。

然后通過人貨模型,就可以知道,比如說:年輕的女孩子,喜歡口紅,包包、購物、逛街;年輕的男孩子,喜歡女孩子,喜歡手機、手表、汽車,然后怎么匹配呢?

3. 場

就是在對應的場里做匹配,比如說首頁、Feed流、導航欄、個人中心等等,在你想要的場景匹配上你所需要的數據。

然后我可能有了這個標簽的推薦方法,我把一個東西推給一部分人,然后這部分人很喜歡這個東西,那我就可以把這個東西推給更多類似的用戶了,然后不停不停的去擴展流量,我就知道每個用戶喜歡什么東西了。

五、智能推薦系統的框架

1. 數據采集

怎么去采集???要去做埋點,要去記錄用戶的數據。

比如說一個用戶打開了我們的某小程序,他注冊的信息是什么?他是幾點打開的,幾點關閉的小程序,查看了哪些頁面,瀏覽了哪些產品,每個頁面的停留時間是多久,用的4G還是5G還是WIFI啊,在哪兒?

這時候用戶數據和行為數據都知道了,那什么是內容數據呢?比如說抖音,億萬的人在抖音產生了千億條抖音短視頻,這些都是內容數據。

2. 數據整理

采集到數據之后,就要把數據做標注,數據標注的類型有:圖片標注、語音標注、文本標注、視頻標注、道路標注、行人標注、人臉106點、圖像語義分割等。

然后有些數據是重復的,需要做合并,有些事無意義的數據,影響后面的數據整理,那就做數據清洗,把它干掉等等

3. 畫像體系

有了這些數據,我們就可以生成畫像了,就知道是什么了。

畫像有人物畫像,也有商品畫像;我們繼續來說小明,比如說:小明,26歲,性別男,愛好看電影,喜歡吃小龍蝦,商品畫像其實就是描述這個商品的內容的東西。

4. 算法引擎

  • 協同過濾:比如說小明喜歡《數據挖掘導論》,小紅喜歡《三個火槍手》,基于 UserCF(用戶協同過濾),找到與他們偏好相似的用戶,將相似用戶偏好的書籍推薦給他們;還可以基于ItemCF(物品協同過濾),找到與他們當前偏好書籍相似的其他書籍,推薦給他們。
  • 隱語義模型:根據用戶的當前偏好信息,得到用戶的興趣偏好,將該類興趣對應的物品推薦給當前用戶。比如,小明喜歡的《數據挖掘導論》屬于計算機類的書籍,那我們可以將其他的計算機類書籍推薦給他;小紅喜歡的是文學類數據,可將《巴黎圣母院》等這類文字作品推薦給她,這就是隱語義模型。

此外還有聚類模型等。

5. 推薦接口

由于有這些底層的數據及算法,那就可以根據這些數據通過接口,在某些場景去給他們做分發,我們繼續來說小明,不僅喜歡吃老鄉雞,還喜歡打網球,彈琴,琴棋書畫樣樣精通啊。孫總打開手機的時候,我就可以在他的用戶端的各個模塊下給他推薦他喜歡的東西了。

6. 底層規則控制及配置

比如說我知道孫總喜歡吃老鄉雞,可是我已經給他推送了3天了,第四天我再給他推送,估計他就吐了,那我給他推送一波小廚娘,名稱就很符合孫總的審美,他是不是就很大概率會買呀,這個就是一些規則的控制與配置,最后通過重新得到的數據去統計分析。

7. 數據采集及畫像構建

有些數據用戶會手動填寫,有些我們需要根據用戶的行為去分析、推測,還有一些 需要我們去埋點獲取。

8. 根據數據,構建用戶畫像

根據各個標簽,我們可以知道這個人的用戶畫像。然后根據這個人是誰,我們就可以去查找他對應的信息有哪些,我們就可以根據用戶畫像中的信息去推送他喜歡的東西。

9. 算法的工作機制

我們把用戶畫像和商品畫像丟到了算法池子里,過來一個一個用戶請求后,我們會先調用用戶畫像,讓我看看你是誰?

然后我會再看看我有哪些東西,知道了這些后,系統會按照你的需求去做召回,把東西從庫存中拿出來,比如說我從熱點里召回了500個,從興趣中召回500個,從TOP隊列中再召回500個,從很多隊列中召回。

比如說我們召回了1500個東西后,我不可能全給你展示,還是太多了,那我就會給這1500個東西評分,排出來個123,所以就會通過協同過濾去做一個排名,用RFM模型去做排序。這是第一次排序。

然后會根據一些運營規則和玩法再去做一次排序,為什么要做兩次排序呢?因為計算量太大了,所以要做兩次排序。排序之后,就是對每個人做一個千人千面的展示了。

六、冷啟動的問題

為什么是智能推薦系統?因為他有很多的數據去支撐你的整個系統,但是如果沒有數據該怎么辦呢?這個時候就需要做冷啟動了,冷啟動常遇到的問題分三種:

  1. 用戶冷啟動:主要解決的是如何給新用戶做個人化推薦的問題?
  2. 物品冷啟動:主要解決如何將新的物品推薦給可能對它感興趣的用戶這一問題;
  3. 系統冷啟動:主要解決如何在一個新開發的產品上(還沒有用戶,也沒有用戶行為,只有一些物品的信息)設計個性化推薦系統,使網站剛發布就讓用戶體驗到個性化推薦服務這一問題。

常見的冷啟動方法,如下圖:

七、智能推薦系統的指標體系

然后我們評價我們的系統是不是一個NB的系統,就需要建立一個指標體系,怎么建立這個指標體系呢?需要從三個維度來建立,第一是人的維度;第二是貨的維度,第三就是場的維度。

1. 人的維度怎么評價一個推薦系統做的好不好呢?

要看的是人均展現,就像女孩子逛街一樣,你開心你就多逛一會兒,不開心可能逛一會兒就結束了,看你吸不吸引她。

人均點擊就是她點進去這個產品查看了,閱讀時長(消費)指的就是這個東西符合他的口味,比如一本書,肯定是閱讀時間越長,越能表現這個這個書越符合人的口味,我推薦的東西,肯定是他買的越多,說明我們的系統越好。

她逛了多少家店,看了多長時間,買了多少錢,肯定是推薦系統越好,推薦的東西越符合他的品味,她逛的時間就越長。這個東西都是成正比的。那Dislike就是你不喜歡這個東西,不點擊,如果dislike率太高的話,那就說明我們的系統還是不太NB的。

所以說在對人的維度:是C端的維度,我們要考慮的是滿足用戶的需求。

2. 貨的維度,比如我哪些品類被曝光了,哪些品類被賣出去了

這個要看的是每個單品商品的拉新、留存、轉化能力。

為什么要說貨的維度呢?是為了建立一個穩定的生態,比如說抖音,就那么幾百個人火,其他人發了都不活,那么長此下去,還會有其他人去發抖音了么?不會了。

比如說漂亮小姐姐發啥都火,人均點擊量就是特別高,那我是一個糙老爺們兒,我沒有那么美麗的皮囊,但是我有內涵,我在抖音上講干貨,我的抖音沒人看,我發了幾次,一直沒人看,那我就不發了。

所以在算法上,為了生態平衡,為了生態的健康,系統也會給我一些流量,讓我的內容有點點擊率,也利于刺激我去做內容,從而擴大整個系統的生態。

所以在貨的維度上:是B端的維度,是為了要滿足生態的穩定性。

3. 場的維度、平臺的推薦機制等

我建了多少隊列,隊列是不是多樣的,覆蓋的內容是不是夠廣,內容時效性是不是夠強,不能說都2020年了,我給你推2001年911恐怖襲擊是吧?

還有我們的內容是不是低俗低質量的,比如什么我推的都是什么咪蒙文《港囧:斗小三的正確方式是,你要有很多很多的錢》、《如何科學的搞死渣男老公和小三》,都是很吸引人點擊的內容,但是畫風就很難看,所以為了持續的生態,平臺也要去打擊屏蔽類似的內容、字眼。

內容聚集度指的是:top100的內容占全部內容的比例,比如說我抖音top100的內容的播放量占了全部內容播放量的80%,說明大部分用戶只看頭部內容,那生態就是不健康的,我們還是希望是把流量平分給各個哥們兒。

但是各個平臺內容是不同的,比如說抖音主要是把流量分配給各個MCN機構的,但是快手的算法是把流量分配給各個老鐵的。大家可以試試,你去抖音發和快手發同樣的一個視頻,快手的播放量大多數是要超過抖音的,因為抖音的算法,除非爆款,不然他是不會把流量分發給你的。

而快手的Slogan是“快手,記錄生活”,是一個記錄生活的地方,他的流量分發是相對比較平均的。抖音為了讓大家的使用時長提高,廣告的轉化率提高,所以會推薦一些精品的內容,但是精品的內容制作是需要有團隊的,或者說門檻比較高,我們普通人制作不出來,所以內容聚集度就高了。

八、智能推薦還有哪些延伸?

比如說用在PUSH上,在大麥APP里,你平時關注的音樂會,我平時關注的是演唱會,那可能系統給你推薦的就是《【南京】【跨年場】《維也納施特勞斯之夜》新年交響音樂會》,給我推薦的可能就是《【南京】汪蘇瀧大娛樂家演唱會-南京站》。

比如說智能客服,同樣都是買東西遇到了困難,你是的手機維修,我的是家電維修,咱們兩個收到的內容也是不一樣的。

比如說智能營銷,孫博士在系統里是機械學院的老教授,張博士在系統里是生物學院的老教授,那系統給他們發送的內容,給孫博士發的就是機械相關的內容,比如說機械相關的產品,相關的會議。給張博士發的就是生物相關的產品和會議等。

再來說智能搜索, 智能搜索會根據每個人搜索的歷史記錄不同,所在國家、地區的不同,展示不同的搜索結果,現在谷歌,百度等搜索已經是了,比如說百度,你在南京搜醫院和你在北京搜醫院,展示的內容肯定是不同的。

此外還有什么東西可以用到智能的個性化的產品,大家可以自己在工作之余想想。

 

本文由@孤獨的美食家丿 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 我覺得你還應該再寫點兒文章(doge)

    來自北京 回復
  2. 好厲害,大佬

    來自上海 回復
  3. 優秀~

    來自河北 回復
  4. 文章很優秀

    來自山東 回復
  5. 你這真的是英俊瀟灑、風流倜儻、玉樹臨風、神勇威武、天下無敵、宇內第一、寂寞高手、刀槍不入、唯你獨尊、玉面郎君、仁者無敵、勇者無懼、英明神武、俠義非凡、義薄云天、古往今來、無與倫比、謙虛好學、…簡直是前不見古人后不見來者,玉樹臨風,風度翩翩,一樹梨花壓海棠……

    來自江蘇 回復
  6. 還行還行,一般優秀

    來自河北 回復
  7. 可以啊,好好努力,繼續肝

    來自河北 回復