策略產(chǎn)品經(jīng)理必懂標(biāo)簽生成策略及工程化邏輯

0 評論 166 瀏覽 0 收藏 13 分鐘

本文介紹了抖音推薦系統(tǒng)中的標(biāo)簽生成和迭代過程,以及如何通過用戶行為數(shù)據(jù)構(gòu)建標(biāo)簽體系,從而實(shí)現(xiàn)精準(zhǔn)的內(nèi)容推薦策略。

大家好,我是策略產(chǎn)品夏師傅。

男士的抖音里面為什么十個(gè)推薦里有八個(gè)是大長腿,它是怎么做的?

注意了,這個(gè)時(shí)候可能是你被打標(biāo)了。

那么標(biāo)簽是怎么生成的,又是怎么迭代的,我們一起來看看。

其實(shí),當(dāng)你是新用戶的時(shí)候,抖音并不知道你喜歡什么樣的視頻,這時(shí)候給你推薦的視頻完全是隨機(jī)推薦一些熱度高的視頻,在這些視頻的背后貼滿了一個(gè)個(gè)屬性標(biāo)簽。

比如:一個(gè)小姐姐的熱舞視頻,視頻的背后標(biāo)簽可能就是“美女”、“大長腿”、“跳舞”、“黑絲”等諸多標(biāo)簽;而一個(gè)做菜的美食視頻標(biāo)簽可能就是“美食”、“家常”、“廚藝教學(xué)”等諸多標(biāo)簽。

隨著你行為數(shù)據(jù)的豐富,你相應(yīng)的行為會加深生產(chǎn)標(biāo)簽的權(quán)重。比如:你在某個(gè)視頻的停留時(shí)間更長,觀看次數(shù)更多,點(diǎn)贊、評論、轉(zhuǎn)發(fā)等互動行為更多,那么這個(gè)視頻背后的標(biāo)簽在你的賬號上權(quán)重就會上升。

其實(shí),一句話:推薦內(nèi)容逐漸精準(zhǔn)的過程就是一個(gè)貼標(biāo)簽、統(tǒng)計(jì)標(biāo)簽、匹配標(biāo)簽和結(jié)合其他維度屬性的綜合過程。

通過一定數(shù)量的行為數(shù)據(jù)統(tǒng)計(jì),抖音就能大概知道你的喜好傾向,接下來的推薦視頻會根據(jù)你的喜好傾向,推薦帶有相同標(biāo)簽的高質(zhì)量視頻以做進(jìn)一步的分析,逐步完善,針對你喜好的推薦會越來越精準(zhǔn),獲得你更多停留時(shí)長的概率也就越高。

抖音圍繞著標(biāo)簽體系、召回模型、融合模型、排序規(guī)則等其他維度屬性排序做了一個(gè)綜合的策略體系。

用戶喜歡什么類型的視頻我們是不知道的,并且計(jì)算機(jī)無法理解人們主觀的思維,所以我們需要收集并分析用戶在平臺產(chǎn)生的行為數(shù)據(jù),把這些行為數(shù)據(jù)進(jìn)行精煉、歸類,形成一套完整閉環(huán)的標(biāo)簽體系去描繪用戶的數(shù)據(jù)形象。

標(biāo)簽體系的應(yīng)用流程

一套優(yōu)秀的標(biāo)簽體系結(jié)構(gòu)可以讓計(jì)算機(jī)更好的理解這些行為數(shù)據(jù),對于用戶意圖的判斷和數(shù)據(jù)召回模型的優(yōu)先級都有很重要的輔助作用。

整個(gè)標(biāo)簽體系的搭建圍繞著三個(gè)步驟去展開:標(biāo)簽建模、標(biāo)簽提煉、標(biāo)簽聚合

01 標(biāo)簽建模

搭建思路是將數(shù)據(jù)分為四個(gè)層級模型,第四層為預(yù)測模型,但預(yù)測模型的算法需要大量數(shù)據(jù)進(jìn)行演算,本次不做討論,所以暫且分為三層進(jìn)行構(gòu)建。

標(biāo)簽體系的流程架構(gòu)

第一層主要是原始數(shù)據(jù)庫,在這一層,我們考慮到數(shù)據(jù)存儲、采集難度和成本方面的因素,盡可能在可控成本內(nèi)獲取到盡可能多的原始數(shù)據(jù),因?yàn)楹竺嫠袠?biāo)簽體系構(gòu)建都將依托于原始數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行計(jì)算、分析、歸類、建模,所以在收集階段,原始數(shù)據(jù)庫的搭建要盡可能的全面,故在這一層的關(guān)鍵詞是:大量、數(shù)據(jù)。

而第二層級是根據(jù)第一層的原始數(shù)據(jù)通過算法計(jì)算、提煉、規(guī)劃成可以組成標(biāo)簽體系的一系列通用標(biāo)簽,而這類標(biāo)簽的存在形式類似于矩陣或者多個(gè)類別的集合。

在業(yè)務(wù)需要時(shí),該類標(biāo)簽從數(shù)量和維度都可以增加以滿足業(yè)務(wù)需求。所以第二層的關(guān)鍵詞是:通用、標(biāo)簽。

而對于第三層,我們可以通過對標(biāo)簽的聚合、提煉、建模等方式構(gòu)成用戶的多個(gè)“面”,并運(yùn)用于多個(gè)場景。例如:說小明在聽音樂時(shí)的畫像是搖滾、年輕、流行、活潑;而在學(xué)習(xí)時(shí)的畫像是認(rèn)真、專心、投入、經(jīng)濟(jì)學(xué)等。

通過用戶不同的角度實(shí)際運(yùn)用于各類業(yè)務(wù)需求,實(shí)現(xiàn)精準(zhǔn)化。所以在第三層的關(guān)鍵詞是:聚合、運(yùn)用。

02 標(biāo)簽提煉

獲得了大量的原始數(shù)據(jù)后,我們想把這些數(shù)據(jù)運(yùn)用起來,就需要把用戶的數(shù)據(jù)更加具象化。因?yàn)橐呀?jīng)把用戶數(shù)據(jù)采集起來了,基礎(chǔ)的標(biāo)簽可以直接運(yùn)用內(nèi)容的標(biāo)簽,通過對用戶感興趣的內(nèi)容給用戶貼標(biāo)簽。

1. 內(nèi)容標(biāo)簽化

首先要把內(nèi)容標(biāo)簽化了,根據(jù)行為的不同制定不同類別不同級別的標(biāo)簽,可以是描述性,也可以是具象性的,根據(jù)實(shí)際業(yè)務(wù)需求去適應(yīng)即可,形式并不限制。但內(nèi)容的標(biāo)簽最好具有通用性,可以是適用于采集到的用戶數(shù)據(jù)的大部分的主體內(nèi)容。例,房產(chǎn)類網(wǎng)站,這個(gè)類別的標(biāo)簽可以是房子的區(qū)域、單價(jià)、面積、數(shù)量等。

內(nèi)容標(biāo)簽化

內(nèi)容標(biāo)簽化的時(shí)候需要注意,標(biāo)簽值需要一個(gè)統(tǒng)一的維度,在維度統(tǒng)一的前提下,后期使用或者比較數(shù)據(jù)才具有對比性。例,圖1-3,區(qū)域的維度需要統(tǒng)一,如果決定是以行政區(qū)為維度,那么每個(gè)房源信息中的“區(qū)域”都需要以這個(gè)維度去統(tǒng)計(jì),不能以其他維度進(jìn)行統(tǒng)計(jì)。這個(gè)邏輯下來,房源id為101的標(biāo)簽信息為:豐臺區(qū)、3單價(jià)、3套房源、40-50平方、….

2. 用戶標(biāo)簽化

接下來就是把內(nèi)容所代表的標(biāo)簽根據(jù)用戶的行為賦予在用戶身上,這個(gè)過程就要研究用戶的興趣傾向,通過對用戶行為的分析,判斷出用戶感興趣的內(nèi)容,把這部分內(nèi)容的標(biāo)簽,提煉、聚合后賦予至用戶身上。

在用戶的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶對不同內(nèi)容的不同互動數(shù)據(jù),代表這個(gè)用戶對于當(dāng)前內(nèi)容的興趣傾向程度。例,用戶的瀏覽(時(shí)長/頻率)、點(diǎn)擊、分享/收藏/關(guān)注等。

通過對不同行為進(jìn)行賦值,我們就可以通過分值的計(jì)算得出用戶最感興趣的一組標(biāo)簽。

在用戶的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶對不同內(nèi)容的不同互動數(shù)據(jù),代表這個(gè)用戶對于當(dāng)前內(nèi)容的興趣傾向程度。例,用戶的瀏覽(時(shí)長/頻率)、點(diǎn)擊、分享/收藏/關(guān)注等。

通過對不同行為進(jìn)行賦值,我們就可以通過分值的計(jì)算得出用戶最感興趣的一組標(biāo)簽。

用戶行為賦值計(jì)算表

完成對于關(guān)鍵行為的權(quán)重分值計(jì)算后,我們需要把用戶數(shù)據(jù)按照上面內(nèi)容標(biāo)簽化的方式打散成標(biāo)簽,并且賦予其中,關(guān)鍵行為的對應(yīng)分值。

標(biāo)簽賦值后優(yōu)先級排選邏輯

把標(biāo)簽與分值關(guān)聯(lián)并進(jìn)行計(jì)算。例,商品A的標(biāo)簽“商品產(chǎn)地”的值有“福建、廣東、、云南、浙江、河北”等,通過分值計(jì)算,找到分值最高的值作為該用戶此標(biāo)簽的值。

03 標(biāo)簽聚合

首先將數(shù)據(jù)分為幾個(gè)大類,每個(gè)大類再進(jìn)行逐層細(xì)分。在構(gòu)建標(biāo)簽時(shí),只需要構(gòu)建最下層的標(biāo)簽,就能夠映射出上面兩級標(biāo)簽。

標(biāo)簽排序?yàn)橐患?gt;二級>三級,一級為上層標(biāo)簽,三級為最下層標(biāo)簽。

上層標(biāo)簽都是抽象的標(biāo)簽集合,一般沒有實(shí)用意義,只有統(tǒng)計(jì)意義。例,我們可以統(tǒng)計(jì)有用戶信息標(biāo)簽的用戶比例,但用戶有用戶信息標(biāo)簽,這本身對精準(zhǔn)的推薦沒有任何意義。

底層標(biāo)簽與上層標(biāo)簽的聚合關(guān)系

首先,對于底層標(biāo)簽有兩個(gè)要求:一個(gè)是每個(gè)標(biāo)簽只能表示一種含義,避免標(biāo)簽之間的重復(fù)和沖突,便于計(jì)算機(jī)處理;另一個(gè)是標(biāo)簽必須有一定的語義,方便相關(guān)人員理解每個(gè)標(biāo)簽的含義。

其次,標(biāo)簽的粒度也是需要注意的,標(biāo)簽粒度太粗會沒有區(qū)分度,粒度過細(xì)會導(dǎo)致標(biāo)簽體系太過復(fù)雜而不具有通用性。

下面這張圖是我訓(xùn)練營當(dāng)中的一個(gè)標(biāo)簽庫資料,其中有很多標(biāo)簽都是比較獨(dú)特的標(biāo)簽:

那么此時(shí)該如何生產(chǎn)自己的標(biāo)簽。

這里不得不說,在標(biāo)簽體系當(dāng)中,對于推薦,精準(zhǔn)營銷等應(yīng)用場景來講,最常見,也是最常用的應(yīng)該是偏好類標(biāo)簽,也就是用戶喜歡什么。

因此,我們加工的思路也就很直接了,通過用戶行為數(shù)據(jù)去進(jìn)行偏好標(biāo)簽的加工,這是業(yè)界最常用的標(biāo)簽生產(chǎn)方式。

比如用戶三級類目偏好,通過用戶在平臺的瀏覽,收藏,關(guān)注,加購,下單等行為,完全可以反映出用戶的長短期興趣偏好。

04 總結(jié)

推薦策略是解決互聯(lián)網(wǎng)海量信息資源出現(xiàn)信息過載問題的方法,也是為了解決問題、提高效率的架構(gòu)體系。在做推薦策略前先問問自己要解決哪方面的問題,這個(gè)推薦策略能提高哪方面的效率,不要為了做推薦而做推薦,推薦策略更多的是平衡商業(yè)化和用戶體驗(yàn)的一個(gè)解決方案,要考慮自己業(yè)務(wù)整體情況去酌情調(diào)整。

本文由人人都是產(chǎn)品經(jīng)理作者【夏唬人】,微信公眾號:【策略產(chǎn)品夏師傅】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!