標(biāo)簽畫(huà)像系統(tǒng)如何進(jìn)行標(biāo)簽質(zhì)量的評(píng)估?
編輯導(dǎo)語(yǔ):標(biāo)簽畫(huà)像系統(tǒng),簡(jiǎn)單說(shuō)就是把用戶(hù)分到多少個(gè)標(biāo)簽里面去。每個(gè)用戶(hù)可以分到多個(gè)標(biāo)簽里,這些標(biāo)簽之間也有著聯(lián)系,彼此構(gòu)成了標(biāo)簽畫(huà)像系統(tǒng)。本文作者今天針對(duì)標(biāo)簽畫(huà)像系統(tǒng)中的標(biāo)簽質(zhì)量展開(kāi)了分析,告訴了我們?yōu)槭裁匆M(jìn)行標(biāo)簽質(zhì)量評(píng)估,以及如何進(jìn)行標(biāo)簽質(zhì)量的評(píng)估。
針對(duì)標(biāo)簽質(zhì)量評(píng)估,簡(jiǎn)單進(jìn)行一些分享。
一、為什么要進(jìn)行標(biāo)簽質(zhì)量評(píng)估
首先,為什么要進(jìn)行標(biāo)簽質(zhì)量評(píng)估?
想象一下,我們開(kāi)發(fā)了一個(gè)標(biāo)簽,比如“用戶(hù)年齡”標(biāo)簽吧,業(yè)務(wù)想針對(duì)20-30歲的人進(jìn)行精準(zhǔn)投放。但經(jīng)過(guò)篩選,才篩出來(lái)幾千個(gè)人,和公司總體用戶(hù)相比僅僅是九牛一毛,那這樣的標(biāo)簽,還有價(jià)值不?
因此,對(duì)標(biāo)簽的質(zhì)量進(jìn)行科學(xué)完整地評(píng)估,有助于控制標(biāo)簽質(zhì)量,指導(dǎo)標(biāo)簽的管理者、開(kāi)發(fā)者不斷地提升標(biāo)簽質(zhì)量。通過(guò)創(chuàng)建一套完整的評(píng)估體系,對(duì)于質(zhì)量過(guò)差的標(biāo)簽,可以考慮不進(jìn)行上線,等達(dá)到基本的質(zhì)量要求后才能開(kāi)放給業(yè)務(wù)使用。
不然,既對(duì)業(yè)務(wù)帶來(lái)不了價(jià)值,也容易讓標(biāo)簽畫(huà)像系統(tǒng)失去用戶(hù)的信任。
回過(guò)頭來(lái),上面這個(gè)例子反映的問(wèn)題,其實(shí)就是標(biāo)簽的質(zhì)量差,準(zhǔn)確地說(shuō),是標(biāo)簽的覆蓋度太低了。
除了覆蓋度,還有很多指標(biāo)可以衡量一個(gè)標(biāo)簽的質(zhì)量,咱們?cè)谙旅嬖敿?xì)展開(kāi),主要通過(guò)數(shù)據(jù)質(zhì)量、應(yīng)用質(zhì)量、業(yè)務(wù)質(zhì)量三個(gè)方面來(lái)評(píng)價(jià)標(biāo)簽的質(zhì)量。
二、標(biāo)簽質(zhì)量評(píng)估:數(shù)據(jù)質(zhì)量評(píng)估
數(shù)據(jù)質(zhì)量是標(biāo)簽質(zhì)量最基礎(chǔ)的評(píng)價(jià),主要分為準(zhǔn)確度和覆蓋度兩部分:
1. 標(biāo)簽的覆蓋度
標(biāo)簽覆蓋度的含義,是指在一個(gè)標(biāo)簽中,有業(yè)務(wù)含義的人群數(shù)量與總?cè)巳簲?shù)量的比例。
舉個(gè)例子:【性別】標(biāo)簽,全量用戶(hù)是100萬(wàn)的規(guī)模,其中40萬(wàn)打上了“男性”標(biāo)簽,35萬(wàn)打上了“女性”標(biāo)簽,其他25萬(wàn)人都沒(méi)有打上任何標(biāo)簽。
那么,【性別】標(biāo)簽的覆蓋度就是75%。
這個(gè)覆蓋度還算是比較可以,想象一下如果覆蓋度只有20%,會(huì)有哪些影響呢?可能會(huì)有下面的負(fù)面影響:
- 用標(biāo)簽進(jìn)行人群圈選的時(shí)候,人數(shù)過(guò)少;
- 用標(biāo)簽統(tǒng)計(jì)平臺(tái)用戶(hù)的特征時(shí),和真實(shí)情況會(huì)有偏差。
因此,提升標(biāo)簽的覆蓋度是標(biāo)簽的基本質(zhì)量要求。
為啥會(huì)出現(xiàn)標(biāo)簽覆蓋度低的情況?往往是一些用戶(hù)自己填寫(xiě)的標(biāo)簽,覆蓋度極低,之前的文章中也介紹過(guò)。
2. 標(biāo)簽的準(zhǔn)確度
標(biāo)簽準(zhǔn)確度的含義,是指給用戶(hù)打的標(biāo)簽中,準(zhǔn)確反映事實(shí)的人群數(shù)量與總?cè)巳簲?shù)量的比例。
舉個(gè)例子:【性別】標(biāo)簽,用戶(hù)A真實(shí)情況是男性,但是打標(biāo)簽打成了女性,那么這就是一個(gè)錯(cuò)誤的標(biāo)簽值。假設(shè)100萬(wàn)用戶(hù),真實(shí)情況50萬(wàn)男性50萬(wàn)女性,有以下表格:
那么這個(gè)標(biāo)簽的準(zhǔn)確度就是:(35+30)/(35+5+5+30)=86.7%
提升標(biāo)簽準(zhǔn)確度的意義也是不言而喻的,準(zhǔn)確度如果太低,那這個(gè)標(biāo)簽基本喪失了應(yīng)用價(jià)值;至于閾值的設(shè)置,還是基于各自的業(yè)務(wù)情況來(lái)定。
三、標(biāo)簽質(zhì)量評(píng)估:應(yīng)用質(zhì)量評(píng)估
應(yīng)用質(zhì)量的評(píng)估是從產(chǎn)品角度出發(fā),評(píng)估標(biāo)簽對(duì)于產(chǎn)品應(yīng)用的價(jià)值。若一個(gè)標(biāo)簽的數(shù)據(jù)質(zhì)量高,但是用戶(hù)都用不起來(lái)、不好用,那么也是難以發(fā)揮出標(biāo)簽內(nèi)在的價(jià)值。
舉個(gè)常見(jiàn)的例子:大家都會(huì)做的一個(gè)標(biāo)簽,【用戶(hù)近30天gmv值】,這個(gè)標(biāo)簽(是個(gè)連續(xù)性值,但可以說(shuō)是個(gè)廣義的標(biāo)簽)按照上文的標(biāo)準(zhǔn)衡量,覆蓋度高,100%的用戶(hù);準(zhǔn)確度也高,100%(SQL正確的話……),那這個(gè)標(biāo)簽有用嗎?
往往業(yè)務(wù)不太愛(ài)用這種連續(xù)值的標(biāo)簽,為什么?
——因?yàn)檫@種標(biāo)簽的應(yīng)用質(zhì)量太差了。
對(duì)于業(yè)務(wù)來(lái)講,【近30天gmv值】是1萬(wàn)美金,這個(gè)是高還是低?
——如果是沒(méi)有經(jīng)驗(yàn)的業(yè)務(wù)人員是完全無(wú)法判斷的。
因此,要將這種標(biāo)簽的應(yīng)用價(jià)值提升。針對(duì)這個(gè)例子,提升的方法可以是把連續(xù)值分段,做成【高價(jià)值】、【中價(jià)值】、【低價(jià)值】,也可以做分布曲線給用戶(hù)提供參考。
再比如:一個(gè)標(biāo)簽是用戶(hù)常用的搜索詞,如果不進(jìn)行一些特殊的加工,將是很冗余的長(zhǎng)串字符,用起來(lái)也是體驗(yàn)很差,這也屬于應(yīng)用質(zhì)量低。
關(guān)于應(yīng)用價(jià)值的衡量,往往會(huì)用一些滯后性的指標(biāo)衡量?;A(chǔ)假設(shè)是,業(yè)務(wù)人員用的多的標(biāo)簽,一定是應(yīng)用質(zhì)量好的;業(yè)務(wù)人員用得少的標(biāo)簽,一定是應(yīng)用質(zhì)量弱的。
具體衡量應(yīng)用多少的指標(biāo),可以用【使用次數(shù)】、【使用熱度】、【調(diào)用次數(shù)】等來(lái)綜合衡量。對(duì)于應(yīng)用價(jià)值低的標(biāo)簽,可以針對(duì)性地進(jìn)行分析,不斷提升每個(gè)標(biāo)簽的應(yīng)用價(jià)值。
四、標(biāo)簽質(zhì)量評(píng)估:業(yè)務(wù)質(zhì)量評(píng)估
最后一個(gè)衡量標(biāo)簽質(zhì)量的方面,就是業(yè)務(wù)質(zhì)量。
這個(gè)方面是最不好衡量的,但又是最最重要的。因?yàn)橄啾扔跀?shù)據(jù)質(zhì)量是從數(shù)據(jù)層出發(fā)、應(yīng)用質(zhì)量是從產(chǎn)品層出發(fā),業(yè)務(wù)質(zhì)量是從業(yè)務(wù)層出發(fā),是離業(yè)務(wù)價(jià)值最近的。
想象一下,業(yè)務(wù)如果用了一個(gè)標(biāo)簽,對(duì)一群人進(jìn)行了投放,ROI是日常投放的好幾倍,那這個(gè)標(biāo)簽的價(jià)值可以說(shuō)是毋庸置疑了。這時(shí),我們可以說(shuō)這個(gè)標(biāo)簽的業(yè)務(wù)質(zhì)量很高。
什么樣的標(biāo)簽的業(yè)務(wù)質(zhì)量會(huì)比較高呢?
比如:【用戶(hù)購(gòu)買(mǎi)偏好】、【用戶(hù)的營(yíng)銷(xiāo)敏感度】等等,這類(lèi)的標(biāo)簽往往都是一些復(fù)雜邏輯的算法標(biāo)簽,常常有比較強(qiáng)的業(yè)務(wù)質(zhì)量。
但這里存在的一個(gè)悖論,就是業(yè)務(wù)質(zhì)量是后驗(yàn)的,即想知道一個(gè)標(biāo)簽的業(yè)務(wù)質(zhì)量,就一定要進(jìn)行投放測(cè)試才行。而且往往不同場(chǎng)景的一些投放帶來(lái)的結(jié)果也不太一樣,就導(dǎo)致業(yè)務(wù)質(zhì)量的評(píng)估往往很難落地——這確實(shí)是個(gè)難點(diǎn)。
作者的經(jīng)驗(yàn)是,在評(píng)估標(biāo)簽質(zhì)量時(shí),先重點(diǎn)考慮數(shù)據(jù)質(zhì)量和應(yīng)用質(zhì)量,這兩者都沒(méi)問(wèn)題的時(shí)候,就可以上線開(kāi)放給業(yè)務(wù)使用。
但對(duì)于業(yè)務(wù)使用標(biāo)簽后的數(shù)據(jù)進(jìn)行回流,監(jiān)控標(biāo)簽應(yīng)用在業(yè)務(wù)場(chǎng)景的價(jià)值情況,最終可以有個(gè)比較公允的衡量。而這個(gè)衡量,將對(duì)后面標(biāo)簽的優(yōu)化方向,帶來(lái)很強(qiáng)的指導(dǎo)性意義。
今天先分享這些,歡迎關(guān)注后續(xù)內(nèi)容。
本文由 @冬至 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
如何驗(yàn)證標(biāo)簽的準(zhǔn)確度呢
熱度和使用次數(shù)有啥區(qū)別呢?
似乎也沒(méi)啥區(qū)別,個(gè)人理解 次數(shù)是“調(diào)用次數(shù)”,熱度是“標(biāo)簽被使用的時(shí)間”,前者是點(diǎn)、后者是面?
想問(wèn)下,在打標(biāo)簽的時(shí)候,標(biāo)簽下的分層是可以同時(shí)選的嗎?比如:同時(shí)屬于越野愛(ài)好者,又屬于音樂(lè)愛(ài)好者
標(biāo)簽會(huì)有基礎(chǔ)一級(jí)二級(jí)甚至多級(jí)類(lèi)目,然后會(huì)根據(jù)用戶(hù)的情況打相關(guān)的明細(xì)標(biāo)簽
本來(lái)對(duì)于如何評(píng)估標(biāo)簽質(zhì)量問(wèn)題還比較困惑,學(xué)習(xí)了,期待更多干貨
歡迎關(guān)注weixingongzhonghao:首席數(shù)據(jù)科學(xué)家!
有一個(gè)問(wèn)題,你舉例說(shuō)有100w個(gè)用戶(hù),男性真實(shí)為50w,女性真實(shí)為50w,你怎么來(lái)判斷其實(shí)5w男性標(biāo)簽打成女性標(biāo)簽?zāi)??這個(gè)5w是怎么找出來(lái)的?
你說(shuō)的對(duì),現(xiàn)實(shí)世界準(zhǔn)確度往往是很難評(píng)估的。我之前一般會(huì)用一些外圍數(shù)據(jù)輔助驗(yàn)證,比如用研的抽樣數(shù)據(jù)等等。
好問(wèn)題