推薦策略產(chǎn)品經(jīng)理:構(gòu)建標簽體系的二三事
編輯導(dǎo)語:如今在這個大數(shù)據(jù)時代,標簽已經(jīng)成為了很多平臺必不可少的一個功能,最常見的比如購物網(wǎng)站,會增加一些標簽方便用戶查找,避免無用功;本文作者分享了關(guān)于構(gòu)建標簽體系的一些經(jīng)驗方法,我們一起來了解一下。
一、標簽體系:definition & effect
1. 什么是標簽體系?
什么是標簽體系呢?
簡單說就是標簽體系就是分類,而且是對全集的分類,“把內(nèi)容或者用戶依據(jù)統(tǒng)一的規(guī)則分到不同的類別中去,類與類之間彼此有聯(lián)系,這就構(gòu)成了標簽體系”。
通過分類的對象是用戶還是內(nèi)容,基本將標簽體系分為兩種:
- 用戶標簽體系;
- 內(nèi)容標簽體系;
兩者的區(qū)別主要體現(xiàn)在分類后使用上,在確立分類體系的時候并無根本性的區(qū)別,故在后文不做區(qū)分。
2. 標簽體系有什么用?
仔細思考一下,用標簽與類別代表群體,將個體抽象化,這是為了什么?
我覺得最大的作用是運用于“個性化”和“精準化”的事項,因為個體體征被高度抽象,就有了可使用的價值;比如一個短視頻,劃分到搞笑-鬼畜視頻的分類中,就可以專門針對性地推薦給喜歡看鬼畜的用戶,內(nèi)容與內(nèi)容之間、用戶與用戶之間、內(nèi)容與用戶之間的對應(yīng),背后全都是標簽在其作用。
你接收到的商品推薦、視頻網(wǎng)站推薦給你的猜你喜歡、地圖軟件給你推薦的出行方式,交友軟件給你推薦的心動嘉賓,這些都是標簽之間的一一對應(yīng)。
比較典型的應(yīng)用場景有:精細化運營策略的制定、客戶關(guān)系系統(tǒng)CRM、廣告推送的方式、個性化推薦系統(tǒng)推送系統(tǒng)的搭建。
標簽幫助平臺更好地了解平臺里的內(nèi)容特性、也更了解平臺中的用戶特征,而更充分的了解,也意味著更好的滿足用戶需求。
二、標簽體系:how
1. 按照MECE原則制定標簽體系
在標簽系統(tǒng)運用之前,PM最早起到作用且關(guān)乎到后續(xù)標簽體系整體效果的重要一步就是制定標簽劃分的體系與標準。
在制定標簽體系的時候,一般依據(jù)MECE原則進行(全稱Mutually Exclusive Collectively Exhaustive,中文意思是“相互獨立,完全窮盡”),也就是我們常說的“不重不漏”。
在處理分類事情的時候,很多時候是存在灰色地帶的,有些既可以劃分到A類,又可以劃分到B類,好的分類體系可以減少這種情況出現(xiàn)的頻次,這就是盡量“不重”。
同樣在分類的時候,因為內(nèi)容和用戶的復(fù)雜性,也會出現(xiàn)有些無法劃分到當前分類體系中去的情況,在構(gòu)建分類體系的時候也需要我們盡量做到“不漏”。
在構(gòu)建標簽分類體系的時候,有三點經(jīng)驗可以供參考:
1)以競品體系為根基,做適配性修改
參考競品所做的標簽體系,再結(jié)合自己的業(yè)務(wù)特點進行修改,可以先用競品的分類體系抽樣對自己產(chǎn)品的內(nèi)容/用戶進行分類標注,可以快速發(fā)現(xiàn)哪些標注分類是缺少的,哪些存在分類不清的問題,再進行針對性的改動,不斷迭代自己的體系。
2)明確業(yè)務(wù)導(dǎo)向,標簽需要為業(yè)務(wù)目標服務(wù)
這是指比如你建設(shè)視頻的二級分類標簽體系,是為了更好的給用戶做個性化推薦,那么需要思考,哪些內(nèi)容在推薦上具有共性;比如游戲內(nèi)容,二級分類分到游戲攻略,這是很難給用戶做推薦的。因為顯然沒有用戶對游戲攻略這個分類內(nèi)容感興趣,而如果劃分為角色扮演游戲,這是可以推薦給喜歡RPG游戲的用戶的。
3)標簽分類附解釋與case
因為PM不是直接進行數(shù)據(jù)標注的人,實際進行標注的一般是外包標注人員,在信息傳達的時候難免有損耗,如果不將標簽的具體含義以及相應(yīng)的case附上,很容易造成PM單方面自嗨,實際標注效果不盡如人意的情況。
2. 設(shè)置合理的標注與檢驗流程
在標簽體系初步制定之后,就該進行到下一步,實際標注了,從我自己的實際上手體驗來看,這部分是坑最多,最容易出現(xiàn)問題的部分,需要PM和標注人員進行反復(fù)的溝通,反復(fù)的迭代,最后才能交付較好的標注數(shù)據(jù),供訓(xùn)練模型使用。
在這里給出兩種標注流程,具體使用哪種需要根據(jù)自身業(yè)務(wù)特性與人員配置來決定。
第一種是單層的,高級標注人員負責(zé)任務(wù)下發(fā)、抽檢、人員培訓(xùn),這種適合高級標注人員素質(zhì)過硬,且能力較強,優(yōu)點在于中間流程較少,信息傳遞不容易出現(xiàn)偏差,整體時間也偏長。
單層標注流程
第二種是雙層的,在高級和初級標注之間增加一層中級,負責(zé)標注質(zhì)檢和確定部分不確定case,這種優(yōu)點在于每個人負責(zé)的事情相對較少,不容易出現(xiàn)差錯,且責(zé)任到人,對個人能力要求相對較低。
雙層標注流程
雙層中,具體各方職責(zé)如下([T]中T代表當天,T+1代表第二天):
PM:
- 負責(zé)數(shù)據(jù)抽取[T]
- 對齊高級標注人員不確定的case[T+1]
- 評估標準的更新與修正
高級標注人員:
- 負責(zé)標注任務(wù)的拆解與下發(fā)[T]
- 對齊中級標注人員不確定的case,自主判斷給出分類,如果個人無法確定,再與PM對齊[T+1:下班前對齊]
- 標準更新,對齊標準的傳達與人員培訓(xùn)[T+1]
中級標注人員:
- 收束每天初級標注人員標注中不確定case,自主判斷給出分類,無法確定再與高級標注人員對齊[T+1:先進行這部分,T+1下午3點前對齊]
- 負責(zé)抽檢初級標注標注確定的部分(抽取比例需討論)[T+1:后進行這部分,T+1結(jié)束前完成]
初級標注人員:
- 負責(zé)完成高級標注人員下發(fā)的標注任務(wù),對于確定的case進行標注,對于不確定的給出初步判斷,并提供給中級標注人員[T]
3. 標簽體系的優(yōu)劣衡量
在對標注結(jié)果進行數(shù)據(jù)驗收的時候,更多的是采用準確率和召回率指標,準確率對應(yīng)不重、召回率對應(yīng)不漏,即“分的準+有的分”。
一般來說,準確率能達到85%以上,召回率能達到90%,整體數(shù)據(jù)可用性就達到要求了,如果標簽體系建立的合理且優(yōu)秀,執(zhí)行也很出色的話,部分可以做到90%以上的準確率。
在標注過程中,有兩個準召情況(更多看準確率)需要重點關(guān)注,一是標注人員的準召,二是標注類別的準召。
前者能讓我們更了解不同標注人員的素質(zhì),進行更合理的人員培訓(xùn)或者任務(wù)分配,后者讓我們更了解不同分類的標注難易情況,對標注標準與規(guī)范進行不斷地迭代完善。
三、標簽體系避坑指南
雖然整體來看負責(zé)標簽體系是較為枯燥的,但這并不是一件容易事情,如果沒有考慮周全,在標注過程中非常容易出現(xiàn)問題,從而拖慢標注進度,影響最后標注數(shù)據(jù)質(zhì)量,最后影響模型效果。
在此我也羅列幾個容易踩的坑,希望大家可以盡量規(guī)避:
1. 標簽標注的流程搭建
坑一:標注體系在標注中并非不可更改,但如無必要,勿增“其他”。
不管初始設(shè)置的標注分類體系有多好,在實際標注中,還是會出現(xiàn)“重 or 漏”的情況,遇到這種情況的時候,錯誤的處理方式是胡亂塞一個分類/強行塞進分類。
如果仍然碰見重的情況,根據(jù)標注的目的進行判斷,比如作用于推薦,A類用戶更容易更喜歡這類內(nèi)容,則將其放置于A類則明顯更合適。
而盡量不增“其他”是說盡量不要在標簽體系中給予標注人員可以偷懶的大而全的分類項;比如在軍事分類中,給一個分類叫“軍事相關(guān)”,這個是很難定義清楚的,標注人員不確定的東西容易全塞這個分類中,導(dǎo)致在推薦中難以被使用。
坑二:標注層級無序,標注進行混亂
PM與直接標注人員之間不應(yīng)該是單層的關(guān)系,而是需要有中間層來負責(zé)分發(fā)標注任務(wù)、把控標注進度、進行標注檢驗,這中間層級當然并不是越多越好,一般1-2層足矣。
2. 人員管理與培訓(xùn)
坑一:少干預(yù),任由發(fā)揮
首先要記住,標簽數(shù)據(jù)的積累一般涉及到眾多的標注人員,而一旦涉及到人,則需要PM進行管理,缺少干預(yù),讓高級標注人員進行統(tǒng)籌,一般來說效果是欠佳的;因為人存在惰性,且如果沒有干預(yù)的話,標注效質(zhì)量好壞對于標注人員來說其實意義不大,也會影響整體標注效果。
這需要我們建立相應(yīng)的獎懲機制,對于標注質(zhì)量較高的個人,給予獎勵,而對于標注質(zhì)量較低的個人,需要給予一定的懲罰或者激勵,只有這樣才能有效提高標注人員的標注效率和質(zhì)量。
坑二:朝令夕改,標注人員無所適從
在標注過程中,可能會存在對于標注分類進行增刪改的操作,這種操作不易過分頻繁,頻繁不但會導(dǎo)致之前積累數(shù)據(jù)的可用性差,拖慢標注數(shù)據(jù)積累速度,也會導(dǎo)致標注人員的混亂,標注質(zhì)量的劣化。
好的標注流程當然不反對進行增刪改,但需要更多集中在早期,對應(yīng)工廠生產(chǎn),在產(chǎn)品研發(fā)和產(chǎn)能爬坡時期,標注的可用性不是最應(yīng)該關(guān)注的指標;而應(yīng)該是標注體系的完善,標注人員的培訓(xùn),當這兩個做到位的時候,接下來就可以積累標注數(shù)據(jù),推進標注工作有序進行了。
四、小結(jié)
整體來說,標簽體系的構(gòu)建是內(nèi)容理解和用戶理解的重要組成部分,也是策略實行的基礎(chǔ)之一;如何設(shè)置合理的標簽結(jié)構(gòu),標簽分類,如何有序高效地推進標注數(shù)據(jù)的積累與標簽分類模型的搭建,以及最后策略的運用,是PM需要掌握的一項基本技能。
而將基礎(chǔ)的事情做好,并不容易。
共勉~
#專欄作家#
隨心將夜,微信公眾號 : 互聯(lián)網(wǎng)菜鳥產(chǎn)品進階之路,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注社交賽道和社區(qū)發(fā)展,擅長分析行業(yè)趨勢。
本文由@隨心將夜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
請問下如何衡量人和標簽的準確率和召回率呢?
高級外包re,產(chǎn)品本人在此基礎(chǔ)上也要抽re,召回比較難,準確還好
加質(zhì)檢 二檢 事后抽檢 定期評估 都可以
大佬可不可以講些標簽策略相關(guān)啊
下次有機會聊