如何設計推薦系統標注標簽體系?
標簽是內容分析的基礎,代表了對視頻質量的把握和內容的理解,同時,標簽也是反映用戶興趣的重要數據源,這些都為個性化推薦提供了最基本的特征。那我們要怎么才能設計好一套推薦系統標注標簽體系?
為什么個性化推薦需要用到標簽體系?
標簽是內容分析的基礎,代表了對視頻質量的把握和內容的理解,同時,標簽也是反映用戶興趣的重要數據源,這些都為個性化推薦提供了最基本的特征。
為什么要建立一套視頻標注系統?
首先,要保證視頻內容的合法性,有對色情和三反視頻的識別和過濾能力,保證整個視頻推薦服務的安全性。
其次,要幫助推薦系統更好的理解視頻內容,為視頻的分發構建橋梁,如使用標簽進行召回等有效提升推薦系統的效率。
一套全面完整的標簽體系應該包含哪些內容?
首先,要能夠表明視頻質量,從而判斷該視頻是否可用于分發。
- 風險性:無風險是視頻推薦最基本的要求,不符合本條要求的視頻則不予進行推薦,風險性包括色情、廣告、政治敏感、血腥暴力等類型;
- 清晰度:解決視頻清晰度與分辨率高低不完全對應的問題,對于不同清晰度的視頻賦予不同的分發策略(部分可通過模型進行解決);
- 水印類型:對于競品或不同來源的視頻,為了避免業務沖突,在不同的場景有不同的分發策略(部分可通過模型進行解決);
- 是否原創:原創/搬運也是判斷視頻質量的角度之一,滿足了不同場景的不同定位,對于優質作者的扶持有著重要意義。
其次,要能夠明確表達對視頻內容的理解及視頻本身所具有的特點;
(1)一/二/三級標簽:表示視頻講了什么內容以及該內容屬于什么種類?
通過對標簽進行分層既能夠保證標簽體系的全面性,同時也能較好的保證代表性。因此,不同層級的標簽在設計時需要考慮的內容并不完全相同:
- 一/二級標簽要優先保證全面性,使得每條視頻都能夠找到自己所屬的類別,且該分類能夠明確代表一類用戶群體的興趣;
- 一級標簽一般為較大的領域,如體育、寵物等,一般數量在幾十個;
- 二級標簽是在該領域下進行進一步的細分,如足球、籃球、寵物貓、寵物狗等,二級標簽能夠很好地解決標簽均勻性的問題,一般數量在幾百個;
- 三級標簽則是進一步對視頻內容的刻畫,在這個層級上一般不要求全面性,轉而更為關注代表性,要覆蓋到每個類別中熱度較高的標簽,一般數量為幾千個到上萬個不等;
- 一/二級標簽在設計完成后一般不做比較大的調整,三級標簽則需要不斷的進行擴充,保證一些比較新的詞匯,如電視劇名稱等也能夠及時被收錄進去。
(2)風格類型:有時候,除了視頻本身的內容外,視頻的風格類型也是我們所關注的,如時政領域需要的正能量視頻,下沉用戶需要的土味視頻和記錄博主生活狀態的Vlog等。
第三,有些視頻只適合在當下或一段時間內進行推薦,而通過機器又很難解決時效性的問題,需要借助人力判斷可推薦的時間。
第四,除了視頻的客觀屬性外,還需要引入一些主觀情感的判斷,如故事性、連貫性等。
該部分涉及到的主觀情感的判斷較多,需要考慮標注人員的實際理解情況,如可參考是否有主題、是否與文本相關度較高、是否有明確的故事主體、是否內容連貫性或敘事性較好、是否有拍攝成本,另外也可以參考該類內容是否能夠引起用戶的觀看興趣或轉發欲望等
如何發現并處理業務方與標注人員對于標準理解不一致的情況?
適時抽取一定的標注數據進行質量檢查是很有必要的,對于標注數據中出現的問題要進行合理的歸類,如果多人多次出現同一問題則說明該部分可能存在兩方標準不一致的情況。
對于各個標注項目,簡化標注人員的思考過程,盡量以選項形式替代手動輸入,對于必須要手動輸入的選項如三級標簽,做好標簽庫的維護和聯想詞提示功能等。
對于使用文字很難直觀描述的選項,通過雙方共同建設標注樣例文檔的形式進行解決,羅列出具有代表性或容易出現問題的樣例和標注選項,便于標注同學理解。
如何最大程度的保證優質視頻內容都能夠被標注?
對于標注系統來說,最理想的情況下當然是對每天全站新增的全部視頻都進行標注,但在實際的實現過程中,在時間和資源的限制下,每天只允許對頭部視頻進行標注;另一方面,每天全站新增的視頻也不是每一個都有推薦的價值,如果不能對哪些視頻適合標注并推薦進行正確判斷的話,勢必會造成資源的浪費。
對于標注數據的選取:
- 首先,要進性合法性的判斷,不符合硬性條件的視頻直接進行過濾;
- 其次,標注是對視頻進行先驗的過程,為了保證標注的及時性及可用性,可以根據與博主或渠道有關的屬性進行判斷,或者也可以參考該數據在很短時間內的分發及消費情況(需要通過統計來了解視頻傳播的時間路徑);
- 第三,要最大程度結合機器和人工,利用模型先對視頻進行預識別和判斷,結合模型得分和標注順序來提高標注的效率。
如何應用標注數據并對效果進行科學的監測?
標注系統為視頻分發構建了橋梁,使得用戶歷史行為可以映射到標簽上,并可以通過標簽來召回視頻。
標注數據的應用分為直接和間接兩大類。直接應用即根據標注人員所打的標簽進行召回并按照一定條件進行排序;間接應用則是根據標注數據訓練相應的模型,并根據模型對全站合法視頻識別并分發。一般來說,后者能夠召回的視頻更多,但是準確率較前者可能略有不足。
- 興趣頻道是標注數據最直接的應用場景,根據興趣頻道和標簽的映射關系進行視頻的分發;
- 標簽興趣根據用戶的歷史播放行為計算出該用戶對于標簽的偏好程度,并推薦該標簽下質量較好、熱度較高的視頻;
- 標簽實時反饋根據用戶剛剛看過的視頻在翻頁時立即推薦該標簽下的視頻,該類推薦更偏好于短期興趣,標簽粒度一般越細越好。
在數據監控方面,要著重關注以下方面:
- 推送量和標注量,以及標注數據能夠覆蓋到下發數據的比例;
- 不同層級標簽下的視頻數和下發量,觀察標簽是否不均勻,流量是否過于傾斜;
- 每個標簽下視頻的消費效率,尤其是對于下發量比較大的標簽,著重關注該標簽的轉化和消費深度。
本文由 @magnolia 原創發布于人人都是產品經理,未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
感謝分享!學習了!想請問一下,機器學習的話是建立在內容標簽系統上的嗎?比如抖音的視頻推薦系統,是不是人工對視頻打標簽分類,建立模型然后進行模型訓練、機器學習再對全站的視頻進行識別建立標簽?不然像抖音、小紅書、今日頭條等UGC社區內容數據太龐大,全靠人工打內容標簽感覺不實際。
頭條應該會通過收集用戶行為數據信息和基本屬性信息,進行畫像建模,通過模型訓練,反向打標簽,然后進行個性化的內容推薦。
希望再看到類似的文章。分析的特別精準。受益匪淺