淺談審核召回策略優化思路

1 評論 3514 瀏覽 55 收藏 10 分鐘

如何有效提升審核環節召回策略的召回率?這篇文章里,作者以內容質量審核為例,梳理了審核召回策略的優化思路,一起來看看,或許會對從事這方面業務的同學有所啟發。

引言:什么是審核召回策略

“召回策略”(match)是指從全量信息集合中觸發盡可能多的正確結果。當我們聚焦于新聞內容類APP或資訊型產品,在內容理解、內容標簽和審核相關的業務中,召回策略指的是通過算法模型、規則策略等識別不同的內容類型,并應用直接機審判黑或人機結合等方式賦予內容特定的標記,使其可以在下游內容入池、推薦分發等環節應用。

召回策略的評估主要根據兩個評價指標:召回率和準確率。以內容質量審核為例:

  1. 召回率(Recall)=策略正確識別到的低質內容/系統所有低質內容總數
  2. 準確率(Precision)=策略正確識別的低質內容/策略識別到的低質總數

本文以內容質量審核為例,主要討論如何提升審核環節召回策略的召回率,即,我們怎樣才能擴大標簽識別的范圍,盡可能全面、高效地為內容打上業務所需要的標記。

一、為什么要優化召回策略

在新聞類、內容類APP中,內容理解是內容生產加工流程中不可或缺的一環,只有給內容打上足夠精細化的特征和標記,才能基于用戶畫像使用協同過濾等方式給用戶更精準地推薦內容。全面高效的召回策略是下游推薦分發環節不可或缺的基礎因素之一。

在內容質量審核相關的業務中,為了能更精準地為內容打標,通常會采用人機結合的方式,即用召回率較高的模型盡可能多召回疑似質量有問題的內容,再由人工審核進行判斷。

召回策略的有效性和線上低質內容的占比強相關,如果召回策略不夠有效,那么就無法對新聞內容的質量和調性進行識別、判斷和控制,也就無法達成相關業務指標,例如降低線上低質內容占比,或針對部分人群實行低質內容隔離策略等。

另外,受制于項目預算、人力成本等因素,在我們提升召回策略的召回率時,也不能忽視其準確率。如果一條召回策略能覆蓋大部分低質內容,但召回量級過大(準確率很低),我們同樣可以判斷該策略的有效性(ROI)很低。

二、有哪些常見手段可以提升召回

方法一:從平臺調性和標準入手

以某新聞類產品的質量審核業務為例,大致流程如圖:

首先,業務方需基于產品定位和平臺調性制定標準,準確全面定義“低質內容”的類型和含義,根據標準,進行特征拆解。例如廣告類內容,通常含有營銷類話術和關鍵詞;格式異常類內容(因內容抓取和清洗導致內容缺失),可能存在文字段落丟失導致的文章過短等現象。拆解完特征后,需和算法等團隊一同進行模型訓練和規則定義,評估每個模型或策略的準確率、召回率和召回量級(for有效性評估)。

特征拆解關鍵點:

  • 特征足夠客觀,避免程度等主觀判斷,使機器和人都好識別/執行;
  • 特征足夠細化,在應用環節可組合使用。

特征提取和訓練關鍵點:

  • 為保證盡可能多覆蓋badcase,優先訓練高召回識別能力,通過人機結合方式解決;再逐步迭代高準確識別能力,提升機審率;
  • 應用環節結合實際業務情況配置豁免邏輯,規則和特征上不進行豁免。

方法二:從用戶體感和用戶行為倒推

第二種方式從用戶反饋出發,運營提煉出用戶反感內容的特點,總結為客觀特征,由算法進行識別能力建設,最終形成可用于業務的算法模型和規則。

特征提取和訓練關鍵點:

  • 從用戶行為(隱性用戶反饋)和用戶意見反饋(顯性用戶反饋)中分析badcase,模擬用戶感受,提取特征;
  • 通過模型、人機結合方式識別特征。

三、有哪些常見手段可以驗證召回策略的有效性

方法一:單個策略上線前驗證,組合策略上線后整體評估

針對算法模型,上線前需評估三項指標:

  1. (正例)準確率;
  2. (正例)召回率;
  3. 覆蓋率&召回量級。

評估要點:

  • 測試集語料正例濃度需與線上基本一致,評估結論才相對置信;例如模型或策略是針對全量數據,那么測試集就需從全量數據中隨機抽取;如模型或策略是針對單個場景的可分發內容池,則需從該內容池中隨機抽??;
  • 模型在不同濃度的測試集上效果會存在差異,如在不同場景應用同一個模型,需抽取不同場景可分發數據分別評估準召。

方法二:線上巡查

以內容質量審核為例,為了check召回策略的效果,可從線上可分發數據中隨機抽樣/巡檢,評估線上可分發數據中是否存在質量審核環節的低質漏放數據,制定漏放率指標。

方法三:從下游審核環節回查

在各類新聞內容類產品業務中,可能會設置多個質量審核環節,例如針對部分場景設置復審,以便單獨為該場景內容打上特征標記,服務于該場景的推薦策略。如存在多個審核環節,則可將整條內容加工鏈路看作一個漏斗,從下游環節回查上游是否存在漏放情況等。

四、召回策略的局限性和天花板

無論把標準規則定義得多么細顆粒度,把模型和規則調試得多么精準,我們不可否認的是,召回策略一定存在局限性和天花板,在實際業務中基本不可能制定出100%召回率的策略,即無法實現對標簽內容的全量識別,主要原因如下:

  • 在新聞內容類產品中,受熱點事件影響,內容池內容結構可能存在變化(e.g.熱點事件影響造成時政類發文增多),模型和策略的效果、召回率大概率會存在變化波動。實際的分發內容和評估召回策略有效性的測試集之間一定存在Gap,不可能時刻保持100%一致,這也就決定了策略上線時的指標一定會隨著業務變化而波動,準確率、召回率、有效性都可能發生變化;
  • 模型和策略本身可能會隨著時間推移和缺乏維護而效果變差,例如有監督學習的模型,在上線后若不持續維護,則會因訓練語料過舊產生效果“漂移”,在新的數據集上無法保持優異表現。

在實際業務中,召回策略若能保持90%+的召回率,已實屬不易。其余不到10%的內容,通常只能通過引入巡檢、單點反饋等人工運營的渠道來覆蓋和解決。

本文由 @芝士球 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 牛??

    來自北京 回復