如何定性內容?先有標準后有天,用算法的眼光看內容
定制標準也是一門技術活,并非單純羅列條款那么簡單。本文作者用一個內容標準的實例來跟大家解釋,看怎樣的內容標準才是合格的,一起來看看~
有一條視頻描述了這樣的場景:在某綜藝節目中,一個籃球明星表演踢足球。
那么這條內容應該屬于什么主題合適呢?
運營甲認為是綜藝,因為視頻的上下文是綜藝節目;運營乙認為是足球,因為視頻內主要的活動是在踢足球;運營丙則認為是籃球,因為主要人物是個籃球明星。
公說公有理婆說婆有理,大家各執一詞最后無法形成共識,各自按各自的想法工作,導致統計口徑不一致,嚴重影響業務的判斷。
1. 為什么需要標準?
內容識別主要運用在內容分發和內容決策兩個方面,在分發之前系統需要利用規則或者模型識別出內容的特征,方便給用戶匹配感興趣的內容。
以主題分類為例,我們需要一個模型能夠自動識別一篇文章的主題是新聞、體育還是其它。而模型的訓練很大程度上依賴于樣本的標注,如果標注同學沒有依據統一的標準進行標注,那標注的準確率就會很低,而以這些低準確度樣本訓練的模型準確率必然更低,這將直接導致主題模型不可用。
從內容決策的角度,錯誤的識別結果將直接導致錯誤的運營決策。假設上面訓練出的錯誤模型會把新聞類的內容都標注成體育,這樣運營人員誤以為體育類內容很受歡迎從而大力引入、扶植體育類內容。最后不但導致浪費了大量資源,而且用戶真正感興趣的新聞類內容受到擠占,體驗也相應地變差。
“標”是投射器,“準”是靶心。標準合用,意為行為和結果要相符,常用于工業生產領域。
國家標準GB/T 3935.1—83定義:
“標準是對重復性事物和概念所做的統一規定,它以科學、技術和實踐經驗的綜合為基礎,經過有關方面協商一致,由主管機構批準,以特定的形式發布,作為共同遵守的準則和依據?!?/p>
從國標的定義可以看出標準針對重復性的事物,結合實踐,目的是讓參與各方達成一致共同遵守。標準的一般呈現形式是一個文檔,可以附帶解釋說明的文件。
對于給內容分類打標這樣重復性的工作,主觀性極強,如果不能統一參與同學的想法,打標效果就會有很大的水分。而且后面新來的同學也不能利用之前積累的經驗,一開始工作可能無從下手,效率極低。
因此我們需要套用工業領域的標準,在內容領域建立內容標準,統一所以參與者的判斷,出現不一致的情況下也能有據可依。
2. 如何制定標準
定制標準也是一門技術活,并非單純羅列條款那么簡單。我們接下來聊聊什么樣的內容標準才是合格的,并用一個內容標準的實例來加以說明。
(1)標準的標準
標準的核心目標是讓使用者能夠快速與標準的描述達成一致,為了制訂提高標準的質量和效率,可以給標準也規范標準,這樣在后續制訂各種不同標準的時候就有了參考依據。
- 明確目標:首先需要明確的是標準的目標,整個標準主要面向什么類型的內容,有什么目的。讓使用者充分意識到它的使用場景和價值,這樣有利于標準后續的推動和執行;
- 描述清晰:標準的描述語言盡量客觀中立,不容易引起歧義,用定性的語言讓使用者大致了解描述的是什么樣的內容,給使用者一個大致的預期。但是定性描述還是含糊的,這時候需要定量描述來補充說明。如判斷圖片模糊的標準有兩條候選。第一條是“圖片模糊不清”;而第二條則更細致,“人物五官不清晰,出現明顯的鋸齒或馬賽克或圖片一半以上的面積模糊不清”。兩邊對比顯然后者不容易產生歧義,方便執行;
- 抓大放小:標準創作者的精力和知識有限,不可能窮舉所有的情況。因此優先描述主要情況,對于不常見的情況可以忽略或簡單描述。至于哪些是常見情況可以抽樣統計獲得;
- 突出案例:如同英美法系以判例為重要依據,在標準的條款中加入真實的案例遠比文字描述更加生動形象。值得注意的是反例和正例一樣重要,反例就是那些容易出錯的例子,加入到標準中有助于避免此類情況發生;
- 明確邊界:對于模糊有歧義的情況或者經常被誤判的情況應當專門加以說明。
(2)一個典型的標準
下面展示一個實際被運用且符合上訴標準的“惡心(gross)內容標準”,由于案例圖片可能引起讀者不適就不在此呈現,但是真實標準中需要體現:
1)標準目標
部分內容中含有令消費者感到惡心不適的內容,直接展示給用戶會嚴重影響觀感。其中嚴重的部分會引起大多數人的強烈反感,應當直接下架處理;惡心情節較輕的內容,有部分用戶不敏感,部分厭惡,則可以限制其曝光范圍。本標準目標是識別此類內容,減少用戶感到惡心的機會。
2)標準條款
情節嚴重者,使大部分用戶會感到強烈不適,對未成年人有嚴重不良影響,應當做下架處理:
- 尸體:人體或動物惡心的尸體特寫、人體或動物不完整尸體、大面積血腥的尸體;
- 傷口:人體或動物傷口的化膿感染的畫面,大面積創傷等極度血腥的畫面,解剖畫面,器官流出帶血畫面;
- 女性來姨媽漏出,帶血的衛生巾。
情節較輕者,部分用戶感興趣,部分用戶不感興趣,應限制其展示的范圍,如僅關注的用戶可以看到:
- 蠕蟲、蛆、蚯蚓、黃鱔、寄生蟲等無脊椎腔腸類動物特寫場景;
- 蛇、蜈蚣、蟑螂等容易引起部分人恐懼的畫面;
- 密集場景,容易觸發密集恐懼癥的畫面;
- 痘痘、濕疹等密集出現或擠黑頭、擠痘痘的視頻;
- 耳屎、鼻屎等人體排泄物。
3)例外情況
- 游戲中爆頭不算真人,血腥面積低于四分之一的可以放行;
- 純醫學研究內容中含血腥傷口和解剖畫面可以關注可見。
(3)標準的執行
定制完標準后必然要實際運用起來,但是如果運用過程中不講究技巧,容易造成推進困難導致標準被束之高閣,或者執行不到位。落地的第一步是要讓新同學掌握新標準。
1)在檢驗中執行
握新標準需要經歷如果1兩個步驟:
首先由制定者或者熟練掌握的同學對新同學進行培訓,從文檔到新同學掌握需要一個轉化過程,面對面的培訓可以提高轉化率。而且培訓的過程中主講人還可以根據新同學的反饋適當修改標準使之更容易理解。
培訓完成后趁熱打鐵進行“試標注”以檢驗培訓成果。標注的樣本要求有足夠多(經驗值是半個工作日能完成的工作,一般500條以上),而其足夠地均勻可以覆蓋多數場景,這樣檢驗的結果才有可信度。
熟練掌握標注的同學會整理一份“標注答案”然后于新同學的結果對比,相同即為準確。如果準確率達標則說明新同學已經熟練掌握,否則要進入下一輪培訓,直到準確率合格??紤]到標準結果的重要性,通常要求準確率90%以上才算合格。
圖1標準培訓流程
2)在執行中檢驗
機器分類的過程如圖2所示,從真實分類開始經歷了標準制定、樣本標注、模型訓練到實際應用四個步驟,每個步驟的準確度和召回率召回率都有損失。
在實際操作中由于進文的變化會導致內容結構的變化,也就是真實分類變了,原本能覆蓋大部分內容的標準會慢慢退化,最后與實際生產脫節。另外標注同學的標準水準也不是固定的,時常會忽高忽低有波動。同理模型也會退化,識別效果會逐步變差。
圖2 真實分類與實際應用準確率的轉化漏斗
因此整個漏洞中所有的步驟都要定期更新以保障最后實踐的準確率能夠維持在可用水平。特別是低俗低質內容和涉證敏感內容中,經常有新的變種出現,會導致模型遺漏。如果不及時更新標準和模型會給平臺帶來巨大的風險。
那么什么時候更新呢?
我們可以持續抽查線上內容的實際識別效果,如果低于某一閾值就需要及時更新漏斗中轉化率的步驟。
[召回率] Recall Ratio,篩選出準確分類的內容量占實際分類內容量的占比。如總樣本中有20條體育內容,但是實際被標注出了10條,那召回率就只有50%。
本文由 @內容黑客 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!