內容審核邏輯|從入門到被門檻絆倒
讀完這篇文章,你可以詳細了解文字類內容審核的邏輯,還會了解一些圖片和短視頻審核的技術,足以補充一個運營或產品在這方面的知識儲備了。來看看~
文章開始之前,給大家兩條建議:
- 除非你別無選擇,盡可能不要從事純粹內容審核崗位
- 如果你的工作和運營或產品有關,都需要了解內容審核的邏輯
“兒童送養”這個話題在大多平臺都是極為罕見的,但知乎最近就因此爆發了一場危及平臺聲譽的危機。
內容審核就是這樣一種職業,違法違規信息覆蓋范圍極廣,新的違規信息層出不窮。無論你多么有經驗、無論審核系統多么先進,只要發生問題,看起來都是很基礎甚至很愚蠢的問題。
知乎這樣一個有很強的技術實力和內容審核經驗的平臺,也會在這個問題上摔跟頭。并且可以預料的是,不知道在多久的以后,知乎一定還會發生一次又一次因為存在違規內容帶來的危機事件,這事情無可避免。有人說,對于內容審核人員來說這是從入門到被門檻絆倒,一點都不夸張。
讀完這篇文章,你可以詳細了解文字類內容審核的邏輯,還會了解一些圖片和短視頻審核的技術,足以補充一個運營或產品在這方面的知識儲備了。
在不同公司,對審核類職位的劃分標準不同,比如有內容安全審核、內容推薦審核、內容質量審核等類似職位。雖然在側重點和具體操作上有所不同,但有許多邏輯都是共通的。為了避免文章過于復雜,我們在這里側重最常見的內容安全審核。
審核模塊
不管是什么內容的審核,都應該包含以下四個基礎模塊:機器審核、人工審核、用戶投訴審核、結果復審。
- 機器審核,是按照制定好的規則或機器學習算法對內容進行審核,通常,成熟的審核系統能將95%甚至99%以上的內容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標注,進入人工審核程序。
- 人工審核,雖然用戶投訴審核和結果復審大多時候也是人工審核,但這里所說的人工審核,特指審核機器無法判別的內容,通常占平臺內容數量的比例不超過5%,但對于一些大型的內容平臺,絕對數量已經很多了。在內容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數量都成千甚至上萬。
- 用戶投訴審核,是前兩者的彌補,有很多違規內容以前沒有出現過,所以不在規則可以過濾的范圍內,或者非常隱蔽,規則難以嚴格過濾。用戶的投訴是發現新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,并及時據此對機器審核做出補充。
- 結果復審,通常采取抽查方式,比如通過復審機器刪除的內容,看規則或算法是否過于嚴格;比如通過查看人工刪除和通過的內容,看員工的工作是否按要求執行;比如通過內容的整體巡查,看是否存在新的問題未被注意到。
在文字類內容平臺,比如知乎、簡書、豆瓣以及各類論壇網站,機器審核主要是基于關鍵詞過濾的邏輯,邏輯比較簡單,但也沒有想象的那么簡單。
關鍵詞過濾
一篇文章發布到平臺后,需要至少經歷以下環節:
詞語過濾的環節,關鍵詞主要分為三類:
禁止關鍵詞,只要匹配到這個詞,內容就被自動刪除或禁止提交。通常只有極少數詞會被納入禁止關鍵詞,比如明確的色情、邪教以及廣告的專屬關鍵詞。
審核關鍵詞,這是最常見的關鍵詞種類,只要匹配到就會自動進入后臺進行審核,文章中的關鍵詞會被高亮并羅列出來,有助于審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞,以防止太多內容被攔截到后臺。
替換關鍵詞,在許多平臺,我們會在文中看到莫名的*號或字母縮寫,這可能不是文章作者寫的,而是這個詞被系統自動替換。平臺不希望出現這個關鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動替換。
當然,管理員在添加關鍵詞時,很多時候并不是直接把關鍵詞添加到后臺。否則用戶用很簡單的方式就可以避過關鍵詞過濾,比如在關鍵詞內加一個空格,系統就難以匹配到。
所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節數。在Discuz!網站后臺有明確說明,如 “a{1}s{2}s”(不含引號) 可以過濾 “ass”也可過濾 “axsxs”和 “axsxxs”等等。對于中文字符,若使用 GBK、Big-5 版本,每個中文字符相當于 2 個字節;若使用 UTF-8 版本,每個中文字符相當于 3 個字節。
另外,關鍵詞還可以支持正則表達式,來匹配具有一定模式的關鍵詞,比如”/1d{10}([^d]+|$)/“(不包括引號)用來匹配手機號碼。正則表達式的內容過多,大家有興趣可以搜索學習一下。
技術概覽
以上講述的,主要是文字類內容的審核和規則,邏輯簡單,但應用最為廣泛。近年隨著短視頻類產品的興起,內容審核的邏輯需要更加深層的技術支持。
技術上的東西,對大多人來說如同天書,而且也沒有必要深入了解。我們挑選幾個容易理解的點,來窺探幾分內容審核背后的技術。
來源:某相關產品宣傳網頁
OCR(文本識別技術),主要用來識別圖片中存在的文字。許多違規內容,包括聯系方式、色情信息、廣告信息等為了規避審核,都會以圖片的方式呈現。
人臉識別技術,通常用來識別政治、宗教類人物,識別到后可以直接刪除或者進行風險標記。
語音識別技術,語音識別的應用場景比較多,但在內容審核領域仍然不是剛需,所以使用的較少。但也有些直播或音頻平臺比較重視音頻對比、聲紋識別技術,可以輕易識別到一些固定模式的違法違規聲音。
視頻識別≈圖片識別,視頻是畫面與音頻組成的以幀為單位的畫面,通常采取截幀上傳與服務器數據對比來識別。審核模式和圖片審核相同,比如通過畫面皮膚裸露狀態來判斷是否過于性感、是否是色情內容。
上下文語義識別技術,這種技術用來判斷一句話是否能跟上下文結合,是否是一段垃圾文本。比如說,在評論區隨便輸入一串奇怪的文本,如果系統認為和上下文不相關,就有理由將內容放入審核區。
技術是很酷,用好了可以大量減少我們的工作,但內容審核技術的實施是一件很難一勞永逸的事情,其中的尺度和參數都需要人來不斷維護,而且人工審核仍然是非常有必要的,并且需要的人工可能越來越多。內容審核技術的應用,仍然任重道遠。
常見問題
1. 替代關鍵詞不能太簡單
我曾經在一款APP上看管理類文章,整篇文章多處說到給員工定績效要遵循“**ART原則”,我遲疑了好幾秒才明白,原來是“SMART原則”。
SM這個詞只有兩個字母,無論是作為禁止、審核還是替換關鍵詞都不合適,都容易攔截或替換大量不應該處理的內容,一般的方法很難處理。
這時候,我們可以總結一下模式,如果sm這兩個字母前面是英文字母,或者后面是英文字母,一般來說就是另一個英文單詞,就不會有問題。我們就可以用正則表達式把這一規則寫出來,再設置審核或替換就會好很多。
2. 審核時間與用戶體驗的權衡
去知乎和微博搜一下“審核”,被抱怨最多的問題就是審核時間長。用戶提交內容到內容審核通過,這期間心情會劇烈波動,如果用戶等了一兩天時間,最后內容被莫名其妙地拒絕,而且不給任何明確的拒絕理由,用戶的心情就會由期待變為焦慮,進而變成憤怒,這就是B站被up主抱怨最多的地方。
我們可以從以下角度優化用戶體驗:
- 用戶提交內容后,正常呈現已發布的內容狀態,可以反復編輯,只是給出狀態提示,提示內容正在審核,如果有必要可以提示一般多久可以審核完。
- 用戶提交內容后,如果進入審核,但覺得問題不大,或者用戶歷史記錄良好,可以自動進入“限流”狀態,即只允許自己和粉絲/好友觀看。待審核通過后,開放給所有人。這期間不需要給用戶任何提示。
- 用戶內容被拒后,原因是可以找到依據、可以確定的。很多平臺都是讓用戶具體原因參考某某規范文檔,但這個文檔里又是一堆大而化之的空話。許多時候機器審核是存在誤刪的可能的,這時候如果申訴渠道也不能及時反饋,就會讓人非?;鸫蟆?/li>
- 優質賬號設為信任賬戶或優先審核。比如官方賬號、以前從沒出現問題的老賬號,至少應當做到優先審核,甚至直接放開,先放后審。
3. 理解內容審核的保守傾向
越是體量很大的平臺,內容審核越是有保守傾向,這不只是因為盤子大了更加在意風險管理,還有一些現實的原因。內容數量太多,平臺就不得不采用規則和算法去審核,這些規則和算法需要最終做出決策,就難免拿著標準一刀切,即使這把刀很小也會有誤傷,這種標準對很多內容就顯得過于嚴格。
比如皮膚裸露面積達到多少會有問題、裸露哪些位置會有問題,無論標準多么的細化,都會存在誤判,被誤判的內容比例可能很小,但絕對數量很大。據說很多圖片和視頻中如果存在加菲貓,都會被過濾掉,因為它黃色面積太大而且和人的皮膚很像。
在被審核的用戶看來這些標準有點保守,有點不近人情,甚至可笑。平臺的管理人員也知道問題,但他們很難做到很細致,為了快速把違規的內容剔除,只能犧牲掉一部分人的用戶體驗,畢竟違規內容一旦出現,對平臺來說就是大問題。所以說,內容審核技術的應用還非常任重道遠。
以上的內容,對于一個運營或產品工作者來說,已經足夠了。但如果你真的需要對一款產品的內容審核規范負責,就需要去學習更多知識,需要有更加專業的精神和更謹慎的態度,未來還會有無數難以預料的坎坷等著你。
本文由 @內容工程師原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
阿互,這篇文章跟你的相似度極高(http://www.aharts.cn/operate/3882605.html),你看看怎么回事?她比你的發布時間晚
??反正我是一個字一個字寫的,這年頭人太沒底線了
第一句話很真實
這個職位的確成長性不足,而且很多公司三班倒,工作內容機械化,很容易讓人陷入惡性循環。但在有些公司,審核是要兼任其它工作的,那可能就還好。
其實內容審核還有一部分對抗在里面,類似于c n nn就是經典國罵的對抗,有的人為了表達這類意思,就會用各種文字變體,這一塊也是內容審核的難點
的確是難點,可以考慮釘重點用戶,往往喜歡罵人的人不多,就那幾個天天罵
內容審核3年~作者寫的還是很通俗的
感謝支持,能對大家有些用處,我就很開心啦
作者寫的很詳細,我補充2點吧:
1、每個地區的W安部門都會定期更新 敏感字詞庫,這些都要即使更新到自己的審核后臺中。
2、單純的把敏感詞做替換會帶來很多不必要的麻煩,影響閱讀, 創作者的感受也不好,比如“西Z獨立30周年” 里面有“Z 獨”被屏蔽了,而實際語義并非是這個意思, 這就引入了更加智能的 “語義分析”機制,結合段落的前后字句對語義做分析,減少誤判幾率。
謝謝有益補充
請問哪里可以獲取到這些W安部門定期更新的敏感詞庫?
作者開頭的 提示很真實, 做過內容和社區的都有切膚之痛。
去知乎搜索一下“內容審核”,看看那些答案,真的會感覺“人間不值得” ??