综合自拍亚洲综合图区高清,狠狠躁狠狠躁东京热无码专区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

內容審核邏輯｜從入門到被門檻絆倒

阿互

2020-05-12

13 評論 15606 瀏覽 158 收藏

15 分鐘

讀完這篇文章，你可以詳細了解文字類內容審核的邏輯，還會了解一些圖片和短視頻審核的技術，足以補充一個運營或產品在這方面的知識儲備了。來看看~

文章開始之前，給大家兩條建議：

除非你別無選擇，盡可能不要從事純粹內容審核崗位
如果你的工作和運營或產品有關，都需要了解內容審核的邏輯

“兒童送養”這個話題在大多平臺都是極為罕見的，但知乎最近就因此爆發了一場危及平臺聲譽的危機。

內容審核邏輯｜從入門到被門檻絆倒

內容審核就是這樣一種職業，違法違規信息覆蓋范圍極廣，新的違規信息層出不窮。無論你多么有經驗、無論審核系統多么先進，只要發生問題，看起來都是很基礎甚至很愚蠢的問題。

知乎這樣一個有很強的技術實力和內容審核經驗的平臺，也會在這個問題上摔跟頭。并且可以預料的是，不知道在多久的以后，知乎一定還會發生一次又一次因為存在違規內容帶來的危機事件，這事情無可避免。有人說，對于內容審核人員來說這是從入門到被門檻絆倒，一點都不夸張。

讀完這篇文章，你可以詳細了解文字類內容審核的邏輯，還會了解一些圖片和短視頻審核的技術，足以補充一個運營或產品在這方面的知識儲備了。

在不同公司，對審核類職位的劃分標準不同，比如有內容安全審核、內容推薦審核、內容質量審核等類似職位。雖然在側重點和具體操作上有所不同，但有許多邏輯都是共通的。為了避免文章過于復雜，我們在這里側重最常見的內容安全審核。

審核模塊

不管是什么內容的審核，都應該包含以下四個基礎模塊：機器審核、人工審核、用戶投訴審核、結果復審。

內容審核邏輯｜從入門到被門檻絆倒

機器審核，是按照制定好的規則或機器學習算法對內容進行審核，通常，成熟的審核系統能將95%甚至99%以上的內容都自動審核并做出處理。確定有問題的會被自動刪除，難以判斷是否有問題的會被標注，進入人工審核程序。
人工審核，雖然用戶投訴審核和結果復審大多時候也是人工審核，但這里所說的人工審核，特指審核機器無法判別的內容，通常占平臺內容數量的比例不超過5%，但對于一些大型的內容平臺，絕對數量已經很多了。在內容爆炸的時代，我們看到許多平臺在全國都有多個審核中心，每個審核中心的員工數量都成千甚至上萬。
用戶投訴審核，是前兩者的彌補，有很多違規內容以前沒有出現過，所以不在規則可以過濾的范圍內，或者非常隱蔽，規則難以嚴格過濾。用戶的投訴是發現新問題的重要渠道。通過知乎的危機事件，我們更應該重視對投訴的審核，并及時據此對機器審核做出補充。
結果復審，通常采取抽查方式，比如通過復審機器刪除的內容，看規則或算法是否過于嚴格；比如通過查看人工刪除和通過的內容，看員工的工作是否按要求執行；比如通過內容的整體巡查，看是否存在新的問題未被注意到。

在文字類內容平臺，比如知乎、簡書、豆瓣以及各類論壇網站，機器審核主要是基于關鍵詞過濾的邏輯，邏輯比較簡單，但也沒有想象的那么簡單。

關鍵詞過濾

一篇文章發布到平臺后，需要至少經歷以下環節：

內容審核邏輯｜從入門到被門檻絆倒

詞語過濾的環節，關鍵詞主要分為三類：

內容審核邏輯｜從入門到被門檻絆倒

禁止關鍵詞，只要匹配到這個詞，內容就被自動刪除或禁止提交。通常只有極少數詞會被納入禁止關鍵詞，比如明確的色情、邪教以及廣告的專屬關鍵詞。

審核關鍵詞，這是最常見的關鍵詞種類，只要匹配到就會自動進入后臺進行審核，文章中的關鍵詞會被高亮并羅列出來，有助于審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞，以防止太多內容被攔截到后臺。

替換關鍵詞，在許多平臺，我們會在文中看到莫名的*號或字母縮寫，這可能不是文章作者寫的，而是這個詞被系統自動替換。平臺不希望出現這個關鍵詞，但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語，都有可能被自動替換。

內容審核邏輯｜從入門到被門檻絆倒

當然，管理員在添加關鍵詞時，很多時候并不是直接把關鍵詞添加到后臺。否則用戶用很簡單的方式就可以避過關鍵詞過濾，比如在關鍵詞內加一個空格，系統就難以匹配到。

所以，一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字，x 是忽略的字節數。在Discuz!網站后臺有明確說明，如 “a{1}s{2}s”(不含引號) 可以過濾 “ass”也可過濾 “axsxs”和 “axsxxs”等等。對于中文字符，若使用 GBK、Big-5 版本，每個中文字符相當于 2 個字節；若使用 UTF-8 版本，每個中文字符相當于 3 個字節。

另外，關鍵詞還可以支持正則表達式，來匹配具有一定模式的關鍵詞，比如”/1d{10}([^d]+|$)/“（不包括引號）用來匹配手機號碼。正則表達式的內容過多，大家有興趣可以搜索學習一下。

技術概覽

以上講述的，主要是文字類內容的審核和規則，邏輯簡單，但應用最為廣泛。近年隨著短視頻類產品的興起，內容審核的邏輯需要更加深層的技術支持。

技術上的東西，對大多人來說如同天書，而且也沒有必要深入了解。我們挑選幾個容易理解的點，來窺探幾分內容審核背后的技術。

內容審核邏輯｜從入門到被門檻絆倒

來源：某相關產品宣傳網頁

OCR（文本識別技術），主要用來識別圖片中存在的文字。許多違規內容，包括聯系方式、色情信息、廣告信息等為了規避審核，都會以圖片的方式呈現。

人臉識別技術，通常用來識別政治、宗教類人物，識別到后可以直接刪除或者進行風險標記。

語音識別技術，語音識別的應用場景比較多，但在內容審核領域仍然不是剛需，所以使用的較少。但也有些直播或音頻平臺比較重視音頻對比、聲紋識別技術，可以輕易識別到一些固定模式的違法違規聲音。

視頻識別≈圖片識別，視頻是畫面與音頻組成的以幀為單位的畫面，通常采取截幀上傳與服務器數據對比來識別。審核模式和圖片審核相同，比如通過畫面皮膚裸露狀態來判斷是否過于性感、是否是色情內容。

上下文語義識別技術，這種技術用來判斷一句話是否能跟上下文結合，是否是一段垃圾文本。比如說，在評論區隨便輸入一串奇怪的文本，如果系統認為和上下文不相關，就有理由將內容放入審核區。

技術是很酷，用好了可以大量減少我們的工作，但內容審核技術的實施是一件很難一勞永逸的事情，其中的尺度和參數都需要人來不斷維護，而且人工審核仍然是非常有必要的，并且需要的人工可能越來越多。內容審核技術的應用，仍然任重道遠。

常見問題

1. 替代關鍵詞不能太簡單

我曾經在一款APP上看管理類文章，整篇文章多處說到給員工定績效要遵循“**ART原則”，我遲疑了好幾秒才明白，原來是“SMART原則”。

SM這個詞只有兩個字母，無論是作為禁止、審核還是替換關鍵詞都不合適，都容易攔截或替換大量不應該處理的內容，一般的方法很難處理。

這時候，我們可以總結一下模式，如果sm這兩個字母前面是英文字母，或者后面是英文字母，一般來說就是另一個英文單詞，就不會有問題。我們就可以用正則表達式把這一規則寫出來，再設置審核或替換就會好很多。

2. 審核時間與用戶體驗的權衡

去知乎和微博搜一下“審核”，被抱怨最多的問題就是審核時間長。用戶提交內容到內容審核通過，這期間心情會劇烈波動，如果用戶等了一兩天時間，最后內容被莫名其妙地拒絕，而且不給任何明確的拒絕理由，用戶的心情就會由期待變為焦慮，進而變成憤怒，這就是B站被up主抱怨最多的地方。

我們可以從以下角度優化用戶體驗：

用戶提交內容后，正常呈現已發布的內容狀態，可以反復編輯，只是給出狀態提示，提示內容正在審核，如果有必要可以提示一般多久可以審核完。
用戶提交內容后，如果進入審核，但覺得問題不大，或者用戶歷史記錄良好，可以自動進入“限流”狀態，即只允許自己和粉絲/好友觀看。待審核通過后，開放給所有人。這期間不需要給用戶任何提示。
用戶內容被拒后，原因是可以找到依據、可以確定的。很多平臺都是讓用戶具體原因參考某某規范文檔，但這個文檔里又是一堆大而化之的空話。許多時候機器審核是存在誤刪的可能的，這時候如果申訴渠道也不能及時反饋，就會讓人非?；鸫蟆?/li>
優質賬號設為信任賬戶或優先審核。比如官方賬號、以前從沒出現問題的老賬號，至少應當做到優先審核，甚至直接放開，先放后審。

3. 理解內容審核的保守傾向

越是體量很大的平臺，內容審核越是有保守傾向，這不只是因為盤子大了更加在意風險管理，還有一些現實的原因。內容數量太多，平臺就不得不采用規則和算法去審核，這些規則和算法需要最終做出決策，就難免拿著標準一刀切，即使這把刀很小也會有誤傷，這種標準對很多內容就顯得過于嚴格。

比如皮膚裸露面積達到多少會有問題、裸露哪些位置會有問題，無論標準多么的細化，都會存在誤判，被誤判的內容比例可能很小，但絕對數量很大。據說很多圖片和視頻中如果存在加菲貓，都會被過濾掉，因為它黃色面積太大而且和人的皮膚很像。

在被審核的用戶看來這些標準有點保守，有點不近人情，甚至可笑。平臺的管理人員也知道問題，但他們很難做到很細致，為了快速把違規的內容剔除，只能犧牲掉一部分人的用戶體驗，畢竟違規內容一旦出現，對平臺來說就是大問題。所以說，內容審核技術的應用還非常任重道遠。

以上的內容，對于一個運營或產品工作者來說，已經足夠了。但如果你真的需要對一款產品的內容審核規范負責，就需要去學習更多知識，需要有更加專業的精神和更謹慎的態度，未來還會有無數難以預料的坎坷等著你。

本文由 @內容工程師原創發布于人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

內容審核體系的設計思路文章被收錄于該專欄

共 13 篇文章18930 人已學習

阿互

專注互聯網內容表達方式，公眾號：阿互

4篇作品 33492總閱讀量

滑動匹配、短視頻回復、NPC交互……AI應用越走越寬

08-175456 瀏覽

人工智能大模型如何助力數字化營銷流量策略優化

12-315613 瀏覽

如何借助數據，快速高效構建用戶模型？

08-151873 瀏覽

千億智能家居市場大爆發，家電品類如何重煥升級？

05-262234 瀏覽

如何利用設計團隊分享提高表達能力

01-054403 瀏覽

評論

斑馬非馬

阿互，這篇文章跟你的相似度極高（http://www.aharts.cn/operate/3882605.html），你看看怎么回事？她比你的發布時間晚

最近來自上海回復
1. 阿互作者回復斑馬非馬
  
  ??反正我是一個字一個字寫的，這年頭人太沒底線了
  
  最近回復
小小日月

第一句話很真實

最近來自北京回復
1. 阿互作者回復小小日月
  
  這個職位的確成長性不足，而且很多公司三班倒，工作內容機械化，很容易讓人陷入惡性循環。但在有些公司，審核是要兼任其它工作的，那可能就還好。
  
  最近來自北京回復
百事可樂賽高

其實內容審核還有一部分對抗在里面，類似于c n nn就是經典國罵的對抗，有的人為了表達這類意思，就會用各種文字變體，這一塊也是內容審核的難點

最近來自廣東回復
1. 阿互作者回復百事可樂賽高
  
  的確是難點，可以考慮釘重點用戶，往往喜歡罵人的人不多，就那幾個天天罵
  
  最近來自北京回復
南洛

內容審核3年~作者寫的還是很通俗的

最近來自廣東回復
1. 阿互作者回復南洛
  
  感謝支持，能對大家有些用處，我就很開心啦
  
  最近來自北京回復
漢武帝

作者寫的很詳細，我補充2點吧：
1、每個地區的W安部門都會定期更新敏感字詞庫，這些都要即使更新到自己的審核后臺中。
2、單純的把敏感詞做替換會帶來很多不必要的麻煩，影響閱讀，創作者的感受也不好，比如“西Z獨立30周年” 里面有“Z 獨”被屏蔽了，而實際語義并非是這個意思，這就引入了更加智能的 “語義分析”機制，結合段落的前后字句對語義做分析，減少誤判幾率。

最近來自上海回復
1. 阿互作者回復漢武帝
  
  謝謝有益補充
  
  最近來自北京回復
2. 汪仔1542 回復漢武帝
  
  請問哪里可以獲取到這些W安部門定期更新的敏感詞庫？
  
  最近來自廣東回復
漢武帝

作者開頭的提示很真實，做過內容和社區的都有切膚之痛。

最近來自上海回復
1. 阿互作者回復漢武帝
  
  去知乎搜索一下“內容審核”，看看那些答案，真的會感覺“人間不值得” ??
  
  最近來自北京回復