內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

32 評(píng)論 52838 瀏覽 349 收藏 11 分鐘

對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對(duì)你有所幫助。

何為內(nèi)容審核?

簡(jiǎn)單來說就是:對(duì)用戶在社交平臺(tái)上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。

其主要目的是對(duì)低質(zhì)庸俗的內(nèi)容進(jìn)行過濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。

而在這個(gè)過程中,平臺(tái)會(huì)對(duì)于內(nèi)容有一個(gè)專業(yè)的標(biāo)準(zhǔn)作為參考,這個(gè)時(shí)候有一個(gè)很大的問題就是人工篩選效率低,而且成本大。

所以很多內(nèi)容平臺(tái)采用了算法進(jìn)行過濾,通過人工和算法的有效結(jié)合來提升效率。

經(jīng)過過濾后的內(nèi)容基本上能保證無害,即使質(zhì)量不高,但也不存在風(fēng)險(xiǎn)問題。這時(shí)企業(yè)就會(huì)面對(duì)選擇是先發(fā)后審還是先審后發(fā):

  • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過審核;
  • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。

“先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:

  • “先發(fā)后審”:適用于對(duì)發(fā)表內(nèi)容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽歌等場(chǎng)景下的用戶評(píng)論,此時(shí)用戶發(fā)表評(píng)論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評(píng)論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評(píng)論。
  • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺(tái)等場(chǎng)景下發(fā)表文章、觀點(diǎn)、討論等,此時(shí)對(duì)于平臺(tái)方來說需要對(duì)內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

一、審核方式

不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。

1. 機(jī)器審核

是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對(duì)內(nèi)容進(jìn)行審核.

通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動(dòng)審核并做出處理。確定有問題的會(huì)被自動(dòng)刪除,難以判斷是否有問題的會(huì)被標(biāo)注,進(jìn)入人工審核程序。

2. 人工審核

雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容,通常占平臺(tái)內(nèi)容數(shù)量的比例不超過5%.

但對(duì)于一些大型的內(nèi)容平臺(tái),絕對(duì)數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代,我們看到許多平臺(tái)在全國都有多個(gè)審核中心,每個(gè)審核中心的員工數(shù)量都成千甚至上萬。

3. 用戶投訴審核

是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過濾。

用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機(jī)事件,我們更應(yīng)該重視對(duì)投訴的審核,并及時(shí)據(jù)此對(duì)機(jī)器審核做出補(bǔ)充。

4. 結(jié)果復(fù)審

通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過于嚴(yán)格;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過內(nèi)容的整體巡查,看是否存在新的問題未被注意到。

二、審核流程

具體流程,以下圖為例:

  1. 先過機(jī)器審核,機(jī)器審核 通過 或 不通過;
  2. 對(duì)機(jī)器審核不通過的,再進(jìn)行人工復(fù)審;
  3. 對(duì)機(jī)器審核通過的,再進(jìn)行人工抽樣審核。

三、審核的四個(gè)維度

這里一般都是對(duì)四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過濾和白/黑名單用戶。

1. 關(guān)鍵詞審核

詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

1)禁止關(guān)鍵詞

只要匹配到這個(gè)詞,內(nèi)容就被自動(dòng)刪除或禁止提交。通常只有極少數(shù)詞會(huì)被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。

2)審核關(guān)鍵詞

這是最常見的關(guān)鍵詞種類,只要匹配到就會(huì)自動(dòng)進(jìn)入后臺(tái)進(jìn)行審核,文章中的關(guān)鍵詞會(huì)被高亮并羅列出來,有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺(tái)。

3)替換關(guān)鍵詞

在許多平臺(tái),我們會(huì)在文中看到莫名的號(hào)或字母縮寫*,這可能不是文章作者寫的,而是這個(gè)詞被系統(tǒng)自動(dòng)替換。平臺(tái)不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動(dòng)替換。

當(dāng)然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺(tái)。否則用戶用很簡(jiǎn)單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格,系統(tǒng)就難以匹配到。

所以,一般后臺(tái)都會(huì)支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺(tái)有明確說明,如 “a{1}s{2}s”(不含引號(hào)) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。

對(duì)于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié);若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)。

另外,關(guān)鍵詞還可以支持正則表達(dá)式,來匹配具有一定模式的關(guān)鍵詞。比如”/1\d{10}([^\d]+|$)/”(不包括引號(hào))用來匹配手機(jī)號(hào)碼。正則表達(dá)式的內(nèi)容過多,大家有興趣可以搜索學(xué)習(xí)一下。

2. 用戶發(fā)布次數(shù)限制

主要限制一名用戶無限制地發(fā)送評(píng)論。

對(duì)這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評(píng)論;一小時(shí)內(nèi)最多發(fā)送10條評(píng)論,一天最多發(fā)送三十條評(píng)論,評(píng)論次數(shù)如果超出時(shí)則彈出toast“發(fā)言太多累了吧,請(qǐng)休息下”的提示。

其實(shí)這個(gè)限制上線后,發(fā)現(xiàn)發(fā)廣告的人會(huì)不斷注冊(cè)新號(hào)來規(guī)避這個(gè)問題,后續(xù)可以考慮再加上。新用戶需注冊(cè)多長(zhǎng)時(shí)間才可發(fā)布評(píng)論,或需綁定手機(jī)號(hào)才可以發(fā)布評(píng)論這些嚴(yán)格的條件。

3. 重復(fù)內(nèi)容過濾

這種一般都是對(duì)于發(fā)廣告的。

對(duì)比時(shí)去掉除漢字外的任何符號(hào),如“抖丶音”、“快aabb手”,對(duì)比時(shí)用“抖音”“快手”;將評(píng)論與同一用戶上條評(píng)論作對(duì)比,10個(gè)漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請(qǐng)不要發(fā)布重復(fù)內(nèi)容”;同時(shí)將評(píng)論僅與評(píng)論庫最近發(fā)布50條的評(píng)論作對(duì)比,20個(gè)漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失?。?0,70%;50,60%);

在對(duì)比重復(fù)內(nèi)容時(shí)一定要去掉一些無關(guān)的符號(hào)。因?yàn)楹芏嘈V告喜歡加空格,逗號(hào)這些。他們也通常備用好幾條文案,可以將評(píng)論庫的拿出來對(duì)比;這樣也可以規(guī)避他們換號(hào),換文案的問題。

4. 白名單用戶,黑名單用戶

白名單用戶、黑名單用戶需要有個(gè)可編輯的后臺(tái),可隨時(shí)增減;若同一用戶一天內(nèi)機(jī)審失敗的評(píng)論超過10,則自動(dòng)列入黑名單。

白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評(píng)論超過10條機(jī)審失敗,也自動(dòng)列入黑名單。列在黑名單的用戶發(fā)布評(píng)論時(shí),彈出toast“您暫時(shí)無法發(fā)布評(píng)論”或機(jī)審直接失敗。

最后補(bǔ)充下,其實(shí)沒有對(duì)IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評(píng)論這一問題,但我還是希望在不影響到普通用戶的前提下。

以上基本是一個(gè)內(nèi)容審核都需要了解的點(diǎn)了。

 

本文由 @咩咩咩 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 審核

    來自上海 回復(fù)
  2. 審核需不需要保留審核記錄?

    來自福建 回復(fù)
    1. 當(dāng)然需要

      回復(fù)
  3. 審核

    回復(fù)
    1. 1

      回復(fù)
  4. 后臺(tái)功能設(shè)計(jì)怎樣考慮減輕審核人員的負(fù)擔(dān)呢

    來自上海 回復(fù)
    1. 快捷鍵、任務(wù)流式推送、在加一些輔助識(shí)別關(guān)鍵詞什么的

      回復(fù)
  5. 為甚跟這一篇這么像,誰抄誰的?http://www.aharts.cn/it/3844120.html

    來自上海 回復(fù)
  6. 試一下評(píng)論是否有審核

    來自廣東 回復(fù)
    1. 人人怕是先審后發(fā)吧

      來自四川 回復(fù)
    2. 看來結(jié)果是先發(fā)后審

      來自四川 回復(fù)
    3. 看來結(jié)果是先發(fā)后審大大大大大大

      來自四川 回復(fù)
  7. 好的

    回復(fù)
  8. 好想

    回復(fù)
  9. 試一下先審后發(fā)

    回復(fù)
  10. 寫的淺顯易懂,邏輯清晰

    來自廣東 回復(fù)
  11. 大佬方便留個(gè)微信嘛?

    來自廣東 回復(fù)
  12. 人工圖審 的任務(wù)分配可以指點(diǎn)一下嗎 謝謝

    來自北京 回復(fù)
  13. 請(qǐng)教一下樓主,如果一篇文章后臺(tái)人工審核通過了,是否還需要保留審核不通過的按鈕呢?就是這篇文章在后臺(tái)有審核通過和拒絕兩種操作,如果我操作審核通過了,那么審核拒絕這個(gè)按鈕后面還需要保留嗎?

    來自湖北 回復(fù)
    1. 通常狀況下是保留的 或者采用其他留置按鈕以備隨時(shí)下線

      回復(fù)
  14. 111

    來自北京 回復(fù)
  15. 感謝分享??吹轿恼掳l(fā)布有一段時(shí)間了,想請(qǐng)問一下作者,對(duì)于大量注冊(cè)新號(hào)以規(guī)避發(fā)布次數(shù)限制的現(xiàn)象(黑灰產(chǎn)賬號(hào)),現(xiàn)在有辦法解決嗎?

    來自北京 回復(fù)
    1. 這種就不能依托簡(jiǎn)單的審核策略了,大量的注冊(cè)新號(hào)和發(fā)布黑灰產(chǎn)內(nèi)容是存在共性特征的,這部分如果用人審解決的話成本很高識(shí)別率也會(huì)低,一般大廠會(huì)專門的做對(duì)應(yīng)的反作弊算法模型。

      來自北京 回復(fù)
  16. 現(xiàn)在好像還挺做內(nèi)容審核服務(wù)平臺(tái)誒,什么情況下自己做,什么情況下直接買服務(wù)好呢?

    來自廣東 回復(fù)
    1. 同問+1

      回復(fù)
    2. 1、在公司本身有內(nèi)容風(fēng)控框架或內(nèi)容風(fēng)控體系能人,滿足公司運(yùn)營成本的情況下可以自己做。
      2、公司本身無內(nèi)容風(fēng)控體系相關(guān)能力,短期僅為應(yīng)急的情況下,可直接買服務(wù),在使用服務(wù)的過程中逐步完善公司內(nèi)部?jī)?nèi)容風(fēng)控體系,說到底,內(nèi)容安全風(fēng)控掌握在公司內(nèi)部的安全性比買服務(wù)要高很多很多

      來自四川 回復(fù)
  17. 贊一個(gè)

    回復(fù)
  18. 寫實(shí)操內(nèi)容的作者不多了,點(diǎn)個(gè)贊

    來自北京 回復(fù)
  19. 圖文審核的話感覺會(huì)更加復(fù)雜 ??

    來自上海 回復(fù)
    1. 還行,就是熟練度的問題,上手很容易

      來自北京 回復(fù)
    2. 圖片是怎么樣的審核?有對(duì)應(yīng)的策略嗎?

      回復(fù)
    3. 要先確定內(nèi)容是否合規(guī)以及是否有版權(quán)風(fēng)險(xiǎn),第二點(diǎn)的話可以接入相關(guān)API輔助檢測(cè)。

      來自上海 回復(fù)