內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度
對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對(duì)你有所幫助。
何為內(nèi)容審核?
簡(jiǎn)單來說就是:對(duì)用戶在社交平臺(tái)上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。
其主要目的是對(duì)低質(zhì)庸俗的內(nèi)容進(jìn)行過濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。
而在這個(gè)過程中,平臺(tái)會(huì)對(duì)于內(nèi)容有一個(gè)專業(yè)的標(biāo)準(zhǔn)作為參考,這個(gè)時(shí)候有一個(gè)很大的問題就是人工篩選效率低,而且成本大。
所以很多內(nèi)容平臺(tái)采用了算法進(jìn)行過濾,通過人工和算法的有效結(jié)合來提升效率。
經(jīng)過過濾后的內(nèi)容基本上能保證無害,即使質(zhì)量不高,但也不存在風(fēng)險(xiǎn)問題。這時(shí)企業(yè)就會(huì)面對(duì)選擇是先發(fā)后審還是先審后發(fā):
- “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過審核;
- “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。
“先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:
- “先發(fā)后審”:適用于對(duì)發(fā)表內(nèi)容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽歌等場(chǎng)景下的用戶評(píng)論,此時(shí)用戶發(fā)表評(píng)論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評(píng)論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評(píng)論。
- “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺(tái)等場(chǎng)景下發(fā)表文章、觀點(diǎn)、討論等,此時(shí)對(duì)于平臺(tái)方來說需要對(duì)內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。
一、審核方式
不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。
1. 機(jī)器審核
是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對(duì)內(nèi)容進(jìn)行審核.
通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動(dòng)審核并做出處理。確定有問題的會(huì)被自動(dòng)刪除,難以判斷是否有問題的會(huì)被標(biāo)注,進(jìn)入人工審核程序。
2. 人工審核
雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容,通常占平臺(tái)內(nèi)容數(shù)量的比例不超過5%.
但對(duì)于一些大型的內(nèi)容平臺(tái),絕對(duì)數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代,我們看到許多平臺(tái)在全國都有多個(gè)審核中心,每個(gè)審核中心的員工數(shù)量都成千甚至上萬。
3. 用戶投訴審核
是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過濾。
用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機(jī)事件,我們更應(yīng)該重視對(duì)投訴的審核,并及時(shí)據(jù)此對(duì)機(jī)器審核做出補(bǔ)充。
4. 結(jié)果復(fù)審
通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過于嚴(yán)格;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過內(nèi)容的整體巡查,看是否存在新的問題未被注意到。
二、審核流程
具體流程,以下圖為例:
- 先過機(jī)器審核,機(jī)器審核 通過 或 不通過;
- 對(duì)機(jī)器審核不通過的,再進(jìn)行人工復(fù)審;
- 對(duì)機(jī)器審核通過的,再進(jìn)行人工抽樣審核。
三、審核的四個(gè)維度
這里一般都是對(duì)四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過濾和白/黑名單用戶。
1. 關(guān)鍵詞審核
詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:
1)禁止關(guān)鍵詞
只要匹配到這個(gè)詞,內(nèi)容就被自動(dòng)刪除或禁止提交。通常只有極少數(shù)詞會(huì)被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。
2)審核關(guān)鍵詞
這是最常見的關(guān)鍵詞種類,只要匹配到就會(huì)自動(dòng)進(jìn)入后臺(tái)進(jìn)行審核,文章中的關(guān)鍵詞會(huì)被高亮并羅列出來,有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺(tái)。
3)替換關(guān)鍵詞
在許多平臺(tái),我們會(huì)在文中看到莫名的號(hào)或字母縮寫*,這可能不是文章作者寫的,而是這個(gè)詞被系統(tǒng)自動(dòng)替換。平臺(tái)不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動(dòng)替換。
當(dāng)然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺(tái)。否則用戶用很簡(jiǎn)單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格,系統(tǒng)就難以匹配到。
所以,一般后臺(tái)都會(huì)支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺(tái)有明確說明,如 “a{1}s{2}s”(不含引號(hào)) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。
對(duì)于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié);若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)。
另外,關(guān)鍵詞還可以支持正則表達(dá)式,來匹配具有一定模式的關(guān)鍵詞。比如”/1\d{10}([^\d]+|$)/”(不包括引號(hào))用來匹配手機(jī)號(hào)碼。正則表達(dá)式的內(nèi)容過多,大家有興趣可以搜索學(xué)習(xí)一下。
2. 用戶發(fā)布次數(shù)限制
主要限制一名用戶無限制地發(fā)送評(píng)論。
對(duì)這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評(píng)論;一小時(shí)內(nèi)最多發(fā)送10條評(píng)論,一天最多發(fā)送三十條評(píng)論,評(píng)論次數(shù)如果超出時(shí)則彈出toast“發(fā)言太多累了吧,請(qǐng)休息下”的提示。
其實(shí)這個(gè)限制上線后,發(fā)現(xiàn)發(fā)廣告的人會(huì)不斷注冊(cè)新號(hào)來規(guī)避這個(gè)問題,后續(xù)可以考慮再加上。新用戶需注冊(cè)多長(zhǎng)時(shí)間才可發(fā)布評(píng)論,或需綁定手機(jī)號(hào)才可以發(fā)布評(píng)論這些嚴(yán)格的條件。
3. 重復(fù)內(nèi)容過濾
這種一般都是對(duì)于發(fā)廣告的。
對(duì)比時(shí)去掉除漢字外的任何符號(hào),如“抖丶音”、“快aabb手”,對(duì)比時(shí)用“抖音”“快手”;將評(píng)論與同一用戶上條評(píng)論作對(duì)比,10個(gè)漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請(qǐng)不要發(fā)布重復(fù)內(nèi)容”;同時(shí)將評(píng)論僅與評(píng)論庫最近發(fā)布50條的評(píng)論作對(duì)比,20個(gè)漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失?。?0,70%;50,60%);
在對(duì)比重復(fù)內(nèi)容時(shí)一定要去掉一些無關(guān)的符號(hào)。因?yàn)楹芏嘈V告喜歡加空格,逗號(hào)這些。他們也通常備用好幾條文案,可以將評(píng)論庫的拿出來對(duì)比;這樣也可以規(guī)避他們換號(hào),換文案的問題。
4. 白名單用戶,黑名單用戶
白名單用戶、黑名單用戶需要有個(gè)可編輯的后臺(tái),可隨時(shí)增減;若同一用戶一天內(nèi)機(jī)審失敗的評(píng)論超過10,則自動(dòng)列入黑名單。
白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評(píng)論超過10條機(jī)審失敗,也自動(dòng)列入黑名單。列在黑名單的用戶發(fā)布評(píng)論時(shí),彈出toast“您暫時(shí)無法發(fā)布評(píng)論”或機(jī)審直接失敗。
最后補(bǔ)充下,其實(shí)沒有對(duì)IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評(píng)論這一問題,但我還是希望在不影響到普通用戶的前提下。
以上基本是一個(gè)內(nèi)容審核都需要了解的點(diǎn)了。
本文由 @咩咩咩 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
審核
審核需不需要保留審核記錄?
當(dāng)然需要
審核
1
后臺(tái)功能設(shè)計(jì)怎樣考慮減輕審核人員的負(fù)擔(dān)呢
快捷鍵、任務(wù)流式推送、在加一些輔助識(shí)別關(guān)鍵詞什么的
為甚跟這一篇這么像,誰抄誰的?http://www.aharts.cn/it/3844120.html
試一下評(píng)論是否有審核
人人怕是先審后發(fā)吧
看來結(jié)果是先發(fā)后審
看來結(jié)果是先發(fā)后審大大大大大大
好的
好想
試一下先審后發(fā)
寫的淺顯易懂,邏輯清晰
大佬方便留個(gè)微信嘛?
人工圖審 的任務(wù)分配可以指點(diǎn)一下嗎 謝謝
請(qǐng)教一下樓主,如果一篇文章后臺(tái)人工審核通過了,是否還需要保留審核不通過的按鈕呢?就是這篇文章在后臺(tái)有審核通過和拒絕兩種操作,如果我操作審核通過了,那么審核拒絕這個(gè)按鈕后面還需要保留嗎?
通常狀況下是保留的 或者采用其他留置按鈕以備隨時(shí)下線
111
感謝分享??吹轿恼掳l(fā)布有一段時(shí)間了,想請(qǐng)問一下作者,對(duì)于大量注冊(cè)新號(hào)以規(guī)避發(fā)布次數(shù)限制的現(xiàn)象(黑灰產(chǎn)賬號(hào)),現(xiàn)在有辦法解決嗎?
這種就不能依托簡(jiǎn)單的審核策略了,大量的注冊(cè)新號(hào)和發(fā)布黑灰產(chǎn)內(nèi)容是存在共性特征的,這部分如果用人審解決的話成本很高識(shí)別率也會(huì)低,一般大廠會(huì)專門的做對(duì)應(yīng)的反作弊算法模型。
現(xiàn)在好像還挺做內(nèi)容審核服務(wù)平臺(tái)誒,什么情況下自己做,什么情況下直接買服務(wù)好呢?
同問+1
1、在公司本身有內(nèi)容風(fēng)控框架或內(nèi)容風(fēng)控體系能人,滿足公司運(yùn)營成本的情況下可以自己做。
2、公司本身無內(nèi)容風(fēng)控體系相關(guān)能力,短期僅為應(yīng)急的情況下,可直接買服務(wù),在使用服務(wù)的過程中逐步完善公司內(nèi)部?jī)?nèi)容風(fēng)控體系,說到底,內(nèi)容安全風(fēng)控掌握在公司內(nèi)部的安全性比買服務(wù)要高很多很多
贊一個(gè)
寫實(shí)操內(nèi)容的作者不多了,點(diǎn)個(gè)贊
圖文審核的話感覺會(huì)更加復(fù)雜 ??
還行,就是熟練度的問題,上手很容易
圖片是怎么樣的審核?有對(duì)應(yīng)的策略嗎?
要先確定內(nèi)容是否合規(guī)以及是否有版權(quán)風(fēng)險(xiǎn),第二點(diǎn)的話可以接入相關(guān)API輔助檢測(cè)。