搭建內(nèi)容安全審核系統(tǒng)的設(shè)計(jì)思路
編輯導(dǎo)讀:對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。審核是對(duì)產(chǎn)品風(fēng)險(xiǎn)的把控,也是維護(hù)網(wǎng)絡(luò)生態(tài)環(huán)境中重要的一環(huán)。這篇文章,作者為我們講解了搭建內(nèi)容審核系統(tǒng)的設(shè)計(jì)思路和流程,希望能對(duì)你有所幫助。
今年負(fù)責(zé)的APP產(chǎn)品涉及到內(nèi)容的審核,并且針對(duì)性的做了一套內(nèi)容審核系統(tǒng)和賬號(hào)安全體系。因此總結(jié)了一些經(jīng)驗(yàn)。
內(nèi)容審核基礎(chǔ)邏輯:
- 內(nèi)容類型:文本、圖片、視頻、音頻
- 審核類型:涉黃、暴恐、涉政、廣告、垃圾違禁、辱罵自定義;主要為這幾類,其他的根據(jù)具體場(chǎng)景添加,比如文化宗教等。
審核模塊:
- 用戶發(fā)送信息流程:用戶登錄——內(nèi)容編輯——內(nèi)容上傳——內(nèi)容展示
- 用戶接受信息流程:用戶登錄——內(nèi)容展示——互動(dòng)
通過簡(jiǎn)單的流程梳理,不難看出涉及的對(duì)象有:發(fā)送用戶、接收用戶、內(nèi)容審核(人員、管理員等)等;那么考慮設(shè)計(jì)時(shí),有兩個(gè)方向去思考:一方面,單純考慮針對(duì)某個(gè)對(duì)象,要做什么機(jī)制處理。另一個(gè)方面,將相關(guān)聯(lián)對(duì)象串聯(lián)起來,考慮產(chǎn)品設(shè)計(jì)。
一、對(duì)于發(fā)送用戶
可以通過用戶的賬號(hào)進(jìn)行處理,用戶的所有行為都能說明用戶想干什么,是什么樣的用戶。
針對(duì)用戶可以建立一套賬號(hào)基礎(chǔ)信息、用戶分值系統(tǒng)、用戶風(fēng)險(xiǎn)監(jiān)控系統(tǒng)。
用戶基礎(chǔ)信息可以有用戶年齡、性別、地理位置、設(shè)備、ip地址、使用時(shí)長、交易信息、用戶發(fā)布各類信息等。用戶數(shù)據(jù)是對(duì)用戶進(jìn)行分析的基礎(chǔ),有些數(shù)據(jù)可以在一定程度上反應(yīng)用戶信用。
用戶分值系統(tǒng)則是通過用戶基礎(chǔ)數(shù)據(jù)進(jìn)行分析,并數(shù)值化,可以按權(quán)重累加、按總分值加總均可。
比如:發(fā)布過一個(gè)違規(guī)內(nèi)容的用戶,則分值降低等。僅分值系統(tǒng)可能不夠,比如分值高的用戶,但是還是有可能發(fā)布不好的內(nèi)容。因此需要再通過其他策略處理,比如高中低風(fēng)險(xiǎn)用戶制度、黑白名單制度等。
比如:一個(gè)用戶發(fā)布了一個(gè)違規(guī)內(nèi)容被檢測(cè)出來后,和分值解耦的另外一個(gè)平臺(tái)定義其為高風(fēng)險(xiǎn)用戶,該用戶后續(xù)內(nèi)容將多次放到人工審核機(jī)制中。
二、內(nèi)容的編輯、上傳
內(nèi)容上傳后,就是常用的先跑系統(tǒng)審核流程——人工審核流程——及其他申述復(fù)審流程等。
常見可選擇敏感詞策略有:不同類型內(nèi)容選擇不同。
(1)關(guān)鍵詞:禁止關(guān)鍵詞,一旦識(shí)別立即攔截。疑似關(guān)鍵詞:支持更多策略,可以設(shè)置閾值,處理的方式有:疑似送審、攔截不送審、攔截加黑名單。設(shè)置的閾值指的是:設(shè)置一定數(shù),若檢測(cè)出超過一定次數(shù)后,則對(duì)應(yīng)處理。
(2)黑白名單:顧名思義,黑名單一律攔截、白名單一律不檢測(cè)攔截。
(3)用戶頻次:主要針對(duì)用戶發(fā)送的方式、次數(shù)等次數(shù)進(jìn)行統(tǒng)計(jì),形成用戶頻次統(tǒng)計(jì)數(shù)據(jù)。根據(jù)頻次可對(duì)用戶進(jìn)行處理:疑似送審、直接攔截、攔截加黑。
(4)黑白指紋:指紋-唯一,對(duì)內(nèi)容文件通過消息摘要算法生成MD5,配置入黑名單,一旦發(fā)現(xiàn)相同MD5則攔截。反之白名單一樣。
1. 系統(tǒng)審核
(1)文本
主要是關(guān)鍵詞過濾,關(guān)鍵詞大可分為:禁止、需審核關(guān)鍵詞。禁止關(guān)鍵詞:自動(dòng)禁止的關(guān)鍵詞(色情、廣告等);審核關(guān)鍵詞:檢測(cè)到比較模糊是否為違規(guī)關(guān)鍵詞的需要進(jìn)入人工審核流程。
關(guān)鍵詞的類型分為不同類型進(jìn)行檢測(cè),關(guān)鍵詞的庫做成可配置的方式,以供應(yīng)對(duì)不同的場(chǎng)景。
(2)圖片
圖片的審核有幾種類型:圖片主體、圖片動(dòng)作、圖片文字、圖片質(zhì)量、圖片廣告(二維碼、水印等)。針對(duì)不同的檢測(cè)內(nèi)容,可自行配置圖片審核策略。
(3)視頻
視頻審核和圖片審核是一樣的,不同的地方在于,視頻的審核需要先進(jìn)行截取視頻某一幀畫面然后再進(jìn)行圖片審核。不同于圖片,視頻還可進(jìn)行音頻審核。
(4)音頻
音頻審核最主要是兩點(diǎn):1.是關(guān)鍵詞內(nèi)容,音頻轉(zhuǎn)為文字,進(jìn)行校驗(yàn)關(guān)鍵詞。2.是音頻動(dòng)物、喘息聲紋就監(jiān)控,這個(gè)需要閾值管理,主要有三個(gè)區(qū)域:正常區(qū)域、疑似區(qū)域、違規(guī)區(qū)域。
(5)其他
限定符:設(shè)置字符間可忽略的字符數(shù);例如:“黃色”為違規(guī)詞,為了規(guī)避用戶可能會(huì)用“黃1色”,因此在“黃色”中間加入限定符以檢測(cè)。
還有正則表達(dá)式、亂碼等。
2. 人工審核
(1)人工審核機(jī)制
內(nèi)容給到人工進(jìn)行審核主要有:各系統(tǒng)轉(zhuǎn)發(fā)至人工審核(系統(tǒng)審核為疑似內(nèi)容、檢測(cè)為高危用戶等)、隨機(jī)抽樣審核;
人工任務(wù)分配機(jī)制:
- 內(nèi)容的分發(fā)一般來說,可以按某些類型分發(fā)給不同的審核人員。比如:內(nèi)容類型(圖片、文字),再比如某個(gè)類型涉黃的內(nèi)容某些審核人員專門負(fù)責(zé)等等。
- 分配的時(shí)間:審核人員可能不能做到24h在線,那么未在線的時(shí)候,該類內(nèi)容次日優(yōu)先處理。對(duì)于某些發(fā)布者的內(nèi)容,可以優(yōu)先審核。
(2)人工審核系統(tǒng)
人工審核系統(tǒng)主要分為幾塊:
- 賬號(hào)管理:超級(jí)管理員可以通過系統(tǒng)管理人工審核賬號(hào),包括開通、刪除、權(quán)限管理等。
- 監(jiān)管平臺(tái):對(duì)于人工審核的質(zhì)量也需要監(jiān)管。簡(jiǎn)單的監(jiān)管,可以直接抽樣觀察+操作日志記錄即可。復(fù)雜的可以深入設(shè)計(jì),對(duì)于審核人員來說他們的KPI大都是在一定時(shí)間內(nèi)完成一定數(shù)量審核。那么這樣很容易忽略質(zhì)量,因此交叉審核、復(fù)審是有必要的。內(nèi)容被人工審核后隨即一部分進(jìn)入交叉審核或者給到專門做二審的部門(KPI不同),若兩次審核結(jié)果不一致則需復(fù)審,復(fù)審由更高一級(jí)負(fù)責(zé)人完成。
- 人工審核平臺(tái):審核人員通過平臺(tái)對(duì)圖、文、音、視頻進(jìn)行審核。不同類型前端樣式的設(shè)計(jì)也是不同的。and 許多配套功能,倍速瀏覽、自動(dòng)播放功能等。
3. 投訴和復(fù)審
對(duì)于發(fā)布者來說,內(nèi)容的審核有時(shí)候沒辦法做到百分百準(zhǔn)確,那么用戶可以通過申述方式進(jìn)行處理。那么對(duì)于人工審核人員中,也需要有對(duì)應(yīng)處理申述的后臺(tái)。
三、內(nèi)容展示
大家應(yīng)該都懂:先展示后審核、先審核后展示,這是基礎(chǔ)的。還有其他的展示邏輯:發(fā)布內(nèi)容后先對(duì)少量用戶展示,審核通過后再全量展示。而對(duì)于高敏感的內(nèi)容,限制展示渠道和曝光的上限,減少影響范圍。
四、對(duì)于接受者
對(duì)于接受內(nèi)容的用戶,可以通過他們的行為側(cè)面分析出內(nèi)容的情況。
1. 用戶基礎(chǔ)行為
觀看、點(diǎn)評(píng)、點(diǎn)贊、轉(zhuǎn)發(fā)等,主要關(guān)注的是點(diǎn)評(píng)/評(píng)論,對(duì)評(píng)論進(jìn)行監(jiān)控內(nèi)容,若評(píng)論中有對(duì)內(nèi)容的舉報(bào)或其他關(guān)鍵詞,則該內(nèi)容需要進(jìn)入人工審核流程關(guān)注該類內(nèi)容。
轉(zhuǎn)發(fā)也需要關(guān)注,大量的傳播有時(shí)候可能不是好消息,一旦有一個(gè)違規(guī)內(nèi)容被大量傳播,很可能導(dǎo)致公關(guān)問題。對(duì)大量傳播內(nèi)容,需要高度關(guān)注。
2. 舉報(bào)
用戶通過舉報(bào),將內(nèi)容進(jìn)入人工檢查階段。
最后來一句:內(nèi)容安全、審核,主要工作應(yīng)該還是對(duì)內(nèi)容識(shí)別,提升系統(tǒng)審核效率、準(zhǔn)確度,提升人工審核效率。
本文由 @?liyo龍 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
您好,想請(qǐng)教:【通過簡(jiǎn)單的流程梳理,不難看出涉及的對(duì)象有:發(fā)送用戶、接收用戶、內(nèi)容審核(人員、管理員等)等;那么考慮設(shè)計(jì)時(shí),有兩個(gè)方向去思考:一方面,單純考慮針對(duì)某個(gè)對(duì)象,要做什么機(jī)制處理。另一個(gè)方面,將相關(guān)聯(lián)對(duì)象串聯(lián)起來,考慮產(chǎn)品設(shè)計(jì)?!窟@句話中,關(guān)聯(lián)起來考慮產(chǎn)品設(shè)計(jì)是什么意思呢,可以舉個(gè)例子說明一下嗎~多謝,文章質(zhì)量很高!
我覺得就是場(chǎng)景關(guān)聯(lián),角色關(guān)聯(lián),類似推流的意思,從用戶發(fā)布內(nèi)容需要到審核人員或不需要到審核人員,審核人員存在特定場(chǎng)景需要到復(fù)核人員,諸如此類,就是關(guān)聯(lián)動(dòng)作,什么樣動(dòng)作下會(huì)觸發(fā),那這個(gè)就是關(guān)聯(lián)起來要考慮的產(chǎn)品設(shè)計(jì)問題