內容審核平臺設計思路分享
筆者所在的公司,去年重構了內容審核系統。筆者從0到1參與搭建了該審核系統,借此機會,跟大家分享一下內容審核系統的流程及業務模式,希望能對你有所幫助。
一、為何要搭建內容審核系統
筆者所在的公司,是一家金融行業公司,受證監會等監管機構嚴格管控。公司每天都會開直播,以及發布大量的內容到自建app里,為了保證用戶以及公司內部人員發布的內容合法合規,阻斷內容風險,對此,我們急需建立內容審核系統。
說完搭建的背景,再來聊一聊,何為內容審核?
內容審核,說簡單一點就是我們在社交等平臺上傳,發布文字,圖片,音視頻,文件等內容,平臺會對我們發布的內容進行審核過濾,從而保證平臺的平臺產生的內容都是高質量且符合規定的。
例如,我們在抖音平臺發布視頻內容,抖音平臺對我們發布的內容進行審核。一旦發現發布的內容違法或違規,平臺就會下架我們的內容,或對我們的賬號進行封禁管理。
講到這,可能有朋友留意到,不用的平臺審核方式會有差距。一般審核方式有2種,分別是先審后發和先發后審,我們公司由于行業性質的限制,基本都是采用的先審后發的方式,大家可以根據行業要求,自行選擇合適的審核方式。
二、審核方式
先審后發:用戶提交內容后,經人工/機器審核通過后,其他人才可見。
先發后審:用戶提交內容后其他人可見,后再進行人工/機器審核,人工/機器審核結果會影響內容是否繼續可見。
我們公司的審核流程一般是這樣的,大家可以參考一下。
對于這個審核方式,我們為了區分不同的應用,我們是在后臺做了配置,支持選擇先審后發還是先發后審。
當該應用配置的審核方式是先發后審時,我們是默認用戶一發言,即所有人可見,后續人工可進行二次復審,復審的結果會影響初審結果。一旦復審不通過,則內容更改為僅本人可見。
如果配置的先審后發,我們會先判斷該應用是否有配置阿里云第三方審核,若沒有配置阿里云審核,則進入人工審核階段;若有配置阿里云審核,我們根據客戶發言內容是否符合阿里云審核模板要求,按照規則和算法執行機器審核。這里需要注意的是,對于不同的應用內容,我們還采用了機器審核是否作為絕對值的選擇。
一般像一些直播間發言,我們會開啟阿里云審核作為絕對值,一旦發言內容符合要求,則作為機審通過,機審通過后所有用戶可見該內容。若配置的是參考值,則該機審狀態僅作為參考值,最終以人工審核結果為主。
三、機審&人工審核
上文講完了常見的審核方式,接下來我們詳細拆解一下機器審核和人工審核。在講具體的審核類型之前,我們先跟大家介紹一下,一般常見的審核消息類型分別是:文本、圖片、音頻、視頻、文件。針對這幾種類型,我們都接入了機器審核和人工審核。
1. 機器審核
1)文本
針對文本消息,一般主要采用關鍵詞匹配和NLP(自然語言處理)技術這2種方式。
① 關鍵詞匹配:關鍵詞我們一般分為白名單詞、黑名單詞。
- 白名單,是指用戶提交的內容與白名單詞或白名單語句完全匹配時,則默認機審通過,支持人工對機審結果進行復核。
- 黑名單詞,也可理解為禁止關鍵詞,一般是一些明確的宗教禁止用語、淫穢色情等語句,當用戶評論內容帶有該詞時,會自動將該次高亮標記出來,同時判定為機審不通過,需人工進行審核決定該發言內容是否通過。
② NLP(自然語言處理),即通過語法分析、情感分析、詞向量分析,對發言內容進行識別和歸類,當分類結果與平臺的素材庫符合時,則返回違規內容。例如,暗示收益、廣告識別等。
2)圖片審核
圖片審核一般采用OCR技術,將圖片拆解成多個模塊,提取圖片中存在的問題,例如圖片主體、圖片文字、聯系方式、廣告信息(二維碼、水印等),在根據各片段內容匯總分類,返回審核結果。
3)音頻審核
音頻審核,我們公司目前采用的是科大訊飛的語音轉寫服務,將音頻內容降噪斷句,轉寫成文字,再通過對文字的審核返回音頻審核結果。
4)視頻審核
視頻審核可理解為音頻審核+圖片審核。即對視頻進行抽幀,并以幀為單位將視頻中的文字和圖片分別進行識別,以此來判定視頻內容是否合規。
5)文件審核
目前我司的文件審核技術比較簡單,即對文件里的圖文內容進行解析提取,以此來識別是否存在敏感、色情、違禁等風險內容。
2. 人工審核
人工審核即專門安排人員在審核后臺操作審核,審核人員根據公司的規章制度以及自己的經驗,判斷該內容(文字、圖片、音頻等)是否存在不合規的情況。人工審核這個工作量是非常大,一般涉及到審核模塊的,每個公司都會專門設置審核組用于審核工作。為了提高審核人員的效率,一鍵建議做倍速播放,批量審核等功能。
四、審核內容的展示
審核內容展示與否,一般受咱們上文所說的先審后發或先發后審的審核方式影響,咱們這里以先審后發為例進行說明。
- 未審核:審核人員在進行審核操作時,先看到該內容的審核狀態,未審核的內容需要審核人員進行操作,審核人員未通過之前,對其他用戶屏蔽該內容,近發布者本人可見,同時該作者的主頁相關的分享等功能,也需同樣屏蔽該內容,避免不合理內容的傳播。
- 審核通過:審核通過之后,即對所有用戶放開內容,所有用戶可見該內容。但初審的審核結果會受復審結果的影響,一旦審核人員復核發現該內容存在疑似違規時,可進行復核拒絕。被復核拒絕的內容,則進行屏蔽,近限發布者本人可見。
- 審核拒絕:審核拒絕,則僅本人可見該內容。同時,在用戶端,我們需明顯提示被審核拒絕的原因,且給到用戶申訴或重新發起審核的操作。
- 拉黑用戶:拉黑是針對用戶而言的,當審核人員發現該用戶經常在社區或內容平臺發布各種違法不實,涉情涉政等內容時,可拉黑用戶,用戶被拉黑后,則不可在平臺發表內容。同樣,我們需提醒用戶,是因何原因被平臺拉黑禁用的,給到用戶申訴的空間。
五、總結
以上內容,是筆者根據本人經驗總結的審核平臺的審核方式,審核流程。合規審核對公司是一個非常重要的環節,能有效方式避免違規內容的傳播,作為審核平臺,我們需要不斷完善審核的機制,提供審核人員效率。
本文由 @一個摸魚的職場人 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
抄襲的易盾的官網