如何做好互聯網內容安全的音頻審核?
編輯導語:當下互聯網內容的存在形式越來越多樣,為了保證互聯網內容安全,內容審核這一流程就顯得愈發重要。那么,就音頻領域而言,其內容安全審核應當如何操作?本篇文章里,作者就如何做好互聯網內容安全的音頻審核做了總結和梳理,一起來看一下。
一、背景
隨著《互聯網信息服務管理辦法》《網絡安全保護法》《網絡信息內容生態治理》等法律法規頒布,且網信辦及其他監管部門對互聯網信息內容管理的專項也愈來愈多,目前互聯網信息形態主要為文本、圖片、語音、視頻。
如何讓這些信息中沒有違規內容,這將會對于所有將要通過互聯網進行信息露出的單位和平臺提出挑戰。下面我將分享一個實現好互聯網內容音頻審核的思路,供大家參考指導~
二、目標、場景及流程分析
1. 目標分析
音頻內容審核的實質是要完成高效精準發現違規內容,由于數據量大,高效的主要是通過機器完成需要算力資源及風控模型準,而精準則要抽檢審核到位,對抗強度大。
2. 場景及流程分析
目前互聯網上的有關語音審核的場景主要為IM通訊、音頻點播、音頻直播、多人音頻互動等,主要流程為語音生后,由于數據處理量大,目前業界的方式是會經過機器審核(實時系統)結合人工運營審核的方式,以達到審核目標。
實時系統中由于數據量大,目前會內置關鍵詞表+簡單策略+簡單特征模型進行過濾的方式;人工運營中由于人工成本有限,要達到人進行大數據量審核也不太現實,所以一般會采取數據抽檢+前臺巡查+藍軍對抗的形式。
具體流程如下圖:
三、實現路徑
1. 實時系統——相關技術流程
由于音視頻和互聯網文本的區別,所以在相關技術識別上有一些出入,基本流程為用戶語音生成后,經過音視頻解碼、靜音檢測、音頻切割后,再進行相關算法及模型的運用進行內容判定。
主要有對音頻進行語種識別的語種分類、對聲紋的識別區分是什么人物的、語音識別、文本分類為對語音識別后的文本進行分類、最后還有對嬌喘類語音的識別,經過這一系列相關算法及模型的判斷后,最后得出音頻信息的正常與否。
下圖為基本流程:
2. 運營支持方式
1)數據抽檢
關于對音頻數據的抽檢,這一項工作分成常規的和非常規的。
常規的主要為通過隨機抽樣算法(如分層抽樣、水塘算法、隨機和欠采樣等)進行數據的抽查,以感知整體數據的健康質量;非常規的則為專項,針對特定主題的特定數據進行巡查,以提升數據在特定主題下的審核程度,具體主題選取主要根據監管動向及業務需求來定。
關于抽查數據需要注意的點:由于違規信息有嚴重程度區分,所以對于重點人物的數據以及重點賬號,會提升巡查的力度。
具體巡查流程為:
2)前端巡查
前端巡查主要指站在用戶視角進行巡查,流程為根據巡查目標,進行內容審閱后,并對結果進行記錄。
3)藍軍對抗
藍軍對抗的目標為測試目前系統和運營的健康程度,一般會以模仿真實用戶的方式產生數據,以測試實時審核系統及運營流程的健康程度。
3. 運營支持流程
專項流程:
專項的流程為根據運營支持的反饋分析,開始啟動專項,隨后對專項數據進行解讀和提煉(關鍵詞、規則策略、模型特征積累),第三步為對第二步進行提煉出來的內容進行灰度測試,最后為上線至實時審核系統。
4. 內容安全的有效性指標體系設計
1)指標設計目標
保證整體審核體系的健康程度。
2)設計視角
設計分成內部和外部視角,內部主要根據抽檢比、巡查比、對抗發現率幾個指標,外部視角主要根據監管側的反饋和用戶側的投訴及舉報數量去判斷。
四、總結
對于音頻審核的主要是以人機結合的形式進行,系統審核主要以關鍵詞表、簡單模型、簡單策略形式,運營審核主要是以抽檢的形式進行,為保證整體審核體系的健康程度,要注意數據指標體系設計。
本文由 @賢鋒_Blue 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
專欄作家
賢鋒_Blue,公眾號:互聯網內容安全,人人都是產品經理專欄作家。一名野蠻成長的數據產品經理(安全方向),多個從 0 到 1 的產品策劃經驗。
本文原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
作者朋友,您好,已經關注您了
煩請后面多出一些內容安全方面的文章
我很喜歡您分享的這些內容,不知是否可以留您一個聯系方式,后面向您請教相關方面的知識呢?我誠心請教,愿意有償知識付費
謝謝您的認可,我wx是691682361,也可關注我的公眾號“互聯網內容安全”~
真不錯!感謝分享!
感覺不只是審核,現在語音聲控就有一定風險,也要加強隱私性和安全性
語音聲控不涉及到信息露出和傳播,只是人和機雙方的事情,就風控來講還好。個人隱私數據的保護,《個保法》已經列好了框架了。