AI應(yīng)用實(shí)例(三):音頻審核

4 評(píng)論 6640 瀏覽 31 收藏 10 分鐘

編輯導(dǎo)語(yǔ):在互聯(lián)網(wǎng)時(shí)代,各種各樣的內(nèi)容類產(chǎn)品層出不窮,那么相關(guān)監(jiān)管部門對(duì)內(nèi)容的審核環(huán)節(jié)就顯得十分重要,各方面都需要審核到位,本篇文章講述了AI技術(shù)在音頻審核方面的應(yīng)用,一起來看一下。

音頻審核作為內(nèi)容安全產(chǎn)品的一個(gè)模塊,在內(nèi)容審核中既需要支持視頻中的音頻審核,還需要能支持單獨(dú)的音頻審核,本節(jié)將跟大家一起討論關(guān)于音頻審核的產(chǎn)品設(shè)計(jì)與應(yīng)用。

一、背景

隨著各種各樣的內(nèi)容類產(chǎn)品發(fā)展,當(dāng)內(nèi)容管理不到位時(shí),就容易觸犯到國(guó)家對(duì)內(nèi)容監(jiān)管的的政策。

如何避免違規(guī)內(nèi)容的傳播可以說是各大內(nèi)容廠商最關(guān)注的環(huán)節(jié)之一。

因此,對(duì)內(nèi)容的管理,都需要進(jìn)行審核到位,但是如果純靠人工審核,估計(jì)像頭條號(hào)這樣的資訊平臺(tái),一天得有上萬人審核了。

目前各家對(duì)內(nèi)容都會(huì)接入內(nèi)容審核平臺(tái),基于人工智能技術(shù)實(shí)現(xiàn)內(nèi)容審核,其中根據(jù)素材維度可以分為視頻審核、文本審核、圖片審核和音頻審核。

從審核內(nèi)容角度看又包括色情、涉政、圖文違規(guī)、暴恐、違禁、廣告等。

本文將選擇音頻審核的維度展開討論。

二、關(guān)鍵技術(shù)

關(guān)于音頻審核中的關(guān)鍵技術(shù),我們可以從兩個(gè)方面進(jìn)行理解,分別是“有語(yǔ)義”和“無語(yǔ)義”。

1. 有語(yǔ)義類型

有語(yǔ)義類型是指待審核的內(nèi)容中有明確的語(yǔ)義信息。

這里文本審核一般可以先經(jīng)過ASR識(shí)別后,轉(zhuǎn)成文本信息進(jìn)行審核,所以會(huì)涉及到以下技術(shù)。

  1. 語(yǔ)音識(shí)別:通過ASR技術(shù)將音頻轉(zhuǎn)換為文本信息;
  2. 語(yǔ)種識(shí)別:針對(duì)部分小語(yǔ)種或者方言進(jìn)行判別,識(shí)別后,再經(jīng)過語(yǔ)音識(shí)別轉(zhuǎn)換為文字信息;
  3. NLP技術(shù):針對(duì)語(yǔ)音識(shí)別后的文字信息進(jìn)行處理,識(shí)別違規(guī)內(nèi)容;具體的可以包括廣告詞文本識(shí)別、違禁詞識(shí)別、辱罵詞匯識(shí)別等。

2. 無語(yǔ)音類型

無語(yǔ)義類型識(shí)別是指音頻內(nèi)容中不含語(yǔ)義信息,所以無法通過ASR+NLP進(jìn)行識(shí)別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語(yǔ)言含義的音頻內(nèi)容。

直接提供提取音頻的聲紋特征進(jìn)行分類識(shí)別,判斷是否違規(guī)。

3. 特殊的類型

這里主要是指違禁歌曲識(shí)別,一般這樣的違規(guī)內(nèi)容雖然包含了語(yǔ)義信息,但是可能直接從內(nèi)容信息上是無法判斷的。

所以需要結(jié)合聲紋識(shí)別+音頻檢索的技術(shù)進(jìn)行來識(shí)別,首先構(gòu)建違禁歌曲庫(kù),然后再根據(jù)音頻聲紋特征進(jìn)行識(shí)別并檢索。

如果出現(xiàn)在曲庫(kù)中則判斷違規(guī),否則放過。

三、產(chǎn)品設(shè)計(jì)

1. 應(yīng)用場(chǎng)景

(1)場(chǎng)景:常見的需要應(yīng)用到音頻審核的場(chǎng)景有語(yǔ)音聊天室、視頻直播間、語(yǔ)音廣場(chǎng)、FM電臺(tái)、音頻文學(xué)等都需要采用音頻審核保證內(nèi)容的安全性。

(2)審核內(nèi)容

  • 涉黃審核:色情、低俗、污穢、嬌喘等識(shí)別;
  • 廣告審核:手機(jī)號(hào)等商業(yè)推廣內(nèi)容識(shí)別;
  • 涉政審核:涉政人物、反動(dòng)分裂、恐怖主義等違規(guī)音頻;
  • 違禁審核:毒品,賭博,違禁品等違禁內(nèi)容。

注:其實(shí)音頻只是一個(gè)載體,以上審核的內(nèi)容實(shí)際上視頻審核也會(huì)涉及。

(3)場(chǎng)景發(fā)散

這里多發(fā)散下思維,由于目前各個(gè)內(nèi)容審核廠商已經(jīng)基本是同質(zhì)化競(jìng)爭(zhēng)了,所以產(chǎn)品的后續(xù)要想繼續(xù)保持競(jìng)爭(zhēng)力。

一方面是技術(shù)能力的迭代加強(qiáng),另一方面也是需要進(jìn)一步拓展場(chǎng)景。

比如是否支持AR內(nèi)容的審核,又或者跟當(dāng)前元宇宙結(jié)合,是否開始研究將來元宇宙內(nèi)的信息審核呢。

2. 業(yè)務(wù)流程

這里從宏觀點(diǎn)的角度陳述產(chǎn)品的業(yè)務(wù)流程,具體的細(xì)節(jié)可以交流,不在文章中贅述,業(yè)務(wù)流程中主要包括三塊。

  1. 源數(shù)據(jù)+預(yù)處理:通過接入待審核的內(nèi)容,再進(jìn)一步做預(yù)處理,包括分段等操作;
  2. 模型處理:審核的核心,通過輸入預(yù)處理后的數(shù)據(jù),進(jìn)行AI分析,輸出機(jī)器審核結(jié)果,包括確認(rèn)違規(guī)、疑似違規(guī)和未違規(guī);
  3. 人工復(fù)審:對(duì)疑似違規(guī)內(nèi)容進(jìn)行復(fù)審,同時(shí)也對(duì)違規(guī)和未違規(guī)的內(nèi)容抽樣審核,盡量確認(rèn)判斷的準(zhǔn)確性,同時(shí)在這一步也可以將人工復(fù)審出來的badcase做數(shù)據(jù)回流用于算法升級(jí)迭代。

注:在實(shí)際業(yè)務(wù)場(chǎng)景中,一般會(huì)考慮是先審核再內(nèi)容發(fā)布還是先發(fā)布再內(nèi)容審核。

這里就需要根據(jù)業(yè)務(wù)進(jìn)行判斷,因?yàn)檫@同時(shí)涉及到內(nèi)容時(shí)間(希望搶占熱點(diǎn))和風(fēng)險(xiǎn)的制約。

一般可以考慮將違規(guī)風(fēng)險(xiǎn)很低的內(nèi)容做先發(fā)后審(但是要提供及時(shí)下架的能力,避免出現(xiàn)擴(kuò)散風(fēng)險(xiǎn)),比如PGC內(nèi)容。

3. 產(chǎn)品功能設(shè)計(jì)

本節(jié)的產(chǎn)品功能設(shè)計(jì)主要從能力平臺(tái)角度出發(fā)進(jìn)行講解,至于業(yè)務(wù)結(jié)果輸出后涉及到的業(yè)務(wù)系統(tǒng)這邊不做分析。

一個(gè)比較完備的音頻審核產(chǎn)品可以從以下幾個(gè)角度進(jìn)行設(shè)計(jì)。

(1)功能接口:提供好用的API和SDK能力,包括數(shù)據(jù)請(qǐng)求分析、數(shù)據(jù)結(jié)果查詢、規(guī)則定義接口(比如添加違規(guī)詞等)等接口。

在設(shè)計(jì)時(shí),需要設(shè)定好字段的支持力度,比如對(duì)于請(qǐng)求時(shí)要支持URL,同時(shí)是否需要支持音頻審核模板(模板這里是指一段音頻全部審核,還是根據(jù)模板中選定的審核維度進(jìn)行審核,比如只審核涉黃)。

(2)可視化界面:建議同步提供可視化界面便于接入的用戶進(jìn)行數(shù)據(jù)查看,可視化界面不僅可以提高用戶體驗(yàn),也可以輔助用戶進(jìn)行產(chǎn)品使用。

一般可視化界面可以包括以下幾點(diǎn)。

  1. 音頻分析:除了接口外,用戶可以在可視化界面上傳音頻文件進(jìn)行分析,分析后可以查看分析結(jié)果
  2. 規(guī)則設(shè)定:支持用戶自定義設(shè)定違規(guī)的內(nèi)容,比如設(shè)定違規(guī)廣告詞、涉政敏感詞等;
  3. 數(shù)據(jù)統(tǒng)計(jì):可以包括兩個(gè)部分,一部分是統(tǒng)計(jì)數(shù)據(jù)分析的量級(jí),以及分析成功失敗的次數(shù)等;另一方面以違規(guī)類型進(jìn)行統(tǒng)計(jì)違規(guī)次數(shù),比如某段時(shí)間內(nèi)廣告違規(guī)發(fā)生了多少,涉黃內(nèi)容發(fā)生了多少等;

注:除了上述三點(diǎn),還可以支持用戶管理,比如用戶可以在系統(tǒng)中創(chuàng)建用戶賬號(hào),支持不同業(yè)務(wù)系統(tǒng)使用等。

4. 評(píng)估指標(biāo)

評(píng)估指標(biāo)需要考核兩個(gè)方面。

  1. 違規(guī)識(shí)別準(zhǔn)確率:統(tǒng)計(jì)機(jī)器識(shí)別為違規(guī)并且人工復(fù)核確認(rèn)違規(guī)的數(shù)據(jù)量/機(jī)器識(shí)別違規(guī)的數(shù)據(jù)總量;
  2. 違規(guī)識(shí)別召回率:統(tǒng)計(jì)機(jī)器識(shí)別為違規(guī)并且人工復(fù)核確認(rèn)違規(guī)的數(shù)據(jù)量/實(shí)際存在的違規(guī)數(shù)量。

音頻審核的發(fā)展對(duì)音頻市場(chǎng)擴(kuò)大可以起到很好的輔助作用,對(duì)內(nèi)容發(fā)布的監(jiān)管可以實(shí)現(xiàn)降本增效。

但是在實(shí)際使用過程中,我們還需要思考業(yè)務(wù)應(yīng)用場(chǎng)景,針對(duì)場(chǎng)景進(jìn)一步迭代優(yōu)化技術(shù),比如車載場(chǎng)景的音頻內(nèi)容是否可以很好審核呢。

目前還存在很大的難度,因?yàn)檐囕d場(chǎng)景的音頻容易受到很多噪聲的影響,所以不利于識(shí)別。

因此,總的來說,對(duì)于產(chǎn)品,需要能夠結(jié)合業(yè)務(wù)做到場(chǎng)景可控,讓AI真正發(fā)揮作用。

 

本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

專欄作家

Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長(zhǎng)需求分析、產(chǎn)品流程和架構(gòu)設(shè)計(jì)等,日常喜歡徒步。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 請(qǐng)教一下,違規(guī)識(shí)別召回率分母是如何確定的?如何發(fā)現(xiàn)實(shí)際存在的違規(guī)數(shù)量呢

    來自北京 回復(fù)
    1. 您好,闊以看下一條評(píng)論,重點(diǎn)是看驗(yàn)證階段~

      來自江蘇 回復(fù)
  2. 違規(guī)識(shí)別準(zhǔn)確率:統(tǒng)計(jì)機(jī)器識(shí)別為違規(guī)并且人工復(fù)核確認(rèn)違規(guī)的數(shù)據(jù)量/機(jī)器識(shí)別違規(guī)的數(shù)據(jù)總量;
    違規(guī)識(shí)別召回率:統(tǒng)計(jì)機(jī)器識(shí)別為違規(guī)并且人工復(fù)核確認(rèn)違規(guī)的數(shù)據(jù)量/實(shí)際存在的違規(guī)數(shù)量。
    ————————
    想問下實(shí)際存在的違規(guī)數(shù)量怎么看,怎么來定義這個(gè)分母

    來自上海 回復(fù)
    1. 分兩個(gè)階段,測(cè)試驗(yàn)證階段數(shù)據(jù)集是提前準(zhǔn)備的,此時(shí)實(shí)際存在的違規(guī)數(shù)量是人為控制的,比如故意收集違規(guī)的數(shù)據(jù)
      到了實(shí)際驗(yàn)證階段,通??梢灾豢礈?zhǔn)確率,如果有些客戶非要看召回率,那實(shí)際違規(guī)數(shù)量也只有人工判斷了

      來自江蘇 回復(fù)