久久精品动漫一区二区三区 ,国产一区二区精品久久不卡,欧美熟妇呻吟猛交XX性

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

阿里巴巴直播內(nèi)容風(fēng)險(xiǎn)防控中的AI力量

白桃汽水不加冰

2017-01-04

1 評(píng)論 11293 瀏覽 48 收藏

17 分鐘

直播作為近來(lái)新興的互動(dòng)形態(tài)和今年阿里巴巴雙十一的一大亮點(diǎn)，其內(nèi)容風(fēng)險(xiǎn)監(jiān)控是一個(gè)全新的課題，技術(shù)的挑戰(zhàn)非常大，管控難點(diǎn)主要包括業(yè)界缺乏成熟方案和標(biāo)準(zhǔn)、主播行為、直播內(nèi)容不可控、峰值期間數(shù)千路高并發(fā)處理、對(duì)算法的高實(shí)時(shí)響應(yīng)要求等等。

阿里巴巴集團(tuán)安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù)，配合優(yōu)化后的高性能多媒體計(jì)算集群，大幅度降低人工審核成本的同時(shí)，提升了對(duì)內(nèi)容風(fēng)險(xiǎn)的防控能力。系統(tǒng)在峰值期間成功處理5400路直播視頻，以及共計(jì)25萬(wàn)場(chǎng)粉絲連連看游戲，對(duì)違規(guī)內(nèi)容進(jìn)行警告或阻斷。主要技術(shù)體現(xiàn)在直播內(nèi)容實(shí)時(shí)過(guò)濾以及多媒體處理集群的優(yōu)化上。

1、直播內(nèi)容實(shí)時(shí)過(guò)濾

在直播過(guò)程中一些主播為了達(dá)到吸引眼球，或者推銷商品的目的而做出違規(guī)的事情。另外，本次雙十一引入了買(mǎi)家之間的互動(dòng)游戲：連連看，玩法是系統(tǒng)隨機(jī)抽取兩個(gè)游戲參與者，調(diào)起手機(jī)前置攝像頭拍攝視頻傳遞到對(duì)方手機(jī)展示。游戲雙方比賽干瞪眼、不許笑等動(dòng)作。游戲的參與者并不會(huì)進(jìn)行實(shí)人認(rèn)證，需要對(duì)內(nèi)容做實(shí)時(shí)的管控。雙十一期間預(yù)估高峰期會(huì)有5400路直播同時(shí)在線，而一個(gè)審核人員的極限承受能力大約是60路，需要大約90個(gè)審核人員同時(shí)在線審核，很浪費(fèi)人力，并會(huì)因?yàn)槿斯ひ蚓Σ患卸┻^(guò)風(fēng)險(xiǎn)內(nèi)容，這就得靠人工智能技術(shù)來(lái)全面防控風(fēng)險(xiǎn)。

那么，直播中有哪些風(fēng)險(xiǎn)呢？

我們分析了淘寶直播開(kāi)播以來(lái)的所有處罰記錄，以及在互聯(lián)網(wǎng)抓取的外部直播數(shù)據(jù)，發(fā)現(xiàn)惡性違規(guī)集中在色情低俗，以及敏感人物肖像兩個(gè)方面。因此，我們?cè)趯?duì)畫(huà)面內(nèi)容做風(fēng)險(xiǎn)判斷時(shí)調(diào)用了兩個(gè)算法服務(wù)：視頻鑒黃和敏感人臉檢測(cè)。由此，實(shí)現(xiàn)99%的自動(dòng)審核，只有約1%的視頻會(huì)流入到人工審核。

1.1 智能鑒黃技術(shù)

智能鑒黃，就是輸入一張圖片或視頻，算法模型返回一個(gè)0-100之間的分值。這個(gè)分值非線性地標(biāo)示圖片含色情內(nèi)容的概率：得分99及以上的圖片幾乎可以肯定是色情圖，可以機(jī)器自動(dòng)處理；得分50-99的需要人工審核；得分50以下的認(rèn)為是正常圖，因?yàn)?0分及以上可以覆蓋>99%的色情圖片。智能鑒黃還有兩個(gè)特性：1）將60%以上的色情圖片集中在99及以上的分?jǐn)?shù)段，也即機(jī)器可以自動(dòng)處理掉大多數(shù)色情風(fēng)險(xiǎn)；2）需要人工審核的圖片占比非常低，在淘寶直播場(chǎng)景大約為0.1%。

智能鑒黃的原理是什么呢？

智能鑒黃是一個(gè)色情圖像智能識(shí)別引擎，為不同的場(chǎng)景和用戶提供了個(gè)性化的多尺度識(shí)別能力，識(shí)別準(zhǔn)確率高達(dá)99.6%，極大地降低了圖片內(nèi)容管控的成本。我們基于深度學(xué)習(xí)算法構(gòu)建了多層視覺(jué)感知機(jī)，采用改進(jìn)的Inception神經(jīng)網(wǎng)絡(luò)層以及多模型級(jí)聯(lián)，實(shí)現(xiàn)了快速地識(shí)別多尺度色情內(nèi)容。智能鑒黃的生成具體步驟如下圖所示。

智能鑒黃模型生成步驟

1.1.1 明確分類標(biāo)準(zhǔn)

上面這張圖的步驟里，制定標(biāo)準(zhǔn)與標(biāo)注數(shù)據(jù)的難度比訓(xùn)練模型更大一些。因?yàn)楝F(xiàn)實(shí)世界是復(fù)雜的，不同的人對(duì)同一張圖片的認(rèn)識(shí)往往不一樣。為了制定標(biāo)準(zhǔn)，運(yùn)營(yíng)與算法同學(xué)一起討論修訂了數(shù)次才有了初版，并且在后續(xù)打標(biāo)過(guò)程中根據(jù)遇到的問(wèn)題進(jìn)行了幾次增補(bǔ)，標(biāo)準(zhǔn)才穩(wěn)定下來(lái)。

1.1.2 收集樣本

樣本的獲取環(huán)節(jié)在此略過(guò)。數(shù)據(jù)的規(guī)模：考察了近2000網(wǎng)站，以及阿里生態(tài)體系積累的色情違規(guī)case，共計(jì)6000+萬(wàn)疑似色情圖片，已經(jīng)完成了1300+萬(wàn)的高質(zhì)量標(biāo)注。這一塊是智能鑒黃最重要的基石。

1.1.3 樣本打標(biāo)

互聯(lián)網(wǎng)上的內(nèi)容重復(fù)度高，這6000+萬(wàn)圖片中必然有相當(dāng)比例的相同／相似圖片，為了節(jié)省標(biāo)注資源，我們使用了圖像搜索技術(shù)進(jìn)行去重，大約剩余2300萬(wàn)圖片。圖搜是我們自己開(kāi)發(fā)的基于局部特征視覺(jué)詞的針對(duì)圖像內(nèi)容的搜索技術(shù)，可以檢出經(jīng)過(guò)尺寸放縮、剪切、旋轉(zhuǎn)、部分遮擋、顏色變換、模糊等諸多處理后的目標(biāo)圖像，效果如下圖所示。

圖像搜索引擎找相似圖的例子

阿里巴巴開(kāi)發(fā)了高效率的打標(biāo)平臺(tái)（mbox），提供了練習(xí)與考試功能作為標(biāo)前的質(zhì)量控制；提供校驗(yàn)題的方式作為標(biāo)中的質(zhì)量控制，能夠自動(dòng)化計(jì)算打標(biāo)者的準(zhǔn)確率，并能夠按照設(shè)置的條件終止低質(zhì)量標(biāo)注者的參與資格。我們觀察到，即便是熟練而負(fù)責(zé)的標(biāo)注者，其錯(cuò)誤率仍然在1%左右波動(dòng)，因此我們使用訓(xùn)練好的模型對(duì)打標(biāo)樣本進(jìn)行判斷，如果機(jī)器結(jié)果與人肉結(jié)果不一致則進(jìn)行復(fù)標(biāo)。這個(gè)過(guò)程反復(fù)進(jìn)行，確保標(biāo)注樣本的高質(zhì)量。

樣本標(biāo)注流程示意圖

1.1.4 模型訓(xùn)練

標(biāo)注的結(jié)果在次日凌晨自動(dòng)回流到ODPS表中，可隨時(shí)讀取數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練使用了開(kāi)源的基于Caffe框架的代碼，并根據(jù)實(shí)際情況做了一些修改。第一次訓(xùn)練時(shí)使用了大約100萬(wàn)樣本，GPU機(jī)器單機(jī)單卡的情況下訓(xùn)練時(shí)間長(zhǎng)達(dá)近一個(gè)月。后來(lái)更換了網(wǎng)絡(luò)結(jié)構(gòu)，并使用了Pluto團(tuán)隊(duì)提供的訓(xùn)練平臺(tái)，實(shí)現(xiàn)了多機(jī)多卡訓(xùn)練，可以將千萬(wàn)級(jí)別樣本的訓(xùn)練時(shí)間控制在一周以下。

鑒黃模型生成系統(tǒng)示意圖

針對(duì)直播場(chǎng)景的管控尺度和時(shí)效性要求，我們?cè)O(shè)計(jì)了多階段分類模型，在召回率略有增加的同時(shí)，將響應(yīng)時(shí)間降低了約30%。

多階段的分類模型

連連看游戲上線后，智能鑒黃迅速命中了數(shù)個(gè)暴露狂，圖片不宜展示。還抓取到商家的一些違規(guī)行為（醫(yī)療廣告露點(diǎn)、展示成人用品、展示大尺度圖片、著裝不正等），圖片略去。從違規(guī)case看，直播中的色情風(fēng)險(xiǎn)表現(xiàn)形式多樣，可能是翻拍屏幕、畫(huà)報(bào)、真人、成人用品、模型等等，姿態(tài)與動(dòng)作也多種多樣。

在整個(gè)雙十一期間，因?yàn)樯榈退?、著裝不整被處罰的直播一共82場(chǎng)，其中算法命中68場(chǎng)，抓取到了100%的色情低俗風(fēng)險(xiǎn)，以及80%以上著裝不正的違規(guī)（淘寶直播對(duì)著裝尺度很嚴(yán)格，某些大街上可見(jiàn)的著裝也屬于違規(guī)），而且僅需要審核約0.1%的截圖。在風(fēng)險(xiǎn)覆蓋和節(jié)省審核人力兩個(gè)方面都取得了成功。

1.2 敏感人臉檢測(cè)

直播中的敏感人物管控屬于人臉識(shí)別中（1：N）的問(wèn)題，涉及人物載體形式多樣，如動(dòng)漫、印刷品、PS處理、翻拍屏幕等。人像的表情、姿態(tài)、光照、距離、遮擋、模糊等均不可控。

檢測(cè)系統(tǒng)包括敏感人物入庫(kù)及用戶圖片查詢兩大模塊。其中敏感人物入庫(kù)包括特征提取以及索引的建立。用戶圖片進(jìn)行查詢的時(shí)候，系統(tǒng)會(huì)返回與被查詢?nèi)四樧钕嗨频娜宋飯D片、名字及相似度，然后根據(jù)業(yè)務(wù)規(guī)則判斷是否命中敏感人物。數(shù)據(jù)庫(kù)由國(guó)內(nèi)外各領(lǐng)域近2W知名人物人像圖片組成，并按敏感程度劃分不同等級(jí)，提供多層次的管控人名列表。

敏感人物識(shí)別主要包括兩部分技術(shù)，一是人臉的特征提取，二是檢索系統(tǒng)的構(gòu)建。我們選用深度學(xué)習(xí)算法構(gòu)建模型，采取五層卷積+兩層全鏈接的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)，并融合年齡+性別等屬性，融合回歸及分類多種損失函數(shù)進(jìn)行訓(xùn)練。這種multi-data， multi-task的訓(xùn)練方式充分挖掘訓(xùn)練數(shù)據(jù)的多維度信息，從而構(gòu)建泛化性能更好的模型。

敏感人物識(shí)別技術(shù)架構(gòu)圖

簡(jiǎn)要描述一下索引算法的流程：

選一組哈希函數(shù)，將數(shù)據(jù)投影到離散的值上。所有的數(shù)據(jù)按哈希值分桶保存；
檢索時(shí)，被查詢數(shù)據(jù)使用相同的哈希函數(shù)計(jì)算桶編號(hào)，取出桶里所有的數(shù)據(jù)，計(jì)算距離，排序，輸出。

搜索性能：在百萬(wàn)數(shù)據(jù)集上，單次查詢RT小于10ms，top10近鄰正確率90%（以遍歷檢索為基準(zhǔn)）。

算法系統(tǒng)主要用來(lái)管控政治敏感人物肖像，以及明星形象冒用，整個(gè)雙十一期間算法系統(tǒng)命中產(chǎn)生的審核比為約0.01%。算法累計(jì)命中1613場(chǎng)直播，其中38場(chǎng)是正確命中。38場(chǎng)中，有17場(chǎng)背景包含管控人物形象，8場(chǎng)主播使用管控人物形象作為面具，7場(chǎng)與人民幣相關(guān)，2場(chǎng)利用管控人物做廣告，3場(chǎng)丑化管控人物，1場(chǎng)新聞?lì)愔辈ァ?38場(chǎng)直播以業(yè)務(wù)管控標(biāo)準(zhǔn)判斷有14場(chǎng)違規(guī)。

在整個(gè)雙11期間，一共有15場(chǎng)涉及涉及99名核心管控人物的違規(guī)直播，只有1場(chǎng)未能被算法命中，算法整體召回率93.3%。。由于眾所周知的原因，政治敏感人物肖像的違規(guī)case不能展示。下面是一些用戶使用明星照片參與連連看游戲的case：

用戶冒用明星形象參與連連看游戲的示意圖

可能有人會(huì)覺(jué)得算法命中的準(zhǔn)確率不高，這有兩方面的原因：

整體審核比很低，為了保障召回，所以將閾值設(shè)置得比較低；
由于管控人物中包含一些女明星，容易出現(xiàn)主播與明星撞臉的尷尬，比如下面兩位女主播很容易被識(shí)別為楊冪。

和明星撞臉的女主播

2、多媒體處理集群的優(yōu)化

為了平衡管控的時(shí)效性和計(jì)算資源之間的矛盾沖突，在實(shí)際操作中，我們對(duì)直播流每5秒截幀一次，圖片保存在OSS上，同時(shí)推送消息給安全部接口。接口層將消息傳遞到規(guī)則層，在這里配置規(guī)則，決定截圖需要調(diào)用的算法，以及對(duì)算法返回的結(jié)果進(jìn)行判斷，向?qū)徍讼到y(tǒng)發(fā)送消息。

直播管控整體系統(tǒng)框圖

我們面臨的問(wèn)題是5400路并發(fā)視頻需要在5秒之內(nèi)給出反饋，延時(shí)過(guò)長(zhǎng)會(huì)錯(cuò)造成風(fēng)險(xiǎn)外露。圖片算法服務(wù)本身相消耗計(jì)算資源多，是系統(tǒng)中的瓶頸，為此我們采取了以下應(yīng)對(duì)手段。

2.1 通過(guò)消息接入解耦應(yīng)用

同步接入算法服務(wù)是最簡(jiǎn)單的也最容易維護(hù)的，但會(huì)面臨三個(gè)主要問(wèn)題：

同步接入給接入方帶來(lái)了更多資源消耗；
一旦算法服務(wù)不正常，會(huì)影響主流程；
圖片量已遠(yuǎn)遠(yuǎn)超過(guò)審核人力的極限，運(yùn)營(yíng)只能覆蓋一些潛在重點(diǎn)風(fēng)險(xiǎn)視頻，非重點(diǎn)風(fēng)險(xiǎn)視頻流不需要流入審核。因此，雖然異步接入也會(huì)帶來(lái)維護(hù)成本，但最終決定還是采用異步接入。

2.2 通過(guò)異步回調(diào)減少接入的成本

收到異步消息后，節(jié)點(diǎn)會(huì)調(diào)用算法服務(wù)，如果采用同步調(diào)用，會(huì)導(dǎo)致很多線程IO阻塞，需要大量的task,從而需要很多節(jié)點(diǎn)；采用異步回調(diào)服務(wù)，task線程可以立即回收，能減少很多task線程，從而節(jié)省節(jié)點(diǎn)。本項(xiàng)目中節(jié)省了約70%的節(jié)點(diǎn)。

2.3 通過(guò)批處理增加吞吐

在直播防控中單張截圖會(huì)調(diào)用2個(gè)算法，之前的模式是每張圖發(fā)2個(gè)消息。由于內(nèi)部是可以并行且非阻塞過(guò)多個(gè)算法的，單張圖一個(gè)算法和多個(gè)算法成本一樣，所以我們將單張圖調(diào)用多個(gè)算法的多條消息合并成一條。吞吐翻倍，按qps評(píng)估的機(jī)器成本也減半。

2.4 削峰和異常保護(hù)

雖然直播的峰值是5400路并發(fā)，考慮到截幀是每5秒進(jìn)行一次，所以不必要按峰值準(zhǔn)備容量。我們按照4s來(lái)平滑峰值，機(jī)器數(shù)也可以減少75%。除了常規(guī)的限流措施之外，考慮到審核頁(yè)面每5秒刷新，如果超過(guò)4s沒(méi)處理的消息選擇丟棄，可以避免突發(fā)的消息堆積造成雪崩。所有的出錯(cuò)消息都會(huì)回寫(xiě)入SLS并同步到ODPS,以便之后的排查、分析和恢復(fù)。同時(shí)，我們將應(yīng)用部署在兩個(gè)機(jī)房來(lái)實(shí)現(xiàn)容災(zāi)。

算法服務(wù)系統(tǒng)架構(gòu)圖

上線之前按照電商圖片場(chǎng)景的經(jīng)驗(yàn)是95%的算法請(qǐng)求在3s之內(nèi)返回，上線后實(shí)測(cè)98%的請(qǐng)求在600ms內(nèi)返回，平均耗時(shí)200ms，并且資源消耗更低。雖然兩個(gè)場(chǎng)景不完全具有可比性，但至少說(shuō)明我們的算法服務(wù)完全勝任直播防控的實(shí)時(shí)場(chǎng)景。

作者：威視@阿里安全部

來(lái)源：https://zhuanlan.zhihu.com/p/24690287?from=timeline&isappinstalled=1

本文由 @威視@阿里安全部授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App