Facebook、YouTube都會(huì)遇到的內(nèi)容審核難題,今日頭條是怎么解決的?

3 評(píng)論 14361 瀏覽 104 收藏 20 分鐘

本文作者結(jié)合Facebook和YouTube的案例,為我們介紹了今日頭條的內(nèi)容審核機(jī)制,以及未來(lái)相關(guān)技術(shù)的發(fā)展對(duì)審核的影響。

時(shí)間來(lái)到2019年年中,F(xiàn)acebook全球月活已經(jīng)突破22億,Youtube是19億,微信也超過(guò)10億,可以說(shuō)互聯(lián)網(wǎng)已經(jīng)覆蓋了全球大部分人口,而隨著使用人口同步激增的還有用戶時(shí)長(zhǎng),以及內(nèi)容的生產(chǎn)消費(fèi)量級(jí)也呈指數(shù)級(jí)井噴,這海量的內(nèi)容無(wú)論對(duì)大平臺(tái)還是小公司都形成了巨大的管理難度和審核挑戰(zhàn)。

2018年Facebook 上每天上傳的照片超過(guò)3億張,每分鐘發(fā)布51萬(wàn)條評(píng)論,30萬(wàn)條新?tīng)顟B(tài);每天在Instagram上的照片和視頻分享量為9500萬(wàn)次;而在微信朋友圈,每天有10億張圖片被上傳。

截止 2018 年,每天約有2.5萬(wàn)億字節(jié)的數(shù)據(jù)被創(chuàng)建,過(guò)去兩年里生成的數(shù)據(jù)占到了全球總數(shù)據(jù)的90%,而預(yù)計(jì)到 2022年,全球互聯(lián)網(wǎng)流量講達(dá)到每秒 7.2 PB。

在內(nèi)容數(shù)量井噴的同時(shí),內(nèi)容的形式也在不斷變化。除了傳統(tǒng)的圖文類(lèi)內(nèi)容,音頻、長(zhǎng)視頻和短視頻,以及直播的比例在不斷增加,這對(duì)于那些那些既追求實(shí)時(shí)性(發(fā)布速度和用戶體驗(yàn))、又追求不出問(wèn)題(舉報(bào)率和負(fù)面事件)的內(nèi)容平臺(tái)審核管理,提出了巨大而嚴(yán)峻的挑戰(zhàn)。

包括Facebook和Youtube在內(nèi)的國(guó)際頂級(jí)UGC平臺(tái),如今在這類(lèi)老生常談的問(wèn)題上依然十分吃力,尤其是發(fā)達(dá)國(guó)家最為在意的低齡內(nèi)容、種族歧視和跨國(guó)文化/多語(yǔ)言等問(wèn)題,它倆其實(shí)一直未能交出一份讓各方滿意的答卷。

而國(guó)內(nèi)今年比較知名的互聯(lián)網(wǎng)內(nèi)容社區(qū)類(lèi)產(chǎn)品里,下架甚至關(guān)停的已經(jīng)不下于10余款,盡管它們各自都有各自的問(wèn)題,比如色情內(nèi)容、微商、內(nèi)容涉政等等,但歸根結(jié)底,這還是用戶激增帶來(lái)的日益增長(zhǎng)的內(nèi)容生產(chǎn)量和無(wú)法跟上的審核措施和效率之間的矛盾。

一、Facebook:用AI和算力應(yīng)對(duì)海量?jī)?nèi)容

Facebook在整個(gè)2018年遭遇過(guò)巨大的信任危機(jī),除了數(shù)據(jù)接口和用戶隱私的處理不當(dāng),平臺(tái)上的內(nèi)容審核政策也受到嚴(yán)重質(zhì)疑。

但其實(shí),它背后的核心問(wèn)題是,這家公司本就是世界互聯(lián)網(wǎng)內(nèi)容吞吐量最大的平臺(tái)。

而這些內(nèi)容并不只在Facebook app發(fā)布和消費(fèi),還在這家公司旗下月活15億的Whatsapp 、13億的Facebook Messenger和10億的Instagram上面?zhèn)鞑ズ屯茝V,所以這家公司承受的內(nèi)容審核壓力才會(huì)如此之大。

那么Facebook拿出的應(yīng)對(duì)措施是什么?

在去年那場(chǎng)著名的美國(guó)國(guó)會(huì)聽(tīng)證會(huì)上,扎克伯格在一小時(shí)內(nèi)提及AI三十余次,堅(jiān)稱AI是平臺(tái)內(nèi)容審核的答案,他的原話是:“未來(lái)的五到十年,AI將成為世界上最大的社交網(wǎng)絡(luò)的捍衛(wèi)者,在全球范圍內(nèi)解決其最緊迫的問(wèn)題,同時(shí)也幫助公司回答有關(guān)審核、公平和人類(lèi)無(wú)節(jié)制等棘手問(wèn)題?!?/p>

小扎自稱,F(xiàn)acebook上99%有關(guān)ISIS和基地組織的內(nèi)容,都在人們看到之前被人工智能系統(tǒng)標(biāo)記,并且被刪掉。

但AI想要和內(nèi)容審核結(jié)合并落地,必須拿出一些具體的手段來(lái)。Facebook現(xiàn)在的審核分為文字審核、圖片和視頻審核,以及大量的人工配合。

文字審核方面,F(xiàn)acebook推出了DeepText(深度文本)引擎,利用深層神經(jīng)網(wǎng)絡(luò)架構(gòu)去理解那些帖子的內(nèi)容,據(jù)稱它能夠以近乎人類(lèi)的精確度、每秒同時(shí)理解數(shù)千篇文章的文本內(nèi)容。

相比國(guó)內(nèi)的各大平臺(tái)的審核體系來(lái)說(shuō),它的優(yōu)勢(shì)除了速度更快,另一方面是Facebook作為一個(gè)全球化的社區(qū),DeepText能夠?qū)徍顺^(guò)20多種語(yǔ)言的文字。

DeepText甚至能實(shí)時(shí)通過(guò)用戶發(fā)送的內(nèi)容分析用戶的想法,通過(guò)對(duì)意圖、情緒和實(shí)體(人物/地點(diǎn)/事件)的提取,結(jié)合文本、圖片,并自動(dòng)移除垃圾信息的干擾,這一能力在Facebook Messenger上已經(jīng)被測(cè)試驗(yàn)證。當(dāng)然這個(gè)AI技術(shù)也并不只被用來(lái)審核一些可能發(fā)生的危險(xiǎn)(針對(duì)青少年的犯罪),它還可以改進(jìn)用戶體驗(yàn),幫助廣告商進(jìn)行有目標(biāo)的宣傳活動(dòng)。

Facebook為這些實(shí)時(shí)而海量的信息編目錄、并讓其被搜索是件很困難的事情,所以他們才轉(zhuǎn)向了人工智能。

同時(shí),News Feed做為短小而高頻的內(nèi)容素材,恰好就是眾多開(kāi)展深度學(xué)習(xí)活動(dòng)的有效場(chǎng)所之一,因?yàn)槊總€(gè)Feed的背后,包含了人們希望看到哪些與他們相關(guān)的內(nèi)容。

而Facebook的圖片和視頻審核系統(tǒng)名為Rosetta,利用光學(xué)字符識(shí)別系統(tǒng)來(lái)處理圖片和視頻內(nèi)容,每天可以實(shí)時(shí)地從超過(guò)10億張圖像和視頻幀中提取信息并識(shí)別多種語(yǔ)言背后的含義。

另外,F(xiàn)acebook在上周剛剛開(kāi)源了它們?cè)趫D像識(shí)別及視覺(jué)領(lǐng)域的最新模型:ResNext101。這是一個(gè)在Instagram的圖片標(biāo)簽上預(yù)訓(xùn)練,并在ImageNet上微調(diào)的模型。

ImageNet是由知名人工智能專家李飛飛教授團(tuán)隊(duì)于2009年發(fā)布,包含了超過(guò)兩萬(wàn)類(lèi)物體共計(jì)一千四百多萬(wàn)張圖片,后來(lái)的很多計(jì)算機(jī)視覺(jué)任務(wù)模型都以此為基礎(chǔ)進(jìn)行訓(xùn)練。

而ResNext101更上一層樓,利用了Instagram上的35億張圖片(比 ImageNet的1400萬(wàn)多了200多倍)進(jìn)行了預(yù)訓(xùn)練,并以人們?yōu)閳D片添加的話題標(biāo)簽(#hashtag)為類(lèi)別,研發(fā)出來(lái)的有著超強(qiáng)特征提取能力的圖像識(shí)別模型。

在這兩大系統(tǒng)的背后,其實(shí)是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在發(fā)揮功勞。

比如其物體識(shí)別技術(shù)(Object recognition),以含有數(shù)十億參數(shù)和數(shù)百萬(wàn)案例訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),給了挑戰(zhàn)最大的圖片和視頻審核有力的支持。

另外它們也使用自我監(jiān)督學(xué)習(xí)(SSL)探索大量數(shù)據(jù),讓機(jī)器可以通過(guò)分析未標(biāo)記的圖像、視頻或音頻來(lái)學(xué)習(xí)世界的抽象表達(dá),這也是 FAIR 將 AI 能力規(guī)模化的努力之一。

FAIR 還在研究用戶頭像的面部識(shí)別、上傳照片的環(huán)境識(shí)別等,它承擔(dān) Facebook 所有 AI 相關(guān)的基礎(chǔ)研究、應(yīng)用研究和技術(shù)開(kāi)發(fā)。

比如它推出的剛剛獲得了國(guó)際視覺(jué)模型挑戰(zhàn)賽冠軍的Mask R-CNN ,這個(gè)系統(tǒng)可以將計(jì)算機(jī)視覺(jué)世界的物體檢測(cè)與語(yǔ)義分割結(jié)合到了一起,不但可以檢測(cè)劣質(zhì)視頻內(nèi)容,甚至可以幫助視障人士自動(dòng)替代文字。

不過(guò),你可千萬(wàn)別以為世界上最大的社交網(wǎng)絡(luò)和內(nèi)容平臺(tái),光靠AI和審核系統(tǒng)就搞定了一切。截止目前,F(xiàn)acebook聘請(qǐng)了超過(guò)2萬(wàn)人(是的你沒(méi)看錯(cuò)),來(lái)輔助內(nèi)容篩查,并配合監(jiān)測(cè)和刪除爭(zhēng)議內(nèi)容。

二、YouTube:版權(quán)審核系統(tǒng)的升級(jí)之路

YouTube的內(nèi)容審核系統(tǒng)名為Content ID,會(huì)監(jiān)測(cè)并直接刪除涉及色情、低俗和暴力等違規(guī)內(nèi)容。不過(guò),這個(gè)系統(tǒng)的誕生一開(kāi)始僅僅是為了解決YouTube上內(nèi)容的版權(quán)問(wèn)題。

早年間YouTube以草根內(nèi)容起家,后來(lái)出現(xiàn)了大量的搬運(yùn)號(hào),主要以盜版電視臺(tái)的精品內(nèi)容為主。雖然平臺(tái)的數(shù)據(jù)因此飆漲,但也因此陷入了曠日持久的官司里。

2007 年至 2009 年,包括維亞康姆(美國(guó)第三大傳媒公司),Mediaset (意大利的傳媒集團(tuán))和英超聯(lián)賽(英國(guó)最大足球聯(lián)賽)等在內(nèi)的組織對(duì) YouTube 提起訴訟,聲稱它在用戶上傳侵權(quán)內(nèi)容方面毫無(wú)作為。

維亞康姆要求其作出10 億美元賠償金,他們聲稱已經(jīng)在 YouTube上 發(fā)現(xiàn)超過(guò) 15 萬(wàn)條版權(quán)內(nèi)容片段,累計(jì)播放量超過(guò) 15 億次。在耗時(shí)耗力的多年訴訟和公關(guān)戰(zhàn)之后,直到2014 年,雙方才最終協(xié)商解決了爭(zhēng)議,但具體條件并未公開(kāi)。

所以當(dāng)年在被Google收購(gòu)之后,YouTube從2007年開(kāi)始就逐步投入巨資建立起Content ID版權(quán)系統(tǒng),慢慢幫助版權(quán)所有者能夠識(shí)別平臺(tái)上的侵權(quán)行為,并讓版權(quán)所有者在平臺(tái)上能夠獲直接獲得收入。截止 2018 年,谷歌為該技術(shù)研發(fā)共計(jì)投入超 1 億美元。

后來(lái),Content ID的內(nèi)容監(jiān)測(cè)能力在不斷改進(jìn)后,比如使用哈希算法標(biāo)記有風(fēng)險(xiǎn)視頻,阻?它們被?次上傳,也獲得了顯著的成效。以2017年Q4為例,平臺(tái)刪除了800萬(wàn)條“令人反感”的視頻,有670萬(wàn)條都由監(jiān)測(cè)軟件自動(dòng)標(biāo)記。大約75%被標(biāo)記的視頻,在被用戶觀看之前就被下架。

人性化的是,YouTube 于 2014 年 9 ?在前端增加了受限模式(Restricted Mode),用以過(guò)濾?情暴?內(nèi)容,但是?戶可以自己選擇開(kāi)啟還是關(guān)閉。依據(jù)?戶舉報(bào)以及其它識(shí)別規(guī)則,受限模式可以直接為用戶過(guò)濾?部分不當(dāng)內(nèi)容。

當(dāng)然,YouTube的這些內(nèi)容審核能力有賴于谷歌的深度學(xué)習(xí)技術(shù)Google Brain作為支持。Google Brian擁有一個(gè)收集用戶信息(如觀看歷史和用戶反饋)的神經(jīng)網(wǎng)絡(luò), 以及一個(gè)用于對(duì)所顯示部分視頻進(jìn)行排列的神經(jīng)網(wǎng)絡(luò),通過(guò)引入機(jī)器學(xué)習(xí)工具,自動(dòng)標(biāo)記暴力、色情和低俗等極端視頻,并將違規(guī)內(nèi)容報(bào)告給人工審核員進(jìn)行驗(yàn)證。

和Facebook類(lèi)似的是,就算有了Google多方面的技術(shù)支持(包括資金、人才、算法、云和服務(wù)器等),YouTube的AI標(biāo)記、內(nèi)容審核與識(shí)別技術(shù)也并不完美。2018的時(shí)候YouTube CEO蘇珊·沃西基承諾,未來(lái)會(huì)雇傭至少一萬(wàn)名人工審核員,以補(bǔ)足算法的局限。

因?yàn)楦缰坝?guó)政府和一些廣告公司發(fā)現(xiàn),自己的廣告被推薦到了緊挨著極端主義分子上傳的視頻內(nèi)容的旁邊,造成了許多惡劣的影響,多方政府和廣告主們聯(lián)名宣布將因此撤下自己在YouTube賬號(hào)上的內(nèi)容。

不過(guò),Google對(duì) YouTube 的幫助也不會(huì)僅僅限于內(nèi)容審核,Google Brain的技術(shù)已經(jīng)被應(yīng)用在安卓系統(tǒng)的語(yǔ)音識(shí)別、Google+ 的圖片搜索、以及 YouTube 的智能推薦。

所以,現(xiàn)在的YouTube早已從一個(gè)視頻UGC社區(qū),到慢慢成為擁有海量?jī)?nèi)容、搜索驅(qū)動(dòng)的視頻綜合網(wǎng)站,到擁有了視頻推送能力的應(yīng)用。如今,占據(jù)用戶在 YouTube 上觀看視頻總時(shí)長(zhǎng) 70%的內(nèi)容 ,是由推薦算法引擎驅(qū)動(dòng)的。

三、頭條:審核系統(tǒng)對(duì)外開(kāi)放會(huì)帶來(lái)哪些變化?

如今的今日頭條已經(jīng)擁有海量的用戶和多種形式的UGC內(nèi)容,盡管體量上還頗有不如,但在內(nèi)容審核方面遭遇的挑戰(zhàn)同臉書(shū)和Youtube已經(jīng)十分類(lèi)似。

頭條在這方面的一個(gè)創(chuàng)舉是,經(jīng)過(guò)多年的技術(shù)儲(chǔ)備和經(jīng)驗(yàn)積累后,它開(kāi)放了內(nèi)部反低俗系統(tǒng)的一個(gè)簡(jiǎn)化版本“靈犬反低俗助手”,希望普通創(chuàng)作者、社會(huì)公眾更了解和關(guān)注反低俗。截至2019年6月,靈犬反低俗助手的外部使用人次已經(jīng)超過(guò)了300萬(wàn)。

用戶只需要在靈犬的小程序內(nèi)輸入一段文字或文章鏈接,靈犬就可以幫助其檢測(cè)內(nèi)容健康指數(shù),返回一個(gè)鑒定結(jié)果。對(duì)于用戶輸入的內(nèi)容(文字或者圖片),“靈犬”會(huì)先進(jìn)行提取、分詞和語(yǔ)義識(shí)別,然后根據(jù)相關(guān)規(guī)則,輸出對(duì)應(yīng)的分?jǐn)?shù)、評(píng)級(jí)和結(jié)論。

在文本識(shí)別領(lǐng)域,頭條同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù),訓(xùn)練數(shù)據(jù)集包含920萬(wàn)個(gè)樣本,準(zhǔn)確率提升至91%。在圖片識(shí)別領(lǐng)域,“靈犬”采用深度學(xué)習(xí)作為解決方案,在數(shù)據(jù)、模型、計(jì)算力等方面均做了針對(duì)性優(yōu)化。

最近新版的靈犬3.0發(fā)布,重點(diǎn)拓展了反低俗識(shí)別類(lèi)型和模型能力,現(xiàn)已覆蓋圖片識(shí)別和文本識(shí)別,后續(xù),靈犬還將支持難度最大的語(yǔ)音識(shí)別和視頻識(shí)別。

不過(guò),今日頭條的人工智能實(shí)驗(yàn)室王長(zhǎng)虎也提到,AI暫時(shí)還是有缺陷的,今日頭條現(xiàn)在有將近萬(wàn)余人的審核團(tuán)隊(duì)在輔助AI的審核。

比如對(duì)于低俗內(nèi)容,它的定義本來(lái)就相對(duì)籠統(tǒng)難以精確,這項(xiàng)工作即使對(duì)人來(lái)說(shuō)也不容易,交給機(jī)器做更難實(shí)現(xiàn)。

比如世界名畫(huà)中常常出現(xiàn)裸體女子,如果完全交由機(jī)器判斷,機(jī)器通過(guò)識(shí)別畫(huà)中人物的皮膚裸露面積,就會(huì)認(rèn)為這幅畫(huà)是色情低俗的;而某些拍攝芭蕾舞的圖片,以機(jī)器的視角來(lái)看,其實(shí)類(lèi)似于裙底偷拍。

Facebook 曾經(jīng)因?yàn)椤奥懵丁?,誤刪了一張著名的越戰(zhàn)新聞?wù)掌?,?nèi)容是一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑,事件發(fā)生后引起了美國(guó)新聞界的巨大爭(zhēng)議。

但是,在當(dāng)前內(nèi)容創(chuàng)作和消費(fèi)規(guī)模海量增長(zhǎng)的趨勢(shì)下,如果依然純靠人工去解決所有問(wèn)題,那么必然效率低的同時(shí)還無(wú)法滿足用戶需求。

所以,AI+人工的內(nèi)容審核方式在相當(dāng)長(zhǎng)的時(shí)間內(nèi)都會(huì)是一種常規(guī)手段,這也是Facebook和YouTube等國(guó)際頭部?jī)?nèi)容平臺(tái)采用的處理方式。

四、結(jié)語(yǔ)

未來(lái),隨著用戶和內(nèi)容數(shù)量的繼續(xù)增長(zhǎng),內(nèi)容審核的挑戰(zhàn)會(huì)越來(lái)越嚴(yán)峻,政策相關(guān)的監(jiān)管也會(huì)越來(lái)越嚴(yán)格,圖文的內(nèi)容識(shí)別問(wèn)題雖然逐步被克服,語(yǔ)音和視頻的內(nèi)容理解更加任重道遠(yuǎn),人工和機(jī)器檢測(cè)都更為不易,尤其是當(dāng)需要聯(lián)系具體的用戶使用場(chǎng)景和政治社會(huì)語(yǔ)境時(shí),難度會(huì)成倍提高。

比如鄧麗君的歌曲,早年被認(rèn)為是低俗情色歌曲,如今早已被普遍接受并傳唱大街小巷;比如內(nèi)衣和內(nèi)衣模特出現(xiàn)在購(gòu)物平臺(tái)上,會(huì)被默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺(tái)上,就可能被認(rèn)為有低俗嫌疑;而正常的熱舞內(nèi)容,提供給成年人看,符合常規(guī)標(biāo)準(zhǔn),但如果開(kāi)啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。

這就是由于時(shí)代背景、使用場(chǎng)景、用戶人群不同而導(dǎo)致審核標(biāo)準(zhǔn)可能大幅變動(dòng)的案例。

海量數(shù)據(jù)的產(chǎn)生、不斷變化的標(biāo)準(zhǔn),這都要求大公司在這方面的投入必須越來(lái)越多,而這本質(zhì)上就成了一場(chǎng)資本豐厚的對(duì)手之間的軍備競(jìng)賽。

今年卡耐基梅隆大學(xué)(CMU)和 Google 合作研發(fā)的 XLNet 模型,在Bert模型的基礎(chǔ)上更進(jìn)一步,在足足 512 塊 TPU 上訓(xùn)練了兩天半時(shí)間。以 Google Cloud的計(jì)價(jià)標(biāo)準(zhǔn),只是訓(xùn)練一次XLNet 模型就需要人民幣一百六十多萬(wàn)。

若再考慮上整個(gè)模型研發(fā)過(guò)程中的不斷試錯(cuò)和調(diào)參驗(yàn)證等過(guò)程,XLNet的開(kāi)銷(xiāo)簡(jiǎn)直天文數(shù)字。未來(lái)中小團(tuán)隊(duì)將難以競(jìng)爭(zhēng),這就是一個(gè)巨頭獨(dú)霸的競(jìng)技場(chǎng)。

不過(guò)好在,隨著人類(lèi)進(jìn)入社會(huì)的數(shù)字化程度越來(lái)越高,新一代的移動(dòng)互聯(lián)網(wǎng)原住民們?cè)谙硎芗夹g(shù)帶來(lái)的便利的同時(shí),也對(duì)技術(shù)可能的負(fù)面在耐受度和適應(yīng)性上不斷提高。

畢竟自工業(yè)革命之后起,就有無(wú)數(shù)人曾對(duì)技術(shù)會(huì)帶給社會(huì)的沖擊抱有極端負(fù)面和悲觀的預(yù)期,認(rèn)為技術(shù)可能會(huì)加速崩壞我們數(shù)萬(wàn)年來(lái)自然形成的人類(lèi)社會(huì)結(jié)構(gòu),但是哪一次,人類(lèi)社會(huì)不又是順利轉(zhuǎn)型成功、發(fā)展出與技術(shù)相匹配的職業(yè)和生活模式、并且越走越好了呢?

#專欄作家#

柳胖胖,微信公眾號(hào):一個(gè)胖子的世界。11年起有過(guò)兩年O2O創(chuàng)業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn),現(xiàn)在互聯(lián)網(wǎng)金融社區(qū)做產(chǎn)品,長(zhǎng)期對(duì)互聯(lián)網(wǎng)產(chǎn)品保持觀察,對(duì)商業(yè)模式和實(shí)戰(zhàn)案例有自己獨(dú)到的見(jiàn)解。

本文由 @柳胖胖 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 還行

    回復(fù)
  2. 而國(guó)內(nèi)今年比較知名的互聯(lián)網(wǎng)內(nèi)容社區(qū)類(lèi)產(chǎn)品里,下架甚至關(guān)停的已經(jīng)不下于0余款 這里應(yīng)該是個(gè)小錯(cuò)誤吧

    回復(fù)
    1. 感覺(jué)是0之前少了一個(gè)數(shù)字吧

      來(lái)自四川 回復(fù)