抖音上的貓鼠博弈

0 評論 8715 瀏覽 37 收藏 16 分鐘

編輯導(dǎo)語:短視頻的出現(xiàn),使我們在碎片化時間有了可供消遣的內(nèi)容。但是隨著短視頻賽道的逐漸擁擠,網(wǎng)絡(luò)黑產(chǎn)也盯上了它。雖然抖音對不合規(guī)視頻進(jìn)行過治理,但是這種情況還沒有被杜絕。面對打擊黑產(chǎn)這個問題,抖音不能有僥幸心里,仍然需要竭盡全力。

01

現(xiàn)在是一個技術(shù)極度發(fā)達(dá)的年代,更是一個內(nèi)容產(chǎn)業(yè)爆炸的年代。

在互聯(lián)網(wǎng)的賦能下,我們所有人都可以在最短的時間內(nèi)享受到最新鮮的內(nèi)容服務(wù),圖文、視頻、短視頻、游戲,只有你不想要,沒有你要不到。

但技術(shù)本身也是雙刃劍,在我們享受到更多好內(nèi)容的同時,也會有更多人在利用技術(shù)作惡。

工具不分善惡,在任何時候,只要可以獲利,就會有人去鉆研努力。技術(shù)和商業(yè)越發(fā)達(dá),黑灰產(chǎn)就越猖獗。

有光必有影。面對信息差和技術(shù)碾壓,普通人越來越難以和黑產(chǎn)對抗,因為對方玩兒的東西,你見都沒見過。

同樣的是,打擊黑灰產(chǎn),保護(hù)用戶,將是內(nèi)容平臺的核心競爭力之一。

每一個內(nèi)容平臺都在研究如何對抗黑灰產(chǎn),不僅僅是因為黑灰產(chǎn)會侵害平臺的用戶,更嚴(yán)重的是,當(dāng)平臺對內(nèi)容失控的時候,在這個互聯(lián)網(wǎng)文明底線越來越重要的年代,基本就代表了更嚴(yán)重的后果。

理由是蒼白的,大家只看有沒有做到。很多人以為的黑灰產(chǎn)僅僅是在發(fā)布一些看起來比較弱智的騙局,那理解就太淺薄了。

現(xiàn)在,在話題廣場、論壇、評論區(qū)、用戶昵稱甚至私人對話,只要可以錄入文字圖片和語音的地方,就存在著失控的風(fēng)險。

只要能傳遞信息,黑灰產(chǎn)就不會放過,過去是電線桿和公共廁所,現(xiàn)在就是所有媒介。

產(chǎn)品是簡單的,人性是復(fù)雜的。作為內(nèi)容平臺,只能用盡全力去保護(hù)用戶,擊敗對方,或者被對方擊敗。

02

抖音作為當(dāng)前第一短視頻平臺,擁有最龐大的內(nèi)容創(chuàng)作群體和內(nèi)容消費群體。

在抖音上,內(nèi)容創(chuàng)作者與內(nèi)容消費者是可以直接交互的,這就代表在黑產(chǎn)眼中,這是流量富礦,并且操作空間巨大。

實際上,任何可以C2C的內(nèi)容平臺,都是可操作性的,但抖音流量最大。前段時間,“假靳東”事件鬧得沸沸揚揚,這就是一起典型的C2C黑灰產(chǎn)詐騙。

在實際業(yè)務(wù)中,C端用戶上傳的內(nèi)容天然具有很大的不可控性,因為每個人的價值觀和法治觀念都是不同的,你沒法把所有人的思想和操作統(tǒng)一,很多人就是喜歡在內(nèi)容平臺上上傳大量的違禁內(nèi)容。

論壇時代走過來的老網(wǎng)民都懂,黃圖和小視頻總是攔不住大家的散播。

從平臺角度而言,這些都是風(fēng)險,需要在保證正常用戶體驗的前提下,降低內(nèi)容風(fēng)險。說白了就是,屏蔽風(fēng)險內(nèi)容,懲罰亂來的賬號。

從平臺角度來說,縱容這些亂來的賬號和內(nèi)容,屬于找死。從業(yè)務(wù)上必須要殺,但是從技術(shù)上如何殺,就是非常具有挑戰(zhàn)的問題。

不是說可疑就要殺的,不能因為少部分人的放飛自我就影響多數(shù)人的體驗,大家出來做生意,用戶體驗是第一要義。

針對內(nèi)容風(fēng)險關(guān)系,第一輪,也是最基礎(chǔ)的,是敏感詞屏蔽。什么叫敏感詞?可以簡單理解為是大家在私下場合心領(lǐng)神會的說,但是在公開場合絕對不會說的那些東西。

在抖音平臺上,敏感詞出現(xiàn)在賬號ID,個人簡介,私信內(nèi)容,視頻封面等場合。針對敏感詞屏蔽,抖音的策略是自建詞庫+機器學(xué)習(xí)+人工審核。策略包含敏感詞收集策略,敏感詞應(yīng)用策略,敏感詞處置策略。

在這里面,人工起到了很大的作用。

很多公司喜歡瞎吹人工智能,覺得人工智能能夠解決一切問題,但現(xiàn)實業(yè)務(wù)中,人工智能對于語義分析是存在一定問題的。

大家日常對話的那些內(nèi)容,不復(fù)雜,但是涉及到敏感詞,漢語是博大精深的,使用各種諧音字、變體字、火星文,以及中間夾雜各種特殊符號和空格的模式,很容易就能繞過機器。

就例如微信這個詞,可以變種成V信、VX、威、VV、V你懂得、威X信等等等等,在人眼中是一樣的含義,但是在機器眼中截然不同。

作為已經(jīng)把算法玩到極致的抖音,非常清晰的知道機器的力量有窮盡,人的主動識別配合數(shù)據(jù)分析師定向收集,再同步模型,才可以實現(xiàn)ROI最大化。

而且敏感詞這個東西,收集很重要,怎么用更重要,一不小心就把好的壞的一起干掉了。

  • 例如黃恐暴類的敏感詞,標(biāo)簽對應(yīng)的處置手段應(yīng)該是直接屏蔽+封號或者直接禁止發(fā)布,不廢話,直接干掉;
  • 例如疑似推廣號的標(biāo)簽,對應(yīng)的處置手段應(yīng)該是屏蔽+禁言,或者禁止發(fā)布,并給予警告;
  • 例如命中了一些權(quán)重較弱的敏感詞或者敏感字,對應(yīng)的處置手段應(yīng)該是轉(zhuǎn)人工審核,再處置。

當(dāng)然,具體的尺度,是不同廠家有不同的價值觀。在抖音這邊,力度一直是比較大的,因為流量和影響力都太大,出一點點問題,都是大問題。

03

說完敏感詞,必然繞不開的是圖片和短視頻,這是抖音的看家本領(lǐng),也是最需要風(fēng)險管控的部分。

圖片和視頻帶有的問題主要是三類:

1. 黃恐暴類內(nèi)容,圖片視頻本身有問題

針對這部分內(nèi)容,抖音建立了龐大的敏感素材庫,外加機器+人工的審核機制。

巨大部分敏感圖片和問題視頻是直接過不了審的,發(fā)都發(fā)不出去。少部分有疑問,但是沒法被機器判定為鐵狼的內(nèi)容,會轉(zhuǎn)人工審核,無問題后再通過發(fā)布。

有一些是已經(jīng)發(fā)出去但看的人比較少,人工還會做二次巡查,如果發(fā)現(xiàn)問題,第一時間下架或者限流;還有一些發(fā)出去已經(jīng)開始推送起量的,人工會再次介入核查,確保每一個能被推送出去的內(nèi)容,都是盡可能不存在問題。

2. 視頻本身沒黃恐暴負(fù)面問題,但是視頻里面的東西有問題

例如:視頻里面就有VX:12345,點我看片等字跡或者水印,這里除了第一條里面的相關(guān)規(guī)則之外,還要額外添加OCR環(huán)節(jié)。

要把視頻里面所有可以轉(zhuǎn)換為文字的信息(包括各種字體和字幕),全部都轉(zhuǎn)化出來,然后由機器進(jìn)行過濾。過濾完之后,還要人工再過濾。

3. 視頻本身沒有任何問題,但是視頻帶來的東西有問題

例如假靳東,靳東的祝福視頻本身是正常的,但是被拿來用于詐騙,就非常的不正常。

針對視頻正常的,但用途有問題的case,單靠機器講白了沒用。因為機器只能核驗要素,無法核驗用途。

機器風(fēng)控很重要,但其實只是表層,而且永遠(yuǎn)難以做到窮舉,真的一刀切下去,會誤傷大量的正常用戶,這對于用戶體驗和公司的商業(yè)價值而言都是損失。

這時候,主力軍就成了人工。抖音投入了上萬的審核人員做巡查,專門識別類似的風(fēng)險內(nèi)容,這塊兒成本投入堪稱恐怖。

但效果斐然,在4月份開始的仿冒名人專項打擊中,已經(jīng)封禁黑產(chǎn)作弊賬號18萬+,重置仿冒用戶6W+,處理問題視頻超過400萬條。

這是成績,成績背后是成本。

04

機器加人工審核,能夠解決問題嗎?

嚴(yán)格來說,也不能,因為內(nèi)容風(fēng)險治理不是簡單的拼策略或者拼算法或者拼人力。內(nèi)容風(fēng)險治理是一個系統(tǒng)性工程,不是說你有個好的算法或者你有一堆人就可以解決問題。

因為問題是每天都在發(fā)生的,不可能無窮盡的去堆資源,那就不要做生意了。所以有一個系統(tǒng)性工程,能夠形成內(nèi)容過濾的良性生態(tài),才是從源頭解決問題。

用更簡單的話來說,單單是抖音自己在努力,其實是不夠的,再多人力,也是有窮盡的。

再強大的機器算法,也是不可能不出錯的,更何況很多風(fēng)險內(nèi)容本身就處在對與錯的中間。最好的方法,是讓用戶也參與進(jìn)來,發(fā)揮大家的力量。

大家希望看到優(yōu)質(zhì)且無風(fēng)險的內(nèi)容,平臺也希望干掉那些有危害并令人不適的內(nèi)容,利益訴求是一致的。

普通人的力量,才是最強的力量。針對讓普通人也能參與,抖音一直以來堅持兩步走。一步是抖音大力做用戶教育,讓用戶自己意識到有些視頻存在問題,養(yǎng)成合理舉報的習(xí)慣。

即使一個視頻機器覺得沒問題,人工審核覺得沒問題,巡檢覺得沒問題,但不代表一定所有人都適宜,有些細(xì)節(jié)問題可能只有特定的人能看出來,他們的力量非常重要。

過去一年,抖音安全中心已經(jīng)產(chǎn)出75期防詐反詐教育視頻,累計播放量7.1億次。

另一步就是完善舉報機制:用戶自發(fā)來對問題視頻進(jìn)行舉報,平臺要做的不僅是認(rèn)真且快速的審核處理,更要將相關(guān)案例做拆解,給相關(guān)的信息打上標(biāo)簽,優(yōu)化機器模型。

機器的效率高于人,但機器依然要向人學(xué)習(xí)如何處理問題。

另外,僅僅是讓用戶參與,一起完善模型,還不夠。防守永遠(yuǎn)只是防守,風(fēng)險管理也要考慮進(jìn)攻。

抖音針對各種發(fā)布違規(guī)信息的賬號,會反過來追溯其特征,是哪些人,在哪些機器,以什么ID,用什么IP,進(jìn)行了批量操作。

黑灰產(chǎn)這年頭也不是用手的,大家都是機器批量操作,不然還沒輪到魚上鉤就先餓死了。

舉個例子,假如抖音發(fā)現(xiàn)某類黃恐暴內(nèi)容,大部分發(fā)布者和點贊者的IP都是相同的或者都是同一個號段的,那么不僅可以設(shè)置策略屏蔽這個IP,更可以直接報警。

互聯(lián)網(wǎng)不是法外之地,今年以來,抖音安全中心已經(jīng)協(xié)助各地公安機關(guān)打擊涉嫌詐騙、色情的黑灰產(chǎn)團(tuán)隊25個,刑事拘留87人。

這個數(shù)字單純看起來不大,但這是一種震懾。告訴所有黑產(chǎn),管住自己的手,不然看看同行的下場。有時候,震懾的威力要比直接出刀更加有效。

05

坦率地說,很多公司對于內(nèi)容風(fēng)控的價值和意義都是意識不到位的。

流量第一思想下,很多平臺對于擦邊球內(nèi)容其實是睜一只眼閉一只眼的,畢竟是用戶自發(fā)上傳的東西,出了問題可以把鍋甩給上傳的用戶。

但在這個過程中,好處是自己平臺吃下了。這種野蠻生長的邏輯,其實是目光短淺的。

因為在這個互聯(lián)網(wǎng)文明大趨勢的浪潮下,內(nèi)容出現(xiàn)風(fēng)險不是簡單的挨罵,而是切實的會直接影響平臺的生存;因為互聯(lián)網(wǎng)讓內(nèi)容的傳播效率變快,那么必然風(fēng)險的擴大也是同樣的。

至于那點因為擦表球和默認(rèn)黑灰產(chǎn)肆虐得到的流量,很有可能會被一把打的吐出來。

內(nèi)容風(fēng)控,將是這個年代所有內(nèi)容平臺的命門。

這是能不能持續(xù)做生意的問題,而不是賺多賺少的問題。另外,很多公司雖然也知道這個重要,但往往先期投入不足。

風(fēng)險管理是一個長期的系統(tǒng)工程,臨時抱佛腳其實意義不大,找誰來都沒辦法解決體系缺失的問題。模型要靠長期的算法迭代以及不停的數(shù)據(jù)積累來供養(yǎng),先行者早就樹立起了極強的風(fēng)控壁壘。

這些壁壘需要大量的時間和資源投入,不是一朝一夕就有的,全部都是非賣品。當(dāng)大家都發(fā)展起來的時候,有時候不是比誰賺的更多,而是比誰錯的更少。

裝傻裝死一時爽,但問題不會因此消失,總要面對現(xiàn)實。所以打擊黑產(chǎn),不能有僥幸心里,需要竭盡全力。

從過去,到現(xiàn)在,到將來,都是如此。

 

作者:半佛仙人;公眾號:半佛仙人

來源:https://mp.weixin.qq.com/s/vK4cbjE_E1JmfO7KCeMv4g

本文由 @半佛仙人 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!