反垃圾系統(tǒng)搭建淺談
在信息爆炸的時(shí)代,垃圾消息不斷充斥著我們的信息接受場景。這時(shí)候,搭建反垃圾系統(tǒng)就成了迫在眉睫的事情,而筆者也結(jié)合自己的思考給出了幾點(diǎn)實(shí)施建議。
一、前言
1.1 反垃圾概念
反垃圾,通常是對由用戶生產(chǎn)的內(nèi)容,進(jìn)行敏感、垃圾信息的過濾系統(tǒng)。主要有:垃圾郵件攔截、微博廣告過濾、彈幕、直播等場景。反垃圾,又分為人工反垃圾和機(jī)器反垃圾。我們這里說的反垃圾,特指機(jī)器反垃圾。
機(jī)器反垃圾的意義,有以下幾點(diǎn):
(1)凈化社區(qū)環(huán)境
過濾社區(qū)中的垃圾信息(違法、廣告、色情、惡意灌水等)。這是文本反垃圾最基礎(chǔ)、最重要的工作。如果這塊做不好,對整個(gè)產(chǎn)品影響非常大。比如:之前有過新聞報(bào)道,微博、貼吧中存在太多的淫穢色情信息,被網(wǎng)信辦給予了行政處罰和整頓處理;再有,小密圈(現(xiàn)改名為知識(shí)星球)因?yàn)樯纥S,被停止運(yùn)營了一個(gè)星期,影響非常大,尤其是對于一個(gè)在高速發(fā)展中的新產(chǎn)品。
(2)減少人工審核工作量
在很多大型公司,都有著非常龐大的人工審核團(tuán)隊(duì)。像頭條、微博等,都至少是上千規(guī)模的人工審核團(tuán)隊(duì),其他直播類的網(wǎng)站,也都基本接近1000人的規(guī)模。這么大的團(tuán)隊(duì)規(guī)模,對于每個(gè)公司,其實(shí)都是一個(gè)比較大的開支。而且,人工審核不僅效率低下,也會(huì)產(chǎn)生一定的誤傷、漏刪情況。機(jī)器自動(dòng)反垃圾,在很大程度是減少人工審核工作量,提高審核效率,節(jié)省公司開支。
(3)配合社區(qū)運(yùn)營
機(jī)器反垃圾,有著各式各樣、松緊不同的策略,也是社區(qū)運(yùn)營的一個(gè)重要手段。比如,當(dāng)前社區(qū)用戶活躍較少時(shí),可能需要通過配置策略,整體管控放松;如果社區(qū)用戶活躍較多,就需要適當(dāng)收緊反垃圾策略,確保社區(qū)質(zhì)量,避免水化。有時(shí)候,可能也會(huì)屏蔽競品討論等,也可以算作反垃圾的內(nèi)容。當(dāng)然,這里除了反垃圾,通常還需要一定的精彩文本提取的策略。在這里不進(jìn)行討論,有空的時(shí)候,我會(huì)單獨(dú)拿出來說。
1.2 目前市面上反垃圾產(chǎn)品的現(xiàn)狀
由前文所述,可見反垃圾對于社區(qū)的重要性。那么,目前市面上的反垃圾產(chǎn)品,是個(gè)什么現(xiàn)狀呢?
反垃圾技術(shù),在90年代的垃圾郵件過濾系統(tǒng)產(chǎn)生的時(shí)候,就已經(jīng)開始發(fā)展。到現(xiàn)在,按理說是十分成熟。但是,通過我對各大互聯(lián)網(wǎng)公司,像騰訊的qq、微信,阿里的淘寶、微博,百度的貼吧,頭條的頭條、抖音等,發(fā)現(xiàn)效果其實(shí)并不盡如人意;其他第三方服務(wù),像數(shù)美、網(wǎng)易易盾、百度審核、達(dá)觀等,也都只能做到基本達(dá)標(biāo),甚至在某些場景下,會(huì)頻頻失效。
這主要是因?yàn)椋?/p>
(1)反垃圾是一個(gè)與黑產(chǎn)的攻防系統(tǒng)
黑產(chǎn)在巨額利益的誘惑下,會(huì)不斷提升攻擊的技術(shù)水平。反垃圾的系統(tǒng),需要不斷的更新迭代,一刻也不能停歇。而且,在與黑產(chǎn)的斗爭中,很多時(shí)候處于劣勢,很多策略都有滯后性。
(2)反垃圾系統(tǒng)的建立與迭代,需要很大的投入
反垃圾系統(tǒng)的建立和維護(hù),需要很多的人力投入,NLP算法工程師、前后端開發(fā)、產(chǎn)品經(jīng)理、語料標(biāo)注團(tuán)隊(duì)等,對于很多中小型公司根本養(yǎng)不起這樣的團(tuán)隊(duì)。對于提供反垃圾服務(wù)的第三方公司,又面臨著同行競爭、資金投入等壓力。而且,業(yè)內(nèi)也缺乏對反垃圾效果的行業(yè)評(píng)測,第三方公司在效果方面不太好評(píng)估,基本都是靠銷售驅(qū)動(dòng)。
二、反垃圾系統(tǒng)的設(shè)計(jì)思路
2.1 反垃圾流程設(shè)計(jì)
反垃圾系統(tǒng)的設(shè)計(jì),需要涉及到機(jī)審、人審、審核系統(tǒng)、風(fēng)控安全、標(biāo)注系統(tǒng)、人工標(biāo)注等團(tuán)隊(duì)。理想狀態(tài)下,在一個(gè)公司中,這些團(tuán)隊(duì)都在一個(gè)部門下,由同一個(gè)leader進(jìn)行負(fù)責(zé),會(huì)減少很多不必要的溝通上的工作量。
用戶在app中發(fā)布一條消息內(nèi)容,通常會(huì)是這樣的流程:
2.2 反垃圾策略
2.2.0 反垃圾策略總況
反垃圾系統(tǒng),對垃圾信息的攔截,是通過多種類型的策略組合,才能達(dá)到最佳的效果。主要有關(guān)鍵詞策略、規(guī)則策略、模型策略、風(fēng)控策略幾種。下面,逐一介紹。
2.2.1 關(guān)鍵詞策略
關(guān)鍵詞策略,顧名思義,是通過添加關(guān)鍵詞,達(dá)到攔截垃圾內(nèi)容的目的。
最基礎(chǔ)的關(guān)鍵詞,就是關(guān)鍵詞的硬匹配。比如,我添加“會(huì)員,聯(lián)系”這樣的組合關(guān)鍵詞,就可以攔截“需要xx會(huì)員的,請聯(lián)系我,微信號(hào):abcd123”。
除此之外,關(guān)鍵詞策略通常還包括,拼音關(guān)鍵詞策略(huiyuan –> 買會(huì)員的找我)、跳字匹配(會(huì)員 –> 買?會(huì)?員的找我)等。
關(guān)鍵詞策略,是反垃圾策略中,最基礎(chǔ)、最暴力、最有效的策略。詞庫維護(hù)的權(quán)限,我們通常會(huì)開放給業(yè)務(wù)方的運(yùn)營人員。在遇到垃圾信息的時(shí)候,這也是最快速應(yīng)對的方式。
關(guān)鍵詞策略,雖然可以基本解決問題,但是他的缺點(diǎn)也非常明顯。主要有:
- 容易有誤傷。畢竟是通過關(guān)鍵詞硬匹配來攔截。
- 關(guān)鍵詞難以窮舉,造成很多運(yùn)營人員的工作量。
2.2.2 規(guī)則策略
關(guān)鍵詞策略,有明顯的缺點(diǎn),它只能是一個(gè)基礎(chǔ)的手段。再往上一層,我們就產(chǎn)生了規(guī)則策略、
規(guī)則策略,是可以來解決一類問題的。
舉個(gè)簡單的case,比如廣告文本中,留手機(jī)號(hào)的聯(lián)系方式。我們就可以產(chǎn)出一個(gè)識(shí)別手機(jī)號(hào)的正則策略。
但是,用戶留手機(jī)號(hào),就都是廣告么?并非全是如此。這個(gè)時(shí)候,可能需要在這個(gè)手機(jī)號(hào)的規(guī)則上面,再疊加一層廣告特征的規(guī)則,比如提到具體商品這種特征。
這樣的規(guī)則,相比關(guān)鍵詞來說,確實(shí)有一定的泛化能力,不再需要業(yè)務(wù)運(yùn)營來維護(hù),他們只需要反饋badcase就可以,而且在解決這類問題的時(shí)候,通常都是針對性的規(guī)則,有比較好的解決問題能力。
萬事都有個(gè)但是,事實(shí)上,針對同一種類型的垃圾信息攔截,可能有很多種規(guī)則。規(guī)則策略,就暴露了幾個(gè)問題:
- 規(guī)則,只能來解決一類問題,作用其實(shí)很有限。
- 規(guī)則,很容易被黑產(chǎn)繞過,會(huì)經(jīng)常失效。開發(fā)同學(xué)需要花時(shí)間和精力,來觀察badcase更新迭代規(guī)則。
- 規(guī)則過多,管理起來就會(huì)非常麻煩。很多規(guī)則的攔截界限,變得非常不明顯。
2.2.3 模型策略
反垃圾策略的不斷進(jìn)化,就到了模型這個(gè)層面。
模型,相比規(guī)則,它的泛化能力就變得非常強(qiáng)大了。以前的規(guī)則策略,都是針對某個(gè)類別下的子類,進(jìn)行針對性攔截。比如,廣告類型下面,可能有十幾個(gè)規(guī)則。但是,對于模型來說,通常只需要1-2個(gè)就可以了。
模型策略的好處,毋庸置疑。強(qiáng)大的識(shí)別能力,無需運(yùn)營接入(甚至運(yùn)營不需要過多的反饋badcase)。你喂什么語料進(jìn)來,它就能識(shí)別什么樣的內(nèi)容。
依然有但是,模型雖好,也有缺點(diǎn):
(1)高度依賴于語料標(biāo)注質(zhì)量的好壞
模型算法本身不重要,重要的是語料標(biāo)注質(zhì)量。而語料標(biāo)注,又是一個(gè)繁瑣的過程??赡苄枰M建標(biāo)注團(tuán)隊(duì),搭建標(biāo)注系統(tǒng),制定可執(zhí)行的標(biāo)注標(biāo)準(zhǔn),培訓(xùn)標(biāo)注人員,評(píng)估標(biāo)注質(zhì)量。是一個(gè)很花時(shí)間和精力的事情。
(2)通用性存疑
在識(shí)別微博廣告中優(yōu)秀的模型,可能在識(shí)別直播廣告時(shí),效果非常差,差到?jīng)]法用。這個(gè)時(shí)候,可能需要針對直播,再訓(xùn)練一個(gè)模型。
2.2.4 風(fēng)控策略
上面的三種策略,都是針對內(nèi)容本身進(jìn)行識(shí)別,正常情況下,可能識(shí)別80%的垃圾內(nèi)容。達(dá)到一定程度的時(shí)候,就很難再往上提升。
這個(gè)時(shí)候,就需要從用戶行為來進(jìn)行識(shí)別,需要風(fēng)控策略的接入。針對風(fēng)控策略,主要有以下幾種:
- 高危賬號(hào)的識(shí)別。沒什么好說的,這是純風(fēng)控的操作。是非常有必要的操作。
- 發(fā)帖頻率控制。需要從時(shí)間周期、內(nèi)容相似度、業(yè)務(wù)類型幾個(gè)方面來考慮。
- 黑名單控制。反垃圾系統(tǒng),通常都有一個(gè)針對賬號(hào)、手機(jī)號(hào)、設(shè)備ID、ip地址等維度的名單list。這個(gè)是需要花時(shí)間去積累的,可以是人工搜集、風(fēng)控判斷、數(shù)據(jù)交換得到的。
- 用戶屬性信息輔助。比如,用戶是否是vip會(huì)員(我們認(rèn)為會(huì)員是黑產(chǎn)的概率較小,需要進(jìn)行數(shù)據(jù)分析后得出),用戶角色、賬號(hào)注冊時(shí)間等,來結(jié)合上述三種策略來進(jìn)行判斷。
3. 反垃圾系統(tǒng)的評(píng)估
如何評(píng)判一個(gè)反垃圾系統(tǒng)的好壞。我認(rèn)為有以下幾個(gè)指標(biāo):
- 準(zhǔn)確率:這是最基礎(chǔ)的指標(biāo)。業(yè)內(nèi)反垃圾系統(tǒng)的準(zhǔn)確率,普遍在96 – 99%之間。
- 召回率:用來評(píng)判可以找到多少垃圾信息,也是非常關(guān)鍵的一個(gè)指標(biāo),根據(jù)經(jīng)驗(yàn),這個(gè)指標(biāo)通常在30 – 80%之間。不同的業(yè)務(wù),召回?cái)?shù)量差別會(huì)比較大。
- unknown占比:這個(gè)指標(biāo)是用來評(píng)估,反垃圾系統(tǒng)的不確定性。如果存在過多的unknown文本,可能會(huì)對人工審核造成比較大的壓力。這個(gè)指標(biāo),通常在10%以下為佳,理論上是越低越好。有些業(yè)務(wù),對實(shí)時(shí)性要求比較高的業(yè)務(wù),通常沒有unknown,也就不需要評(píng)估這個(gè)指標(biāo),比如直播場景下。
- 報(bào)警次數(shù):這里的報(bào)警,主要是業(yè)務(wù)運(yùn)營反饋的被黑產(chǎn)攻擊的次數(shù),需要人工來記錄。越是優(yōu)秀的業(yè)務(wù),被黑產(chǎn)利用的價(jià)值就越高,因此被攻擊的次數(shù),可能也就越多。
這是整體上,需要觀察的指標(biāo)。實(shí)際工作中,我們需要分策略來進(jìn)行具體觀察。比如,需要了解廣告模型的準(zhǔn)確率怎么樣,召回率如何。
三、反垃圾的難點(diǎn)
反垃圾難點(diǎn),在前文【目前市面上反垃圾產(chǎn)品現(xiàn)狀】部分中,聊過一些。下面再繼續(xù)談?wù)劊?/p>
3.1 來自于黑產(chǎn)
黑產(chǎn),是一波隱藏在暗處,通過非法手段進(jìn)行攻擊各公司的產(chǎn)品或服務(wù),來謀取利益的團(tuán)體。在反垃圾中,他們通常是在各大社區(qū),發(fā)布廣告(這里以色情廣告居多)。他們通常有:
- 豐富的資源池??梢允琴~號(hào)、手機(jī)號(hào)、ip代理等。
- 多樣的攻擊手段。有些黑產(chǎn),可能是通過電腦腳本,來模擬用戶,發(fā)布垃圾信息;還有些黑產(chǎn),是通過群控真機(jī)。此外,還會(huì)有各種輔助工具,像云控、漢字變體等。
- 與時(shí)俱進(jìn)的意識(shí)?,F(xiàn)在很多黑產(chǎn),也在進(jìn)行深度學(xué)習(xí)等技術(shù),來進(jìn)行黑產(chǎn)攻擊。
與黑產(chǎn)的斗爭,本身就是不平等的一場攻防戰(zhàn)。我在明,敵在暗,我們上什么策略,進(jìn)行任何操作,黑產(chǎn)很容易猜出來,試出來。而且,互聯(lián)網(wǎng)本身是一個(gè)交流頻繁的行業(yè),會(huì)有很多的技術(shù)沙龍、研討會(huì)。每個(gè)公司、第三方公司,都會(huì)時(shí)不時(shí)的舉辦風(fēng)控、安全、反垃圾的行業(yè)交流會(huì),這無疑也是給黑產(chǎn)提供了一個(gè)了解防守方策略的好機(jī)會(huì)。但是,我們從來沒有聽說過黑產(chǎn)會(huì)舉辦這些沙龍,甚至在網(wǎng)上都很難搜到相關(guān)黑產(chǎn)的內(nèi)容。
這就使得反黑工作,非常艱難。
筆者在工作中,曾經(jīng)觀察過一些黑產(chǎn)的行為。比較有趣的是,有一些黑產(chǎn),每天早上9點(diǎn)開始攻擊,晚上6點(diǎn)停止攻擊,非常像職業(yè)的工作人員,按時(shí)打卡上班。
3.2 來自于公司
如前文所述,反垃圾系統(tǒng)的搭建,需要很多的人力投入,成本非常高。我們按照團(tuán)隊(duì)的最低配置,2個(gè)算法工程師,5個(gè)標(biāo)注人員,其他崗位假設(shè)跟其他團(tuán)隊(duì)共享,可以算下人力成本。2個(gè)算法工程,如果1個(gè)是應(yīng)屆生,1個(gè)是3年工作經(jīng)驗(yàn)的員工,那么按照市場價(jià)工資(不算企業(yè)社保等支出),每年至少需要80萬;5個(gè)標(biāo)注人員25萬,加起來至少需要100萬,還沒有算審核系統(tǒng)搭建、人工審核、反垃圾系統(tǒng)的前后端開發(fā)。小公司,是難以承受的。
更為重要的是,反垃圾本身,并不產(chǎn)生業(yè)務(wù)價(jià)值,并不能直接給公司帶來收入。如果部門領(lǐng)導(dǎo)、公司領(lǐng)導(dǎo),了解相關(guān)領(lǐng)域的話,那可能對于反垃圾從業(yè)者或者反垃圾業(yè)務(wù)來說,會(huì)稍微好一些;但是這個(gè)領(lǐng)域,畢竟是一個(gè)比較窄的領(lǐng)域,上級(jí)領(lǐng)導(dǎo)可能大部分都不清楚這塊業(yè)務(wù)情況,相關(guān)從業(yè)者可能就會(huì)比較慘,做的好可能沒法升職加薪。一旦出事了,還需要背鍋。相關(guān)團(tuán)隊(duì)資源,也就會(huì)向其他業(yè)務(wù)傾斜。
四、擴(kuò)展
《反垃圾江湖風(fēng)云紀(jì)事》:這篇文章,是筆者在公司與相關(guān)算法同學(xué)協(xié)作產(chǎn)出的一篇對外文章,在技術(shù)方面會(huì)有比較多的講述,可以參考https://mp.weixin.qq.com/s/VWxZ217_QL2vRpjdnVFocQ
#專欄作家#
木葉飛飛,blog:muyefeifei.com。人人都是產(chǎn)品經(jīng)理專欄作家。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
點(diǎn)贊,好文,期待持續(xù)更新,其實(shí)真的像大安全,大風(fēng)控,反垃圾,應(yīng)該有一套產(chǎn)品的體系進(jìn)行梳理。
反垃圾畢竟還是一個(gè)很窄的方向,大部分從業(yè)者也都是自己在摸索。
關(guān)鍵詞那個(gè),有一些非常敏感的關(guān)鍵詞,詞庫從哪里找?
網(wǎng)監(jiān)局會(huì)有,網(wǎng)上也有很多,搜一下就行。
請問網(wǎng)監(jiān)局哪里可以查到啊