內容消費-如何進行敏感詞屏蔽
最近對直播比較感興趣,被問到一個問題——如何屏蔽彈幕中的不良內容?于是便有了如下的學習內容。
一、什么是敏感詞匯?
1.分類
敏感詞可大致分為以下幾類:政治相關和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時事類、廣告和非法信息、其他類。
網上有很多專門的敏感詞庫,我在網盤里上傳了一份名為百度內部的敏感詞文件,僅供查看https://pan.baidu.com/s/1o8xtX1K。
2.常出沒的地方
所有傳播的信息都需要。發送這些垃圾信息的人或者團隊被稱為“垃圾蟲”。
敏感詞不僅出現在社區論壇、IM聊天、影音娛樂等內部的評論或上傳信息區域,還隱藏在頭像、昵稱和簽名這種地方,需要全面鑒別。
3.哪些地方需要屏蔽?
平常我們主要做的屏蔽是廣告過濾、黃賭毒、暴力恐怖、謠言排查等幾種。不同的場合屏蔽的級別不同,而且基于傳播時效性的不同,屏蔽方式分為同步過濾和異步召回。
比如微博的屏蔽就需要做到基礎和全面,甚至一些時事熱點也要納入屏蔽范圍。
再比如B站,為了保持彈幕的質量,它還需要屏蔽一些刷屏的、內容尷尬的彈幕,這些彈幕的內容不算敏感,只是讓人不喜歡。B站在彈幕方面算是鼻祖,做到了極致——用戶可以根據顏色、字體大小、展示方式甚至自定義的文本來進行屏蔽,同時,在視頻右邊還有專門的彈幕欄,也就是說,我可以彈幕內容當做評論一條條地看而不受其干擾。如圖所示:
二、目前有哪些手段可以進行屏蔽?
綜合說來,技術屏蔽手段主要通過特征庫、語義分析、機器學習等方法來展開。網易易盾上是分三類來寫的:垃圾發現、垃圾識別、垃圾處理,有點表意不明,所以下面具體來介紹一下。(以下綜合易盾和joylnwang的博客整理而成。)
1.垃圾發現——針對新垃圾
①用戶舉報:主要是指用戶在使用產品過程中遇到不良信息,于是進行投訴。
為了保證投訴的效果,我們需要在舉報的便捷性、顯眼展示和獎勵機制上花一些功夫去做,同時還需要建立科學的舉報分類,不僅方便用戶選擇,還能極大地幫助反垃圾訓練特征樣本,綜合來做才能有更好的效果。
②內容聚合:主要是通過判斷內容的相似性,從而確定是否為垃圾信息。
就文本來說,其相似度分為兩個層面,第一是基于編輯距離的文本相似度計算,這種算法是根據一段文字如何經過增刪、移動而轉化為另一段文字的操作步數,來計算兩段文字的相似程度,運算的時間和空間復雜度都很高,對于評論,標題這樣的短文本往往能獲得不錯的效果,缺點是對長文本不太適用,且沒有考慮文本中意群的重要性。
第二是需要在原始文本中切分出有意義的Term,然后對于兩篇文章的Term集合,運算得出文本的相似程度。復雜性上要高于前者,但在處理長文本的方面有優勢,而且更有可能從意義的角度識別出相似的文本族(來源于http://blog.csdn.net/joylnwang/article/details/6831565)。
③蜜罐系統:主要是針對專業的垃圾蟲團體。
通常垃圾蟲都有特定的工具協助,而這些工具大多會分析頁面元素并進行調用。如果在頁面中埋伏一些“蜜罐”,正常的用戶無法看到這些入口,但是程序會直接調用這些入口進行垃圾信息發送。比如某一些隱藏的評論主題,只有程序才會去抓取這些主題并對它們發送垃圾信息。那么進了這些“蜜罐”里的人,都可以被判斷為非正常的用戶。
2.垃圾識別
①特征匹配:主要是基于已有垃圾特征進行匹配。
對文本來說,建立敏感詞庫就可以直接屏蔽相關詞句,同時,對于文字的變種比如簡轉繁、加空格、形近字、音近字,都可以有效識別。
對圖片來說,主要是MD5,魯棒哈希,Sift特征識別等手段。對于音頻和視頻也支持MD5匹配。(原諒我實在不能理清后面幾種手段的具體技術實現,不能展開講,有興趣的可以百度。)總之,這幾種手段可以支持人像識別、動漫識別、相似匹配、圖片旋轉裁剪、改變亮度色調、水印識別等,基本囊括了所有的不良圖片。
②模型匹配:主要是基于機器學習,可以在沒有具體特征樣本庫的情況下識別內容的分類。
音頻文件也通過大量語料學習能把語音轉換成文本,然后進入文本匹配過程。視頻則通過截圖的方式轉換成為圖片識別。
③規則匹配:即模式匹配,分為正則表達式、多模式匹配算法、基于元數據的定制等。
百度給的定義是:模式匹配是數據結構中字符串的一種基本運算,給定一個子串,要求在某個字符串中找出與該子串相同的所有子串。比如自定義規則:同IP下5分鐘內發送內容相似度超80%的封禁1小時。
3.垃圾處理
①基礎處理:刪除內容,封禁內容,封禁用戶,刪除用戶,封禁IP,封禁設備等常規手段
②隱蔽操作:普通的屏蔽操作容易被垃圾蟲感知,當他們發現被屏蔽時,會想辦法來“破解”反垃圾。故需要進行隱蔽,比較常見的做法有:垃圾發送接口返回成功,但實際僅用戶自己可見。
比如直播中的彈幕,進行虛擬展示,僅用戶自己可見,其他人都看不到。
③后續操作:每天把刪除的垃圾內容匯總到內部分揀平臺,由專業人員進行分析和對數據的分揀標記,完成各種模型以及規則的升級。
4.介紹一種常用常見的屏蔽工具——Adblock
Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome瀏覽器所使用的擴展。
Adblock允許用戶攔截廣告在內的各種頁面元素,并使這些內容不被下載和顯示。右鍵單擊一個條幅廣告,在上下文菜單中選擇“Adblock”,它就再也不會被載入了;或者在側欄打開 Adblock Plus 查看頁面的所有元素,然后選擇阻止條幅廣告。您可以在過濾器中使用通配符或正則表達式來阻擋所有廣告。
以上內容可解決大部分的敏感內容屏蔽問題,如有疑議,請在評論區回復,歡迎一起探討~
本文由 @小喬(微信公眾號:蕎麥長長) 原創發布于人人都是產品經理。未經許可,禁止轉載。
大佬,請求一份敏感詞庫。1208448620@qq.com,非常感謝~
請求一份敏感詞庫。1098024397@qq.com,非常感謝~
請求一份敏感詞庫。1965602563@qq.com,非常感謝~
請求一份敏感詞庫。pixmy2021@outlook.com,非常感謝~
求一份敏感詞匯庫,yujl0985@163.com,感謝感謝~
寫的好好!同求一份敏感詞匯庫,感謝感謝啦~!
404272694@qq.com
哇,詞庫需求好大,同求一份敏感詞庫,ralvelover@sina.com
求一份敏感詞庫,18301878981@163.com
萬份感謝!!!
求一份敏感詞庫。3102444609@qq.com
勞煩作者,十分感謝!抱拳
同求一份詞庫。331663325@qq.com
跪謝
拿什么指標來衡量屏蔽做的好不好?
求敏感詞庫,y120351949@163.com,謝謝。
求敏感詞庫,ldyweb1603@163.com,謝謝。
求一份敏感詞匯庫,212607950@qq.com,十分感謝~
求一份敏感詞庫,hehailing@jiangxiatech.com
支持語音識別嗎
求詞庫,qfbsz@126.com
求一份敏感詞匯庫,yan_li_wen@163.com,感謝感謝~
求一份敏感詞匯庫,ioikobe@163.com thx~
求一份敏感詞匯庫,490021684@qq.com
我也想求一份敏感詞匯庫,huangruili_job@163.com
超你媽
您好,求一份敏感詞匯詞庫,1290120581@qq.com
網盤內容被關了,求郵件發送:1849457840@qq.com
有同學幫忙找到了,如果有人需要的話,關注我的公眾號留言下,郵箱留下,我發給你~~
公眾號里的鏈接也失效了。能用郵箱發一份么?729467728@qq.com
已留言,感謝感謝,寫得很好哦!
抱歉,網盤內容被關了。沒備份。
網盤上的內容已失效??煞裨侔l一次:3200155260@qq.com
求一份敏感詞匯詞庫,634758445@qq.com
很希望能夠參考一下文中提到的敏感詞,網盤過期了,是否能再發一份,感謝了。624136211@qq.com
鏈接: https://pan.baidu.com/s/1min1teo 密碼: u32c
如果還有問題,可以關注我的公眾號,回復“敏感詞”即可
鏈接失效了
哈哈,剛才去公眾號敏感詞庫過期了,我也求一份。留下郵箱號469305929@qq.com
寫的不錯,這個干鍋分享了! ??