亚洲一区二区精品,亚洲精品nv久久久久久久久久,av人摸人人人澡人人超碰

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

內容消費-如何進行敏感詞屏蔽

一只不卷產品喵

2016-10-19

39 評論 57007 瀏覽 126 收藏

9 分鐘

最近對直播比較感興趣，被問到一個問題——如何屏蔽彈幕中的不良內容？于是便有了如下的學習內容。

一、什么是敏感詞匯？

1.分類

敏感詞可大致分為以下幾類：政治相關和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時事類、廣告和非法信息、其他類。

網上有很多專門的敏感詞庫，我在網盤里上傳了一份名為百度內部的敏感詞文件，僅供查看https://pan.baidu.com/s/1o8xtX1K。

2.常出沒的地方

所有傳播的信息都需要。發送這些垃圾信息的人或者團隊被稱為“垃圾蟲”。

敏感詞不僅出現在社區論壇、IM聊天、影音娛樂等內部的評論或上傳信息區域，還隱藏在頭像、昵稱和簽名這種地方，需要全面鑒別。

3.哪些地方需要屏蔽？

平常我們主要做的屏蔽是廣告過濾、黃賭毒、暴力恐怖、謠言排查等幾種。不同的場合屏蔽的級別不同，而且基于傳播時效性的不同，屏蔽方式分為同步過濾和異步召回。

比如微博的屏蔽就需要做到基礎和全面，甚至一些時事熱點也要納入屏蔽范圍。

再比如B站，為了保持彈幕的質量，它還需要屏蔽一些刷屏的、內容尷尬的彈幕，這些彈幕的內容不算敏感，只是讓人不喜歡。B站在彈幕方面算是鼻祖，做到了極致——用戶可以根據顏色、字體大小、展示方式甚至自定義的文本來進行屏蔽，同時，在視頻右邊還有專門的彈幕欄，也就是說，我可以彈幕內容當做評論一條條地看而不受其干擾。如圖所示：

屏幕快照 2016-10-18 21.28.45

二、目前有哪些手段可以進行屏蔽？

綜合說來，技術屏蔽手段主要通過特征庫、語義分析、機器學習等方法來展開。網易易盾上是分三類來寫的：垃圾發現、垃圾識別、垃圾處理，有點表意不明，所以下面具體來介紹一下。（以下綜合易盾和joylnwang的博客整理而成。）

1.垃圾發現——針對新垃圾

①用戶舉報：主要是指用戶在使用產品過程中遇到不良信息，于是進行投訴。

為了保證投訴的效果，我們需要在舉報的便捷性、顯眼展示和獎勵機制上花一些功夫去做，同時還需要建立科學的舉報分類，不僅方便用戶選擇，還能極大地幫助反垃圾訓練特征樣本，綜合來做才能有更好的效果。

②內容聚合：主要是通過判斷內容的相似性，從而確定是否為垃圾信息。

就文本來說，其相似度分為兩個層面，第一是基于編輯距離的文本相似度計算，這種算法是根據一段文字如何經過增刪、移動而轉化為另一段文字的操作步數，來計算兩段文字的相似程度，運算的時間和空間復雜度都很高，對于評論，標題這樣的短文本往往能獲得不錯的效果，缺點是對長文本不太適用，且沒有考慮文本中意群的重要性。

第二是需要在原始文本中切分出有意義的Term，然后對于兩篇文章的Term集合，運算得出文本的相似程度。復雜性上要高于前者，但在處理長文本的方面有優勢，而且更有可能從意義的角度識別出相似的文本族（來源于http://blog.csdn.net/joylnwang/article/details/6831565）。

③蜜罐系統：主要是針對專業的垃圾蟲團體。

通常垃圾蟲都有特定的工具協助，而這些工具大多會分析頁面元素并進行調用。如果在頁面中埋伏一些“蜜罐”，正常的用戶無法看到這些入口，但是程序會直接調用這些入口進行垃圾信息發送。比如某一些隱藏的評論主題，只有程序才會去抓取這些主題并對它們發送垃圾信息。那么進了這些“蜜罐”里的人，都可以被判斷為非正常的用戶。

2.垃圾識別

①特征匹配：主要是基于已有垃圾特征進行匹配。

對文本來說，建立敏感詞庫就可以直接屏蔽相關詞句，同時，對于文字的變種比如簡轉繁、加空格、形近字、音近字，都可以有效識別。

對圖片來說，主要是MD5，魯棒哈希，Sift特征識別等手段。對于音頻和視頻也支持MD5匹配。（原諒我實在不能理清后面幾種手段的具體技術實現，不能展開講，有興趣的可以百度。）總之，這幾種手段可以支持人像識別、動漫識別、相似匹配、圖片旋轉裁剪、改變亮度色調、水印識別等，基本囊括了所有的不良圖片。

②模型匹配：主要是基于機器學習，可以在沒有具體特征樣本庫的情況下識別內容的分類。

音頻文件也通過大量語料學習能把語音轉換成文本，然后進入文本匹配過程。視頻則通過截圖的方式轉換成為圖片識別。

③規則匹配：即模式匹配，分為正則表達式、多模式匹配算法、基于元數據的定制等。

百度給的定義是：模式匹配是數據結構中字符串的一種基本運算，給定一個子串，要求在某個字符串中找出與該子串相同的所有子串。比如自定義規則：同IP下5分鐘內發送內容相似度超80%的封禁1小時。

3.垃圾處理

①基礎處理：刪除內容，封禁內容，封禁用戶，刪除用戶，封禁IP，封禁設備等常規手段

②隱蔽操作：普通的屏蔽操作容易被垃圾蟲感知，當他們發現被屏蔽時，會想辦法來“破解”反垃圾。故需要進行隱蔽，比較常見的做法有：垃圾發送接口返回成功，但實際僅用戶自己可見。

比如直播中的彈幕，進行虛擬展示，僅用戶自己可見，其他人都看不到。

③后續操作：每天把刪除的垃圾內容匯總到內部分揀平臺，由專業人員進行分析和對數據的分揀標記，完成各種模型以及規則的升級。

4.介紹一種常用常見的屏蔽工具——Adblock

Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome瀏覽器所使用的擴展。

Adblock允許用戶攔截廣告在內的各種頁面元素，并使這些內容不被下載和顯示。右鍵單擊一個條幅廣告，在上下文菜單中選擇“Adblock”，它就再也不會被載入了；或者在側欄打開 Adblock Plus 查看頁面的所有元素，然后選擇阻止條幅廣告。您可以在過濾器中使用通配符或正則表達式來阻擋所有廣告。

以上內容可解決大部分的敏感內容屏蔽問題，如有疑議，請在評論區回復，歡迎一起探討~

本文由 @小喬（微信公眾號：蕎麥長長）原創發布于人人都是產品經理。未經許可，禁止轉載。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

一只不卷產品喵

滴滴高級產品經理

10篇作品 410157總閱讀量

RBAC模型在體驗設計中的應用

09-121098 瀏覽

為啥微信「小綠書」威脅不到小紅書，從如何分析一個內容平臺說起

08-155693 瀏覽

后端產品經理都在服務些什么人？

12-19778 瀏覽

創業60天復盤，我們有這3點收獲

09-263096 瀏覽

一級戰略升級后，1688的低價“大錘”揮向何方？

11-172063 瀏覽

評論

汪仔4742

大佬，請求一份敏感詞庫。1208448620@qq.com，非常感謝~

最近來自北京回復
菌肝兒

請求一份敏感詞庫。1098024397@qq.com，非常感謝~

最近來自四川回復
有錢哥哥

請求一份敏感詞庫。1965602563@qq.com，非常感謝~

最近來自重慶回復
欽晨

請求一份敏感詞庫。pixmy2021@outlook.com，非常感謝~

最近來自廣東回復
Jinling Y

求一份敏感詞匯庫，yujl0985@163.com，感謝感謝~

最近來自上海回復
尤琪

寫的好好！同求一份敏感詞匯庫，感謝感謝啦~！
404272694@qq.com

最近來自廣東回復
蘇蘇大人的小助手

哇，詞庫需求好大，同求一份敏感詞庫，ralvelover@sina.com

最近來自福建回復
robert

求一份敏感詞庫，18301878981@163.com
萬份感謝！！！

最近來自廣東回復
艾哈

求一份敏感詞庫。3102444609@qq.com
勞煩作者，十分感謝！抱拳

最近來自北京回復
汪仔5082

同求一份詞庫。331663325@qq.com
跪謝

最近來自河北回復
大寧

拿什么指標來衡量屏蔽做的好不好？

最近來自北京回復
wudong

求敏感詞庫，y120351949@163.com,謝謝。

最近來自北京回復
亞

求敏感詞庫，ldyweb1603@163.com,謝謝。

最近來自北京回復
汪仔7611

求一份敏感詞匯庫，212607950@qq.com，十分感謝~

最近來自四川回復
草莓不難呢

求一份敏感詞庫，hehailing@jiangxiatech.com

最近來自湖南回復
初出茅廬的原諒帽

支持語音識別嗎

最近回復
清風不識字

求詞庫，qfbsz@126.com

最近來自山東回復
wengege

求一份敏感詞匯庫，yan_li_wen@163.com，感謝感謝~

最近來自上海回復
ezzio

求一份敏感詞匯庫，ioikobe@163.com thx~

最近來自浙江回復
stupidBigb

求一份敏感詞匯庫，490021684@qq.com

最近來自廣東回復
嘟啦

我也想求一份敏感詞匯庫，huangruili_job@163.com

最近來自北京回復
yaphtone

超你媽

最近來自上海回復
辣大辣條

您好，求一份敏感詞匯詞庫，1290120581@qq.com

最近來自湖北回復
愛你的慧姐

網盤內容被關了，求郵件發送：1849457840@qq.com

最近來自上海回復
一只不卷產品喵作者

有同學幫忙找到了，如果有人需要的話，關注我的公眾號留言下，郵箱留下，我發給你~~

最近來自北京回復
1. 蘇寧回復一只不卷產品喵
  
  公眾號里的鏈接也失效了。能用郵箱發一份么？729467728@qq.com
  
  最近來自河南回復
2. Dekker 回復一只不卷產品喵
  
  已留言，感謝感謝，寫得很好哦！
  
  最近來自廣東回復
一只不卷產品喵作者

抱歉，網盤內容被關了。沒備份。

最近回復
瘋_鏡

網盤上的內容已失效?？煞裨侔l一次：3200155260@qq.com

最近來自廣東回復
葡萄皮

求一份敏感詞匯詞庫，634758445@qq.com

最近來自浙江回復
在路上

很希望能夠參考一下文中提到的敏感詞，網盤過期了，是否能再發一份，感謝了。624136211@qq.com

最近來自江蘇回復
1. 一只不卷產品喵作者回復在路上
  
  鏈接: https://pan.baidu.com/s/1min1teo 密碼: u32c
  
  最近來自北京回復
2. 一只不卷產品喵作者回復在路上
  
  如果還有問題，可以關注我的公眾號，回復“敏感詞”即可
  
  最近來自北京回復
3. 鐵珊瑚回復一只不卷產品喵
  
  鏈接失效了
  
  最近來自浙江回復
4. MrSwaim 回復一只不卷產品喵
  
  哈哈，剛才去公眾號敏感詞庫過期了，我也求一份。留下郵箱號469305929@qq.com
  
  最近來自廣東回復
Kevin

寫的不錯，這個干鍋分享了！ ??

最近來自廣東回復