對于敏感詞過濾,我們只能選擇讓用戶“痛不欲生”嗎?

4 評論 13265 瀏覽 38 收藏 10 分鐘

敏感詞過濾是隨著互聯網社區發展一起發展起來的一種阻止網絡犯罪和網絡暴力的技術手段,通過對可能存在犯罪或網絡暴力可能的關鍵詞進行有針對性的篩查和屏蔽,很多時候我們能夠防患于未然,把后果嚴重的犯罪行為扼殺于萌芽之中。

隨著互聯網社區和UGC應用的不斷發展變化,敏感詞過濾系統也經歷了不斷的發展演進,有如下多種過濾方式:

一、敏感詞替換

敏感詞替換是較早出現的一種敏感詞過濾方式,即系統不會在用戶端進行敏感詞過濾和校驗,而是把這個工作放在數據入庫之前完成,在數據寫入數據庫之前,系統根據已經制定的規則把所有敏感詞替換為設定好的符號或文字,這個過程是不可逆的。

敏感詞替換

這種技術手段對于阻止網絡暴力成效顯著,用戶在閱讀其他人的發布信息時,不會再看到那些刺眼的侮辱性的字眼,但又不會太過于破壞發布者的本意。同時也不會對用戶閱讀造成很大干擾和障礙,尤其是在聊天室或群組等場景中表現優異。

但這種過濾方式仍然可能會對普通用戶造成“隱性騷擾”,因為我們基本可以憑借上下文來基本猜出那些被替換成“***”的本來面目。

二、敏感詞屏蔽

敏感詞屏蔽就是發布的信息里的敏感詞被直接去除,再寫入數據庫,這種方式能最大程度上避免對普通用戶的“隱性騷擾”,但隨之而來的代價就是可能會造成發布信息的可讀性下降,甚至影響到閱讀體驗。

三、用戶端阻止發布

用戶端阻止發布是指系統在用戶發布信息時,對信息進行本地或服務器端敏感詞校驗,一旦發現用戶發布的信息有詞匯符合敏感詞過濾條件,即阻止用戶的發布操作并返回提示信息,提示用戶有敏感詞不符合發布要求,并要求用戶修改自己發布的信息。

這種過濾方式能夠最大程度上降低系統自身的安全風險并顯著降低人工審核的成本,在用戶輸入昵稱,輸入簡單介紹時效果最佳。

短文字用戶端屏蔽敏感詞效果好

四、系統人工審核

在UGC內容不是特別多或搭配AI識別敏感詞的情況下,系統可以允許用戶首先發布自己的信息,再使用AI輔助方式找出存在敏感詞風險的發布信息,由人工進行審核。符合條件或者被“誤傷”者放行,屬于惡意發布信息的則人工刪除并通知發布者。

這是一種對用戶體驗傷害最小的,最人性化的敏感詞過濾方式,但隨之而來的可能也是冷人咋舌的人工成本。

五、“小黑屋”

系統允許用戶發布信息,但用戶發布后使用AI輔助方式找出存在敏感詞風險的發布信息并批量導入“小黑屋”,然后通知發布者進行修改,一直到系統不再提示有敏感詞風險為止。

這種方式能夠保證用戶端發布時的體驗的流暢性,但因為沒有人工審核參與,敏感詞風險通知的發送是異步的。用戶可能在發布后離開應用,過很長時間返回后,發現發布的信息被關入“小黑屋”,還要自己主動排查猜測屏蔽原因,這種挫折感和用戶體驗問題也是非常嚴重的。

六、僅發布者可見

有些UCG社區采用了這種敏感詞風險控制機制,命中了敏感詞的文章或信息,系統暗暗地把信息設置為僅發布者自己可見,而發布者可能還為自己的信息沒有瀏覽和點擊而疑惑不解,這真是讓發布者“死得不明不白”。這種過濾機制真是非常奇葩,但它卻真實地存在很多應用中。

綜上,敏感詞過濾是一種阻止網絡暴力和網絡犯罪的非常有效的手段,但有時候它也會因為其關鍵詞而誤傷用戶,造成一些讓人啼笑皆非的問題,比如下面這個流傳甚廣的段子:

半夜IDC急電,“你的網站有涉嫌的關鍵詞,請立即刪除!”站長立即從被窩里爬起,冒著零下10度的嚴寒上網,找那個違法關鍵詞。最后找到的是這樣一條信息:轉讓一臺獨立服務器。

在用戶發布比較大段的文字或文章時,特別是一些UCG社區。例如美食評論、酒店居住體驗、活動體驗、游記等等,龐大的敏感詞庫+過于苛刻的匹配規則+用戶端阻止發布就可能會誤傷到普通用戶,對普通用戶的使用體驗造成嚴重傷害。

而且隨著各應用的系統不斷改進升級和擴充自己的敏感詞庫,惡意發布者的規避敏感詞過濾的手段也在不斷升級進步,特別是在缺少人工審核的情況下,發布者很容易就可以通過某些技術手段,如加密、替換字符、諧音字、同義字來規避這種過濾。

這是一場沒有硝煙的戰爭,這是一種無聲的軍備競賽,系統和惡意發布者之間相互博弈,最后造成的結果就是——關鍵詞庫越來越龐大,龐大到已經干擾到了普通用戶正常發布UGC內容的程度了。

我有個朋友就是這種軍備競賽的犧牲者,她在忍無可忍的情況下在朋友圈發布了這樣的動態:

“敏感詞”讓用戶猜不透

她在口碑上想要發布自己的美食分享,但系統總是提示有敏感詞,但敏感詞是什么?系統卻又不告訴她,最后她憑著自己的不懈努力,終于發現是這個美食店的一款【法式禽獸漢堡】里的“禽獸”二字命中了敏感詞庫,所以被阻止發布。

而我自己也曾經多次在不同的UCG社區碰到過類似問題,特別是在移動端,這種敏感詞過濾機制簡直是“反人類”的“劣幣驅逐良幣”過濾機制。

因為優質用戶才會輸入較長的文字信息,又因為文字信息很長,導致命中敏感詞的風險急劇上升,而又因為文字信息很長,導致排查敏感字非常困難。

查理芒格曾說“如果你告訴我將會死在哪個地方,我以后就絕對不會去那兒”,但這些系統卻絕口不提我們會死在哪兒,讓我們沒有目標地瞎轉亂撞。很多時候,精疲力盡的用戶會選擇放棄發布信息,甚至進而影響它對整個應用的使用體驗,從而放棄整個應用。

我曾經在一個書評應用上發布一篇讀后感時,被系統冰冷地提示“不符合發布要求”。為了找出那個該死的敏感詞,把所有的文字全選拷貝放到編輯軟件里,然后一段一段拷貝到書評應用中。等我嘗試到第3段時,系統冷冷地提示我:“您已保存提交太多次,請休息一會兒”,那一刻,我確定我是崩潰的。

所以,系統在設計敏感詞過濾體系的時候,肯定是要綜合考慮公司將會付出的成本和用戶體驗。但如果單純為了成本和審核等級考慮,而把所有的風險和責任都推到用戶這一邊,我不認為這是一種明智的做法。

 

作者:希楽堂

來源:https://www.jianshu.com/p/ba3883e9b7ff

本文由 @希楽堂 授權發布于人人都是產品經理,未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 口口聲聲喊著大力支持互聯網產業發展,扶持文創企業。然后四處設障挖坑,讓你寸步難行,自生自滅。這就是這個時代的“偉大”之處。

    來自山東 回復
  2. 若想留存用戶,不能讓用戶止步于第一關卡 – 敏感字過濾。

    來自上海 回復
  3. 所以大廠都是人工審核

    來自北京 回復
  4. 但還是沒有比較完美的解決辦法,越來越多社交軟件因此被下架。

    來自北京 回復