敏感詞運營體系搭建手冊
敏感詞風控策略是風控法體系中最基礎的,但同時也是最繁瑣的。敏感詞運營系統的搭建應該如何做好呢?
基于敏感詞的風控策略是所有風控體系中最基礎的,內容簡單但瑣碎,系統涉及從用戶發布到用戶舉報、命中策略到審核處理、用戶畫像到AI識別等方方面面。
本次系統性的整理總結了工作以來在敏感詞運營系統搭建方面的經驗和想法,作為自我總結回顧的同時,也希望分享出來避免其他同學在敏感詞運營方面少走彎路。
一、產品概述
1.1? 產品背景介紹
敏感詞系統是搜索和內容類產品的基礎風控類系統。本文從詞庫匹配出發,涉及敏感詞添加、命中方式、影響業務和影響用戶等多個維度,全面介紹敏感詞體系搭建的結構和流程。
1.2 產品功能概述
通過本系統可以過濾基礎的文本敏感內容;可以結合業務線靈活掌握敏感詞過濾方式,以及觸及敏感詞的用戶。
1.3 名詞介紹
詞庫:同一類別的敏感詞所組成的一個大類。本文中有四大詞庫(紅線詞庫、敏感詞庫、危險詞庫),每一個詞庫中有三級分類。
詞過濾:針對搜索業務,對搜索詞直接過濾。
結果過濾:針對命中敏感詞的結果直接過濾。
二、使用場景
敏感詞系統最基本的功能有匹配詞庫就足夠,但是面對越來越多的越來越復雜的產品形態,單一的敏感詞系統使用場景的問題基本有以下四類:
場景一:A產品要小規模內測上線,產品中的評論功能需要接入最基本的敏感詞控制風險,但是面對運營的詞庫找不到哪些屬于“基本”敏感詞;
場景二:B產品被用戶反饋有低俗色情內容,但敏感詞明明已經添加過了,經檢查發現該敏感詞只管控了甲業務,新上的乙業務沒有添加管控而被用戶投訴;
場景三:C產品被老大反饋自己發表的評論消失了,開發查到是命中了敏感詞導致找到了運營,但運營認為這個詞字面上看確實有問題,可說不出添加依據;
場景四:及時手握大量敏感詞,但依舊依靠人工排查來擴充詞庫,費時費力;
因此,在本系統會嘗試解決以上四類問題。
三、產品需求
1. 核心路徑
用戶:輸入/發布–>敏感詞檢測–>過濾–>結果展示;
運營:發現敏感詞–>評估–>添加–>處理被過濾內容。
2. 模塊結構
3. 功能樹
系統以詞庫為基礎,將敏感詞根據重要程度不同,區分不同類別,如紅線類別,敏感類別,危險類別等等,不同類別結合用戶維度和地域維度,正則匹配或精確匹配等不同匹配方式,作用于不同業務,產生不同效果。
4. 頁面結構
5. 原型設計
5.1 策略配置
背景功能:詞庫和業務結合??刂朴绊懛绞剑ㄔ~過濾或結果過濾),控制持續時間,控制狀態(生效或者是下線),掌握策略召回的數量,并可將策略召回的內容進行處理。
頁面說明:策略管理頁可直接配置管控策略。例如在紅線詞庫中,添加二級類別為“低俗色情”,選擇該類別下所有的三級類別“all”,選擇需要管控的業務如一級業務“搜索”,其下所有二級業務,選擇影響方式和持續時間,則達到效果為:
“在搜索下的所有業務,都被紅線詞庫-低俗色情類別敏感詞所影響,影響方式為在搜索該詞時就被影響,且為永久影響狀態”。
策略配置所需要的其他部件添加或者修改則在業務管控和詞庫管理進行。
原型演示:
5.2 詞庫管理
背景功能:添加敏感詞,控制該詞所屬詞庫,并在添加時可看到召回量,抽樣評估后得到攔截準確率。
頁面說明:敏感詞添加可直接批量添加多詞,并初步依靠字面意義判斷所屬詞庫,然后評估召回量和隨機樣本,給出是否需要生效,以及確認所屬詞庫。
隨機樣本抽取數量和方式可在“樣本設置”進行,命中準確率評估可在“敏感詞評估”進行。
原型演示:
5.3 用戶配置
背景功能:將用戶與敏感詞、業務、地域三種維度結合。
頁面說明:敏命中策略指“策略配置”頁的策略,可看到被該策略召回的用戶數,點擊“處理”可跳轉至“內容處理”頁面進行處理。
原型演示:
5.4 內容處理
背景功能:對命中策略的業務或用戶做處理。
頁面說明:時間指該策略生效的時間,可在該頁面完成增量和存量內容的處理。
原型演示:
5.5 數據統計
背景功能:從策略維度、詞庫維度、用戶維度和處理維度做出數據統計。
頁面說明:報表形式給出
原型演示:
四、未來規劃
互聯網面前人人平等,因此人們可以非常輕易的暴露自己黑暗的一面。
為了避免其他用戶看到、接觸到、受到這些黑暗信息的影響,敏感詞系統應運而生。這不僅承擔著為產品過濾基礎風險的功能,同時作為基礎系統承擔著為公眾提供一個天朗氣清的網絡環境的作用,因此敏感詞系統也需要不斷的優化和改進:
- 利用AI技術增強語義識別功能,擴充添加渠道,及時發現及時處理;
- 敏感詞系統和輿情系統結合,成為負面輿情控制和處理的強大工具。
本文由 @禿頭少女 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
有線上原型看看嗎
看了一眼我司的產品,默默的拿起了板磚…
另外:惡魔寶寶哈哈哈好可愛
紅線類別,敏感類別,危險類別等等,不同類別結合用戶維度和地域維度,正則匹配或精確匹配等不同匹配方式,作用于不同業務,產生不同效果。
能夠介紹下各有哪些效果呢?
你好,我想請問一下,召回得作用是什么?
在原型圖中,有點沒看明白,“詞庫”里的分詞庫,和“二級類別”本質區別是啥
同問,往詞庫添加內容是,直接用‘業務’就行了吧。選擇一級業務(大的方向)、然后再選二級和三級的細分業務。
于細微處見真章,受教了。。。公司現階段正好準備做這方面的功能,方便留個聯系方式嗎?
加公眾號:惡魔寶寶,留言給我就好
請問你們公司的敏感詞需要審核嘛?
你是指審核敏感詞?還是審核內容是否有敏感信息?
審核敏感詞,不是審核內容。當業務人員添加一個敏感詞的時候,是否需要審核后再生效呢?
審核需要大數據+人工評估準確率,僅僅人工審核是不夠的哦
?? 請問大詞庫與業務詞庫間的同步是怎么做的呢?
結構上業務詞庫是大詞庫的子集,后端實現上可以給詞庫編號或者其他方法吧,不了解后端實現呢
原型能給發一下參考嗎 ??
我有放在云盤里
加公眾號:惡魔寶寶 拿密碼
寫的不錯
謝謝
這樣一個后臺正常情況下的工期是多久呢?
哈哈哈 基礎詞庫過濾很簡單的 一個后端一下午就能搞定
但是要做到運營能使用并且數據透明化 那工作量就大了 兩三個人估計要小一個月
這是什么軟件啊
原型用AXURE做的
動圖用LICEcap做的
很詳細
謝謝
原型演示用的是什么軟件?。?/p>
原型用AXURE做的
動圖用LICEcap做的