一條風控策略的生命周期
在進行內容治理時,我們需要考慮需要治理的對象及其方式,本文從12個維度出發,談談上線一條策略、一條規則的完整流程,希望對你有所幫助。
本文基于智能驗證碼和延時審核的背景,聊聊上線一條策略、一條規則的完整流程,本文目錄如下圖。
這是一本書中的一個規則挖掘流程,下文的流程可以理解為這個流程的完整版,在他的基礎上有一些補充。
一、價值觀
1. 業務類
不管是內容治理還是業務治理,第一步要確定的是,我們需要治理什么。不同公司業務不同,在業務側需要治理的內容也大不相同。
例如美團點評可能需要治理虛假評價、惡意差評等公信力問題。只有真實、對用戶有幫助的內容才能留得住用戶的信任,下圖來自美團在拉勾的招聘要求。
例如微博可能需要在各個環節控制不良內容的產生和消費。
例如知乎可能需要治理不友善、抄襲、男女權等氛圍向的內容。
在 58 同城社區模塊,則需要能夠提升用戶對業務認知,及能夠提升留存的內容。所以相應的需要治理掉虛假信息、低質內容、重復內容、改寫抄襲、水帖等。
2. 底線類
對于底線類的內容各公司相差不會太大,都是來自外部倒逼的治理:指令、輿情。
1.2 1 指令
指令有兩種,第一種是國家部門公開發布的清查、政治指令。這類指令一般描述得較為抽象和寬泛,需要專業的政府關系部門和風控部門共同進行研判解讀后,基于平臺定位制定具體的執行范圍和方向。
比如:6 月 15 日,中央網信辦宣布在全國范圍內開展“清朗·‘飯圈’亂象整治”專項行動。豆瓣開始對違規賬號、問題小組等進行刪除和解散,愛奇藝對集資、打榜徹底“自查自糾”。
另一種是國家部門直接給企業下達的查殺的指令,比如互聯網舉報中心收到 xx 舉報,命令平臺處理,這類指令必須執行。
1.2.2 輿情
輿情一般指用戶或媒體在站外對平臺出現的內容進行負面評價,并達到一定傳播量,如果不及時處理,可能對平臺品牌形象、聲譽有惡劣影響。官媒發出的負面評價,嚴肅程度不亞于指令。
比如:9 月末,《新京報》和《央視網》等多家媒體報道了社交媒體的“佛媛”現象,一時間上了熱搜。各個社區在第一時間進行了清查,抖音共處罰利用“佛媛”形象營造人設開展虛假營銷行為相關賬號 48 個,其中永久封禁賬號 7 個,同時,清理違規視頻 148 條。小紅書第一時間已啟動專項檢查,清理違規筆記 70 篇,封禁賬號 3 個。
10 月,很多人假期出游后,在社交網絡上吐槽小紅書“濾鏡景點”,一時沖上了熱搜,之后小紅書進行了公開道歉。
對于外部倒逼的指令、輿情,一般由企業內專業的公關部門,政府關系部門進行快速交涉和判斷,給出應對措施到各個部門執行落地,進行生態治理是其中必備的措施之一。
二、如何發現未發現的問題
需要治理的問題可以分為兩類,一類是已知的問題,我們知道這個問題存在,只是考慮如何更好的識別、如何識別變形、如何引導用戶不發違規內容、需要治理到什么程度、如何處罰、如何教育等,例如治理重復內容、改寫內容。
但還有一類是,我們不需要的內容,但是我們當前并未發現這個這個問題,如何才能更好的發現這個問題。例如我們最近治理過的一類型問題,雖然在寫自己經歷,但我們分析后發現這類型帖子極易出現詐騙行為。這類型就屬于之前未關注到,但很明確這類型類容是我們不需要的,需要新發現這個問題。
我們常用的幾種發現未發現的問題包括:
- 監控體系/預警體系:通過對某些核心指標的監控,例如提現金額、發帖頻率、發帖量、頻繁切換賬號等的監控,如果指標出現異常,則去排查相應的問題,順藤摸瓜可能又會挖出一系列黑產。
- 離線數據分析:定期或非定期的分析歷史數據,也可以發現一些未發現的問題。例如我們曾分析歷史數據發現有一批用戶從 5 月份開始,頻繁的在評論中發布「新年快樂」相關內容,經分析,發現是一個哈爾濱的黑產團隊。
- 臥底在黑產群內:平時多關注黑產作弊方式,臥底在相應群內,及時發現新型違規方式,然后再回來完善自己產品的風控體系。
- 用戶反饋:時常關注用戶反饋,從用戶反饋中發現平臺方未關注到的問題。
- 舉報:也算是用戶反饋的一種。
建立審核團隊反饋 case 流程:平臺人員很清楚知道哪些是需要的內容,哪些是不需要的內容,但見的 case 一定沒有審核人員多。審核人員見過足夠多的 case,但是規則未包含的內容他們并不清楚哪些是不需要的。雙方各有優劣勢,所以可以將平臺的價值觀,即第一步的問題也同步到審核團隊,他們可以把規則暫時未包含到的,但是他們覺得可能不需要的 case 提供給平臺人員,即可發現某些不知道的問題。
每日瀏覽社區:是對上一步的補充,既然平臺人員對 case 了解的不夠多,那就去加強了解。
建立紅線內容快速反應流程:這個主要是針對一些緊急的輿情事件,例如李易峰事件、唐山打人事件等(這兩個案例雖說常遇到,但比較輕,平時需要處理的更多是更緊急更嚴重的不適合在公眾號舉例的輿情事件,會被刪文)。
除了上面提到的,還有其他還未成方法論的方式,只是偶爾用來發現問題。
發現問題后需要對問題有個初步評估,這個問題的嚴重性、涉及量、如果治理對業務的影響、需要多大成本來治理等,此時需要有個大概預估。
例如涉黃、詐騙、危害青少年的內容,可能占比很低,也很不好識別,但結果很嚴重,所以必須得解決。
例如發帖時很多內容使用相同圖片,對消費用戶體感不好,量級可能也大,但是影響程度較輕,且可通過降權分發,或分發打散,只需要不讓同一個人看到相同圖片即可,所以可不治理,或優先級很低。
三、收集樣本
不管是已知的問題,還是新發現的問題,在制定規則、策略前,都需要大量的樣本,而根據不同問題類型可能會有不同的收集樣本,例如:
巡檢團隊提供,把篩選樣本標準給到巡檢團隊,找出更多樣本。不同公司也可能是標注、質檢、審核團隊,也有可能是產品自己來篩選。
自己跑 SQL,如果有可量化的標準,即自己就可初篩樣本。例如滿足最近 3 天發帖量 ≥20 & 所發帖觸發 ≥3 個不同職業標簽 & 注冊時間晚于 2022 年 1 月 1 日。
四、特征分析
這一步得有點刨根問底,順藤摸瓜的精神,以及對數據敏感性、對業務足夠理解、對用戶足夠理解。所以,雖然是屬于數據分析范疇,但產品往往會比數據分析做得更好。
這一步能說出來的方法論屬于流程性的,不具有實際操作性,具有實操性的又沒有固定的方法論,我以兩個案例來講是咋做的吧。
1. 案例一,多設備多賬號
問題介紹,我們通過知識圖譜發現部分賬號和設備之間存在關聯關系,例如同一個賬號短時間內在多個設備上登錄過,同一個設備短時間內登錄過多個賬號,且他們相互之間還存在金額轉移行為、帖子內容質量低、抄襲、大量刪帖等問題。
注:下面案例中所涉及數字,并非我做分析時實際取的數字,為了公司策略安全,下面數字我隨意寫的,可根據自己產品實際情況做調整。
具體分析這個問題,我們就取最近 3 個月內,同一個設備上登錄 ≥5 個 uid,及同一個 uid 在≥3 個設備上登錄過,兩個條件作為兩個問題單獨分析。
先針對同設備商登錄多個 uid 這個問題,具體分析時需注意:
做好用戶分群:按登錄 uid 數量做用戶分層,例如 ≥20 個,10-20 個,5-10 個。
結合其他數據:針對這三個用戶群再看對應的金額轉移情況,以及內容違規情況。最終會形成一個矩陣,類似 RFM 模型中的矩陣。
例如一段時間內同一個設備上登錄 uid 數量 5-10 個,則金額轉移違規的概率 17%,內容違規的概率 27%。
例如一段時間內同一個設備上登錄 uid 數量≥20 個,則金額轉移違規的概率 93%,內容違規的概率 73%。
例如一段時間內同一個設備上登錄 uid 數量 5-10 個,但是這部分 uid 有 37%的 uid 在同一段時間內在≥3 個設備上登錄過。
給不同處罰:結合上面矩陣,根據不同嚴重情況基于用戶不同處罰。例如違規嚴重且識別準確,則直接拉黑。違規不嚴重但識別準確,則限制功能。違規嚴重但識別不準確,則送人審。這里所說的「嚴重、不嚴重」「準確、不準確」,都是在數據分析的結果下有確定的數值的。
2. 案例二,信用卡詐騙規則
提供篩選規則給巡檢團隊,他們在一定范圍內的內容中篩選出 xx 條可能有問題的內容給我,我在通過瀏覽分析出其中的特性,再針對特性做一些延展,例如包含追債、網貸、催更等關鍵詞,圖片包含手寫、聊天截圖、蓋章合同簽字、信用卡相關的海報等。
下一步制定規則時就會根據這些特定,并再做一些拓展即可(MECE 原則)制定規則。
在排查他們的其他行為,以及內容,是否存在比較高概率也存在相同問題,先接受些誤傷,在支持用戶做申訴。
五、制定策略/規則/模型
在分析出一些特征后,我可能會通過規則、策略、模型來解決。
1. 策略/規則/模型之間的關系
策略:通常指機審的策略,例如最常見的觸發某些關鍵詞就不通過。
規則:通常指人審的規則,作為策略的補充,包含部分策略,但又無法完全包含策略,他們是下圖的關系。
機審策略有,人審規則無。例如針對識別重復文本,需要和歷史庫內進行對比,人工則不可能做到這件事。
機審策略有,人審規則有。例如針對男子裸露上體,策略不一定能夠很準確,如果漏過,則需要人審時識別出來。
機審策略無,人審規則有。例如以語氣助詞出現的不文明用語,如:
他們的看老子穿裙子還叫老子爬樹(語氣助詞)
可能基于成本,或算法成熟度等原因,會把某些規則僅讓人工來識別,之后可能逐漸的也會替換成機器識別。
模型:模型可以是作為策略的一個工具,例如我們需要根據帖子和話題相關度來決定帖子是否需要獎勵,或者是否需要分發,可能就會開發一個相關度模型,根據相關度不同,配置不同的策略處理方式。也可以將多條策略融合之后開發的模型,直接用于對內容的判斷。注:不要一味地相信模型,模型可解釋性遠低于策略,開發周期長,效果不一定比簡單配置一條策略好。
2. 策略篩選用戶
做策略則是一個不停地切蛋糕的過程,而使用的刀便是由用戶特征組成的規則,5.2 下面內容來自知乎。
5.2.1 用戶情況
5.2.2 策略方法一:單規則變量刀
單變量組成的規則,就是一把切出頭的刀,一切到底。
一刀切當然是不夠的,我們需要多切幾刀。
通過上面兩刀我們留在中間的用戶,只有兩個壞用戶,壞賬率控制在了 15%。通過率則到了。
5.2.3 策略方法二:多變量規則刀
單變量規則刀切的顆粒度刀,對于變量要求高,一刀切就怕切大了。所以,從維度上看,可以用多個維度的變量去切樣本,例如二變量。二變量的刀便成為了矩形刀。
多變量能夠把區域區分得更加細膩,如上圖按面積計算的通過率就提升了。
5.2.4 策略方法三:模型透視鏡
嘗試完各種初級變量刀之后,就可以將模型透視鏡引入了。模型透視鏡的作用不在于切,而在于給凌亂不堪的樣本帶來秩序 – 排序能力。
在用了模型透視鏡之后,再配合變量刀就容易得多了。
5.2.5 策略方法四:用戶分層刀
以上的方法都是基于一塊蛋糕來操作的,在原有的基礎上不斷的切:所有人都被切了同樣的刀。但是,我們有時候可能想做得更加細膩一些,商品推薦有千人千面,策略當然也能做。這時候就需要用用戶分層刀了。
用戶分層刀將一個蛋糕變成了兩塊,兩塊分別過刀。
有了不同的分群,我們再來一個個多刀。
當然實際中策略同學還有更多的方法,我羅列了幾種常見武器。探索最佳策略的過程,也是不斷挑選武器,不斷嘗試應用武器的過程。
3. 策略處理方式
通過上一步篩選出用戶或內容或行為,或其他任何東西。我們還需要對不同場景、不同類型、不同嚴重程度、不同用戶分群等等等基于不同的處罰??赡苁遣煌ㄟ^、可能是封號、可能是做挑戰、可能是送人審等。隨著業務發展,策略和處理方式都會逐漸的精細化。
4. 制定規則/策略注意點
5.4.1 豐富性
策略多樣:審核標準的落地應在視頻、?頻、?本、圖?、直播等不同內容形態下具備靈活性,滿?內容安全的前提下還要符合不同產品形態、內容形態的傳播特點。
避免?硬:審核標準要能最?限度保護內容、尤其是優質創作者的內容,審核標準的?不?是為了規避?險,也要充分滿?平臺的發展需要;規則上不應該只有刪除和通過,也應包含提醒、退回、限制、分地區等等多種策略。
5.4.2 前瞻性
前瞻視?:審核標準的制定應盡量前置于?險的發?,這也需要制定者有豐富的業務經驗與?險意識;
舉一反三:出現一個問題,需梳理出同類型的問題一并制定規則。
發展眼光:審核標準應盡量???遠并能持續執?,避免頻繁改動,這樣會過于消耗業務資源、同時也會影響執?效果。
5.4.3 清晰易懂,主要針對人審規則
條款清晰:審核標準的撰寫要措辭準確、??簡潔,對于操作者也要便于理解、便于操作,忌諱晦澀難懂與執?脫節。
案例得當:除?字規則外,需要搭配適當案例?便理解與對標實操。
5.4.4 易于執行,主要針對人審規則
換位思考:審核標準不是為了有?有,應本著?便執?的原則,?條審核標準要輻射到?百、上千名審核同學,應有敬畏之?,換位思考,制定過程要始終站位落地層?。
操作便捷:審核標準不僅僅是紙?上的?字,應充分考慮執?的便捷性、判斷的準確性。
例如,我們需要治理虛假信息,不能說看起來像假的,或者在你的價值觀中是假的,得細分場景,例如對于曬工資,對于滴滴司機/外賣員/快遞員崗位,若月薪≥一定值,則認為這是條虛假信息。因為有行業數據,行業內只有不到 x%的人高于這個數值,我們接受這個誤傷,并且針對這個誤傷我們也不是直接干掉,給他的處罰只是不分發而已。
例如,我們某條規則針對嬰兒不執行,規則描述中不能說嬰兒或 1 歲以下的人,因為審核人員無法判斷。可以用他身上的某些標志,例如還不能走路的小孩。
5.4.5 注意誤傷
制定一個策略時,需注意可能的誤傷,如果誤傷量級過大,會影響業務。
5.4.5 做好平衡
例如我們有一個安保方案,監管讓我們在某些特殊時期,針對某些類型賬號不允許發布內容,發現對業務的流量影響過大,我們會設置更嚴格的策略,以確保在安全的前提下盡量小的對業務造成影響。
例如我們一個策略,觸發「xxx」相關的某些內容刪除,因為容易存在風險,且對應內容對業務無價值,所以在用用戶無感知的前提下,內容有些誤傷也沒關系。
六、預上線
從嚴謹流程上來說,一條策略不允許直接上線,都得先經過預上線,觀察一段時間數據,然后優化,根據預上線的數據優化后再上線。即使非常緊急,也只是縮短預上線觀察數據的時間而已。
預上線定義:讓策略空跑一段時間,只需知道哪些用戶、哪些設備、哪些內容等觸發了策略,但并不實際對他們造成處罰。
在預上線之后可以對策略分為兩種類型,看是否會對用戶行為鏈路受影響。
如果風控的動作會導致用戶的行為鏈路受影響,建議進行 ABtest,例如處罰后就會出現滑塊驗證。
如果風控的動作對用戶操作無感知,建議染色標記,例如海外 ip 在某些時間段內發的內容在某些場景不分發。
七、評估及調優
我們在各個環節都會存在評估,只是有的時候會嚴謹的基于數據來評估,有的時候會大概預估,這一步是指預上線、ABtest、染色標記后,需觀察數據做好評估,以及調優策略。但這一步所列的評估,也并不一定只在這一步使用,在前面決定要解決這個問題,制定策略時也可能會用到。
常用評估方面包括召回率,準確率,規則穩定性等。
對業務流量的影響,對審核人力的影響,對舉報申訴的影響等。
不同業務可能還會有其他一些關注的指標,例如影響發帖量、影響用戶量、影響頭部用戶量等。甚至還聽說過某公司 Q4 會選擇性把風控放松一些,一方面影響年度目標,一方面影響明年的業務預算,這也是需要評估的方面之一。
指標評估后,會根據對策略的目標決定是否需要調優,若已滿足需求,則可以進入下一階段,策略正式上線。
八、策略正式上線
策略由預上線變為正式上線,在功能上可能只需要在一個 btn 上調整下狀態,但在流程上還有很多事需要做。
1. 上線前做好各方同步
一條新策略上線之前,需要同步到相關的各方。我們業務曾經發生過,策略運營上線一條策略,導致大量內容推到人審,人審出現積壓,然后策略運營和審核主管出現吵架。
2. 繼續觀察數據
當策略穩定后還需要關注一定周期內的數據,例如 1 天,3 天,7 周后的治理效果。這個問題是否在減少,用戶是否會變形方式在違規,是否還有進一步優化空間,有沒有引入新的問題等。
例如不允許發布聯系方式,上線一個治理聯系方式的策略,用戶是否以其他變形的聯系方式在違規,這個都是需要上線后需要相應關注的。
用戶是否有負面反饋,舉報申訴量是否有相應變化,觸發量級是否也預上線時一致。
九、策略監控及優化
在整個風控系統中包括一個子系統「監控預警」,這個系統監控的其中一塊是對策略的監控,包括策略穩定性、召準率等。詳細監控可到那個模塊時再來寫對策略的監控,這里說說日常人工的觀察。
在策略上線后,人工在瀏覽產品時也需要主要相應內容是否又被解決,是否有漏掉,是否有變形。
例如我們曾經有條策略是禁止男子裸露上體,某一天發現海爾兄弟也被審核人員干掉,但這并非我們本意,所以完善規則,這條規則僅針對真人適用。
例如我們曾經有條策略是同一個人發布相同圖片超過一定次數,則后續發包含這張圖片的帖子會有一定處罰,上線后發現誤傷比預上線狀態大,高于預期,所以調整閾值。
例如我們曾經有條策略是不允許多賬號多設備這種行為,策略上線后發現某類特殊人群是有多賬號多設備需求的,且平臺也允許,所以選擇性放過這類人群。
十、策略調整及下線
在不同時間段,或者遇到了某些問題之后,可能會將策略下線及合并。
1. 特殊時期
在某些特殊時期,我們可能會將策略更嚴,例如國慶、七一、春節,以及某些歷史事件日期。
此時策略就會涉及到上下線,例如某些特殊期間,針對不同等級的賬號、不同渠道來源的內容、不同屬性的內容,審核策略會不同。如對于境外 ip 以及中國的某些省份發的內容需要全部經過人審,甚至全部可能全部干掉這些內容。
2. 策略整合及下線
隨著業務發展,策略人員的變動,新開發模型,業務變化等原因。就一定會出現策略逐漸龐大復雜,策略間出現交集、并集,或需要多策略聯動處理,以及一些模型可覆蓋策略,需將策略下線等情況。
此時就需要定期的復盤歷史策略,將需要廢棄的廢棄,多條策略需要合并的做合并。
在新上線一條策略時也需要注意看看是否歷史已有類似策略,是否可以合并到之前的某條策略上。
感觸:雖然上面這樣說,但具體實操時大家往往不敢去干這件事,就像新來的程序員去改老系統的 bug 一樣,看似沒用,但可能導致整個系統崩潰。但為了系統長遠發展,雖然下線、合并策略很麻煩,但這件事依然值得做。
十一、制定策略的經驗
在這一年半時間,我制定過幾百條策略,人審規則也更新了幾十版,踩過一些坑,也總結出一些經驗。
如下經驗主要包括兩部分,我自己總結,及參考網絡上別人的總結但我也有相同感觸。
平衡風險和收益的能力,是風控產品經理非常重要的一個能力。
制定策略,甚至整個防控,多從作弊動機角度考慮,而不只是從識別出違規內容角度考慮。
做治理時不要貪大,一開始就想所有問題都解決,導致工作沒辦法進行。得確定好重點,一個周期內核心解決某幾個問題,制定好指標,制定好衡量標準,飯得一口一口吃,問題得一個一個解決。
建立標準化工作流程,即:策略上線標注流程。一條策略上線是一個很長線程,若沒有一個標準化流程,容易漏掉其中一些步驟。
遇到問題必然先臨時用規則引擎或者離線分析的方法甚至產品的方法打擊一波,而后考慮長期的防御機制。
制定策略通常是先大力出奇跡,然后再逐步優化誤傷,然后逐步轉化為模型。但也看策略邏輯,例如針對大 V,大力出奇跡就直接干掉了 5% 的大 V,可不行。
風控產品自己一定要去做檢測,策略配置人員也是人,也可能出現配置錯誤,不能讓這種錯誤出現在線上用戶反饋了再去排查問題,需要做好驗證。
對模型穩定性、召準率要做好監控,不然哪天模型沒運行了都不知道,我司發生過這事,過了一天多用戶反饋才發現。
堅持低成本、低誤傷、高收益,數據說話的原則。
Spam問題具有時效性,反spam更要快速有效。
不要指望一個策略或一組策略解決所有問題。
勿以善小而不為,當成本也很小的時候,一些收益看起來小的策略,在多個策略綜合起效的時候,也能帶來很大的收益。
十二、內容治理的難點
問題瑣碎、變種多(例如我們在朋友圈、微信群發的各種變形與微信對抗)、對抗性強、問題定義難、競品邏輯隱藏,公開可參考資料少、結果難評估、不易發現不知道的問題、違規無孔不入等等等。
本文由 @Aaron 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
想問一下策略是指的什么,它的呈現方式是啥呀
“做治理時不要貪大,一開始就想所有問題都解決,導致工作沒辦法進行。”認同,不過往往風控體系建立初期,不允許有長時間慢慢解決問題,而要快速獲得各部門的認可,才能生存下去。
為什么發送新年快樂是黑產?沒理解這塊
時間不對,在五六月份大量發布新年快樂屬于水貼用戶,就類似去所有內容下面都回復「紅紅火火恍恍惚惚」帶來的效果一樣
把書分享下?
《智能風控實踐指南——從模型、特征到決策》