互聯網強監管下,如何做好風控?
?最近幾年,網信辦對互聯網行業監管趨嚴,重拳打擊了很多涉政治敏感、黃賭毒以及三俗內容的產品?;ヂ摼W無法外之地,在此背景下,加強公司內容安全管控機制,建立完善的內容審查制度,構建以反垃圾反作弊為核心的風控機制和流程顯得尤為重要。
不重視風控機制的公司,損失慘重:
重則如頭條系的內涵段子直接永久關停,一個擁有2億注冊用戶日活過千萬,估值幾十億的APP,在一紙監管令下灰飛煙滅。如果早點采取風控措施,加強用戶審核和ugc內容審核,或許可以改寫永久關停的命運。
輕則被責令下架整改,封禁賬號:
“2019年4月11日,針對視覺中國網站傳播違法有害信息的情況,天津市互聯網信息辦公室依法約談網站負責人,責令該網站立即停止違法違規行為,全面徹底整改?!薄獊碓矗禾旖蚓W信辦
本文不談視覺中國侵權及商業模式問題,導致監管出手的是傳播違法有害信息,為了文章安全暫不放那幾張敏感侵權照片。
“2019年4月12日,一向受股民喜愛的連股評社區「雪球」APP也無法幸免,APP被多平臺下架整改7天,發帖和評論功能暫停,雖然官方回復是“因系統升級,發帖評論暫停”。
2018年12月以來,國家網信辦會同有關部門,針對涉黃涉賭、惡意程序、違規游戲、不良學習類移動APP開展專項整治行動,關停下架違法違規APP33638款,攔截惡意網站鏈接234萬余個,社交平臺清理低俗不良信息2474萬余條、封禁違規賬號364萬余個,APP亂象得到有效遏制,網絡生態持續向好?!薄獊碓矗壕W信中國
在當前互聯網強監管壓力之下,已經有很多公司重視風控,比如:頭條和快手都擴招了幾千人專門做內容審核,如何有效提升風控水平,降低風控成本,是風控產品經理的新課題。
下面重點聊三個話題:三大風險、兩大審核機制、六大風控產品。
一、三大風險
根據風險標的及場景不同,這類內容型產品的風險主要分為三類:賬號風險、內容風險和數據隱私風險。
1. 賬號風險
主要從虛假用戶識別、惡意注冊以實名認證等維度設計風控策略。
賬戶體系風控是攔截羊毛黨黑產的第一道關口,某些創業公司為刷數據融資,私下里會和羊毛黨串聯起來刷注冊量、刷訂單以及活躍度等指標。這是飲鴆止渴的做法,不在本文討論范圍內。
2. 內容風險
主要從牌照、版權等資質條件,以及文字、圖片以及視頻三大維度的進行風險管控。
傳統媒體從事新聞資訊和視頻節目,需要有《互聯網新聞信息服務許可證》、《網絡視聽節目許可證》等牌照,是否具備相關牌照也是平臺內容風險的一部分。
道路千萬條,合法經營第一條。經過這么多年發展,以頭條和一點資訊為代表的聚合類資訊平臺已經解決了牌照問題,版權問題也不再是障礙。
內容本身的文字、圖片和視頻是風險管控的重點。
以頭條為代表的資訊聚合平臺本身不產生新聞資訊,但是通過算法平臺進行分發觸達消費者,一樣需要承平臺應有的責任。雖然頭條通過收購曲線拿到視頻牌照,解決了牌照風險。但是短視頻爆發得太快,如何在牌照庇護下做好視頻內容管控,是頭條類企業面臨的新課題。
上文中,引發監管出手的主要是內容風險——即APP里出現政治敏感詞匯、黃賭毒或者不當時政新聞內容。
在發展初期,APP用戶少的時候還能進行用戶審查和內容管控,隨著用戶爆發式增長。在推崇算法至上的企業里,天真認為技術是中立的,算法無罪,任由大量黃賭毒垃圾內容飼養算法和用戶,最終走向失控的局面。
在人工智能和算法為王的信息時代,還是要為算法劃一道底線,知道安全邊界在哪里。
同時,「人工」的作用不可小覷,在頭條和快手里出現了很多代表中央聲音的部級媒體大號,ai算法在人的干預下,給與了置頂權限和流量傾斜,以便傳播時代聲音,弘揚社會正能量。
3. 數據和隱私風險
包括爬蟲反作弊機制、數據加密和防黑客攻擊等技術風險防范。
時間回放5年前,頭條剛起來的時候被幾大媒體圍攻,頭條爬蟲無授權抓取其他媒體平臺內容到自家平臺,涉嫌侵權違規。這在一定程度上暴露了傳統媒體對內容信息保護不夠,反爬蟲能力不強的弱點。
網貸市場上有很多針對天貓、京東和點評商戶的貸款產品,這些企業通過爬取天貓、京東和美團的商戶數據去做營銷或者貸款服務,電商平臺的數據反爬機制建設任重道遠。
電商場景的風控除了數據反爬取,更多是營銷風險,以后文章詳細介紹。
最后,用戶在平臺進行注冊填寫了個人信息,平臺有責任保護用戶隱私數據不被泄露,每年網上都有爆出某某平臺用戶數據泄露在黑市交易。在與黑產對抗的過程中,平臺要投入資源加強風控安全體系,做好反爬蟲反作弊措施。
二、兩大審核機制
審核機制包括:系統自動過濾和人工審核兩大模塊。
針對商戶bgc和用戶ugc平臺,首先使用系統自動過濾敏感內容,系統無法有效識別判斷的在進行人工審核,這是常用的用戶和內容審核風控流程。
在UGC機制上, 有以下幾種策略進行風控控制:免登錄發言、注冊登錄后發言、匿名發言、實名認證后發言、賬號粉絲/注冊時間超過一定限制才能發言、專家身份認證后發言、直播聊天室主持人控麥發言等維度。
目前大部分平臺都要求注冊登錄通過手機號認證后發言,手機號注冊通過后,借助運營商渠道完成弱實名認證,這也是視頻、社交類平臺主流的賬號體系實名模式。手機號弱實名認證有很多漏洞,平臺的反作弊風控策略攔截效果一般。
黑產羊毛黨手中專門提供手機號的卡商,貓池卡池養幾千萬張卡,很容易弄到一套低成本的手機號實名信息。網絡水軍和職業差評師是這類黑產卡商的大客戶。地下黑產羊毛黨產業鏈有嚴密的分工流程和組織體系,留在以后文章詳細介紹。
如果涉及交易支付環節,銀行卡四要素實名是安全性更高的實名認證模式,作弊成本比手機號實名高幾倍,但是這只在電商平臺才用得到。ugc類平臺為了降低發帖門檻保證用戶體驗,很少要求強實名認證。
從用戶注冊登錄,到發布新聞資訊、評論和視頻等內容,主要的審核環節包括:昵稱、頭像、實名、ugc產生的資訊文章、鏈接、圖片和視頻。
新聞資訊、評論和視頻點播要求貫徹先審后播的政策。這類產品形態可以執行【事前預防/審核-事中及時阻斷-事后復核追溯】的完整風控流程。
對于直播,只能做到【事中及時阻斷——事后復核追溯】,所以直播類應用面臨的挑戰更大,更需要嚴把主播資質審核關口,避免出現直播中出現「黃鱔門」這種涉黃涉暴力事件,直到輿情爆發直播平臺才后知后覺介入收拾爛攤子。
在審核流程上,有以下幾種風控處理機制:
- 刪除敏感文章、圖片和視頻:常見于很多微信公眾號作者,容易被河蟹。
- 對用戶禁言,禁言時間根據嚴重程度設定:常見于社交平臺和聊天室。
- 永久封禁賬號,銷號處理,對于平臺來說這是比較嚴重的處罰,比如:咪蒙。
- 鏈接屏蔽,比如微信屏蔽抖音和其他一些有風險的短視頻的URL鏈接,對微信來說是一種風險策略。這里不談競爭關系。
三、六大風控產品
面對三大風險和兩大審核機制,需要采用如下六大風控產品:設備指紋、滑塊驗證、實名認證、黑名單庫、敏感詞庫、半監督機器學習算法,共同構建強大的反作弊反垃圾智能風控平臺加以應對。
1. 設備指紋
設備指紋是指:可以用于唯一標識出該設備的設備特征或者獨特的設備標識,可以精準識別設備,識別風險設備,對設備進行聚集性、相似度等綜合分析 。
設備指紋主要包括如下信息:設備IMEI碼、Android_ID、序列號、SIM卡號等,是反作弊反欺詐風控模型的重要變量,這些是暗面數據,不需要用戶填寫即可完成采集。
用戶感知層面,如果在常用手機上開通了支付寶免密支付,正常環境下是可以支持使用的。
如果換一個設備,或者地理環境、網絡環境發生變更后,需要輸入密碼或者手機驗證碼重新進行安全校驗,就是因為設備指紋信息變了,觸發了支付寶風控規則。
2. 滑塊驗證
滑塊驗證屬于驗證碼的一種,是人機識別反作弊的關鍵一環,主要用在新用戶注冊、登錄以及風控引擎判斷為風險操作的環節。
很多政府網站可以免登錄查詢相關數據,比如:企業信用信息公示系統。為了防止被爬蟲大量爬取數據,也會增加驗證碼環節,提高數據爬取成本。
簡單的數字驗證碼、圖形驗證碼容易被爬蟲攻破,前幾年網上比較火的12306的圖形識別驗證碼被很多用戶吐槽難以識別,但也是可以利用深度學習算法破解的。筆者也曾做過相關爬蟲產品,難點在于需要持續維護成本,驗證碼策略變更或者網站改版都需要優化代碼。
目前最難攻破的應該是復雜的滑塊驗證碼,對爬蟲算法要求較高,人工智能投入不劃算。
機智的產品經理想到了最簡單的辦法:人肉破解驗證碼——人工打碼平臺。羊毛黨把需要識別的驗證碼通過api接口傳給打碼平臺,打碼平臺把驗證碼分發給很多網絡上的兼職眾包人員,人工識別出結果后返給羊毛黨,完成了驗證碼的人工破解。
3. 實名認證
實名分為弱實名和強實名,弱實名一般指校驗姓名+身份證號碼,通過運營商手機號驗證即可,此種方案默認運營商已經做過實名。
單獨的姓名+身份證號碼一致性校驗,接口成本不到1毛錢,市場上比較通同的是國政通。
強實名最常見的就是銀行卡四要素校驗:姓名+身份證號碼+銀行卡號+銀行預留手機號,通過綁卡即可完成實名認證,校驗要素越多,實名認證約可靠,因為提高了羊毛黨作弊成本。
除了自然人實名,很多有商戶入駐的平臺還有企業實名,比如:天貓京東的第三方pop商戶入駐。
五證合一后,企業實名主要校驗三證:工商營業執照、稅務登記證、組織機構代碼證。
同時,為了確保安全,可以要求企業上傳銀行開戶許可證、法人身份證件等信息作為增信資料。三證合一換領了統一社會信用代碼證的,校驗統一社會信用代碼和企業名稱、法人姓名以及法人身份證號是否一致,即企業四要素驗證。
市面上很多這樣的校驗接口,在京東萬象數據超市可以找到,成本比個人實名貴,企業四要素接口大概一塊錢一次。
4. 黑名單
黑名單是比較常見的風控產品,具體細分類型有:失信名單、金融疑似欺詐、信貸不良、多頭申請和地址黑名單等維度??梢苑e累自身數據源,加上市面上第三方提供的黑名單數據,做多重驗證。
對于內容型產品,主要用于在賬號注冊環節,可以根據手機號、身份證號碼、以及設備id維度交叉驗證查詢黑名單,在源頭自動攔截羊毛黨黑產入駐。
5. 敏感詞庫
敏感詞庫用于過濾ugc內容,通過NLP自然語言分析是否有敏感內容,實現系統自動過濾,主要針對文字內容。
如果為了防止誤殺,還可以在敏感詞上面加一層過濾詞,命中敏感詞的系統自動刪除。
命中過濾詞的做風險提示,有人工介入處理決定是否刪除。對于重視評論和發帖的論壇,封殺風控策略過嚴會影響某些部門的KPI完成。
對于圖片形式的過濾,比如:頭像,以及視覺中國事件里,創始人柴繼軍回應的圖片上傳審核有問題,可以使用ocr識別技術自動識別圖片內容,然后結合機器學習算法和相關數據,判定圖片是否違規。
對于小公司,如果沒有圖像識別開發實力,可以采購圖片鑒黃違規識別接口,單次成本不到一毛錢,為了避免廣告嫌疑,此處不再粘貼接口鏈接地址。
6. 半監督學習算法(Semi-Supervised Learning,簡稱SSL)
隨著人工智能的發展,機器學習算法廣泛應用到智能風控領域。
算法是需要數據飼養的,根據數據樣本是否標記,分為:監督學習、半監督學習和無監督學習三種算法模型。
監督學習數據樣本全部需要人工標注,成本較高并且數據量級有限。無監督學習使用無標注數據樣本進行機器學習,不便于提升學習效果。
人們嘗試將大量的未標注數據樣本加入到有限的有標注數據樣本中一起訓練來進行學習,期望能對學習性能起到改進的作用,由此產生了半監督學習算法SSL。
目前介紹了常用的六個風控產品,在復雜的風控架構里肯定還有很多沒有提到的新產品新技術,后續有新的發現再補上。
反作弊反垃圾風控體系建設是一項長期復雜的工程,風控在強大,也難免有黑產羊毛黨找到漏洞入侵。風控的本質不是要100%消除風險,而是要在一定成本下最大限度控制風險減少損失。
非金融級的風控資源投入取決于每個公司對風險的重視程度,在互聯網強監管時代,很多內容型公司都加大對風控的投入,以降低公司整體運營風險。
后續會推出金融風控產品系列,金融風控無法覆蓋的裂縫,一般通過建立風險保障基金解決盜刷賠付風險問題。
本文由人人都是產品經理專欄作家 @劉國宏(微信公眾號:iwifi) 原創發布于人人都是產品經理 。未經許可,禁止轉載。
題圖來自Unsplash, 基于CC0協議。
- 目前還沒評論,等你發揮!