數據ETL:反作弊的應用與基礎模型
文章對數據ETL中的反作弊應用進行了簡單的梳理分析,希望通過此文能夠加深你對數據ETL的認識。
一、反作弊作用于哪個階段?
在做反作弊之前,我們要明確整個數據從底層到數據中臺過程中流向是什么樣的。這里,我梳理了一個模型,它可以反映這一過程。
數據從原始采集經過“清洗規范”,會形成“通用數據”,這里會過濾掉異常數據供上層使用。
通用數據會根據業務場景,聚合成符合業務指標計算的數據,即“應用數據”,比如說是“主題場景”的數據?!爸黝}場景”的數據可以是基于大背景的場景(橫向),如:推薦業務場景、搜索業務場景。也可以是垂直到業務線的場景(縱向),如:某項購物時的推薦場景、短視頻搜索的業務場景。這一過程會產生“數據殘渣”,這部分數據是暫時沒有應用場景的數據。
比如,在推薦商品時,你只取了用戶的年齡、性別等作為特征,剩下的用戶姓名這個特征數據在這個場景應用不到,它就成了暫時的“數據殘渣”。不過,你可能在信貸業務場景中使用到這個特征數據(用戶姓名),那種應用場景下它就不是“數據殘渣”。
應用數據只是一個基礎可用的數據集市,還需要經過反作弊系統來過濾掉具體應用場景下的作弊用戶或者設備,形成“業務數據”。
最終,跟進業務需求等制定數據指標、維度等計算邏輯,并在數據中臺形成可視化數據。
綜上,我們可以發現,反作弊是在“應用數據”與“業務數據”之間work的。
二、反作弊基礎模型
1. 通用基礎設備過濾規則
這里面可以是人為設定的一些規則(比如:設備中安裝有淘寶APP版本號大于線上最新版本的用戶都是作弊用戶),也可以是基于經驗總結的設備屬性。舉個例子:
2. 數據分析系統
這里面主要是根據業務場景,分析業務屬性與用戶屬性在結合的過程中產生的作弊用戶。當然,可以通過業務規則或者算法來找出這部分用戶。舉例,在投放廣告時,可以根據用戶的uid、ip等找出這些屬性與某些廣告是否存在強關聯關系,試圖找出用戶有惡意刷廣告的行為。下圖給大家介紹幾個算法以及其應用場景。
3. 評分系統
評分系統也是基于業務場景來制定的規則或算法,從而產生對應的黑名單。比如,在短視頻領域中,可以根據用戶行為畫像和視頻畫像來給視頻或者用戶打分。其主要流程可以參考下圖:
這里面關鍵是如何建立“過濾模型”,由于保密問題,這塊需要大家根據業務場景自行建模。
4. 機器學習系統
這部分沒有什么太多可以分享的,因為市面上機器學習的算法有很多,也很成熟,需要根據業務場景來選模、建模,甚至優化模型等等。
作者:軟院猛哥 ?人人都是產品經理網“萌新一枚”
本文由 @軟院猛哥 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
能加個微信嗎,我想跟您交流一下