商業化產品經理 | 計算廣告(8):在線廣告的虛假廣告治理難點及防范
編輯導語:在介紹了關于系統的核心功能模塊及系統架構以及定向策略之后,本文作者對廣告的虛假流量的治理與防范進行展開,與大家分享。
一、背景闡述
廣告一直是自古以來經久不衰的傳統行業,自從互聯網大數據開始良好發展,越來越多的廣告主將預算放在了在線廣告上,使其規模近年來也隨之大幅攀升,各大互聯網廠商又紛紛緊跟布局,互聯網在線廣告行業內一片繁榮。
在線廣告行業是離錢很近的行業,隨著參與者越來越多,行業蓬勃發展的背后也開始滋生出大量的“作弊”手段,嚴重影響了整個行業的生存與發展,面對花樣翻新的造假方式和儼然“鏈條化”了的造假產業, 治理問題刻不容緩。
《互聯網廣告管理暫行辦法》中將互聯網廣告定義為“通過網站、網頁、互聯網應用程序等互聯網媒介,以文字、圖片、音頻、視頻或者其他形式,直接或者間接地推銷商品或者服務的商業廣告”。
二、為何存在大量作弊流量
1. 廣告主廣告投放需求與優質媒體資源供給之間存在矛盾
隨著互聯網極速擴張,廣告主對互聯網廣告投放需求持續增長,相對應的卻是我國互聯網人口紅利漸失,導致優質媒體資源的供給有限,因此為滿足廣告主投放需求,部分媒介平臺、技術服務商采取作弊行為,制造虛假流量。
2. 廣告產業鏈延長,眾多廣告環節出現流量造假
受競爭壓力或商業利益驅使,廣告主作為廣告活動的出資方,為完成KPI任務或出于大量消耗競爭對手廣告預算,讓本品牌獲得更多展示機會。
技術服務提供商、媒介平臺提供商為賺取更多傭金會超賣流量,以次充好將劣質流量混入或通過腳本、模擬器刷量。尤其是按效果付費的廣告聯盟形式,一些網站為獲取更多廣告費,往往通過技術或人工手段人為提高點擊率。而部分廣告代理商為完成與廣告主商定的KPI任務,也會通過購買流量服務的形式進行刷量。在手機廣告市場中還存在電信運營商這一特殊成員,電信運營商可以利用對信道的控制,在用戶上網時強行向下行內容中插入廣告甚至更改廣告創意。
3. 廣告交易鏈不透明,加劇廣告作弊行為滋生
互聯網廣告產業鏈延長,與傳統廣告產業鏈相比,技術服務提供商的出現讓技術在互聯網廣告領域發揮了至關重要的作用。然而由于技術門檻的限制和出于數據安全的考慮,互聯網廣告交易過程中的一些技術規則、數據資源并未對廣告主和第三方公開,這導致目前廣告交易鏈并不透明,加劇了互聯網廣告作弊行為的滋生。
為了使虛假數據更具“真實感”,數據造假技術也日新月異,從最初人工刷量發展到機器人刷量,如今更是將各種技術手段應用于互聯網媒體平臺來進行數據造假。為了幫助大家在這個行業順利發展,作者整理了一些常見的手段。
三、常見的“作弊”維度
1. 從生產方式維度
互聯網廣告虛假流量主要有機器作弊(M)、人工作弊(H)、機器與人工相結合(M&H)作弊三種方式。
2. 從流量異常跡象維度
可將虛假流量分為用戶信息異常流量(I)、投放異常流量(P)、瀏覽異常流量(V)、曝光異常流量(E)、點擊異常流量(C)、歸因異常流量(A)等六類?[1]。
用戶信息異常流量:異常網絡IP或異常設備ID所攜帶的虛假流量。
- 同一個網絡IP在一天內關聯多個不穩定cookie,則此IP存在異常;
- 一天內一個設備ID關聯多個不同機型或一天內一個Android ID關聯多個IMEI;
- 亦或是同一個IMEI在一天內關聯多個ID,則此ID存在異常。
- 異常IP或ID所帶來的廣告流量一般為虛假流量。
投放異常流量:在廣告投放環節產生的虛假流量。
- 投放異常一般包括:無投放曝光、人群失真、時差異常三種情況。
- 無投放曝光指在同一次廣告請求中沒有監測到投放請求,但有曝光請求的現象;
- 人群失真指廣告投放的用戶與產生曝光/點擊行為的用戶不一致;
- 時差異常則指同一次廣告投放和曝光/點擊之間時間間隔過長或投放與曝光/點擊發生的時間順序出現顛倒。
- 當在廣告投放環節出現以上情況時,一般為虛假流量。
瀏覽異常流量:通過廣告來源異?;驗g覽器分布異常所發現的虛假流量。
- 在進行互聯網廣告投放時,廣告主一般會指定特定目標群體、地域進行廣告投放,當實際發生曝光或點擊的URL(網絡統一資源定位符)與預定頁面產生較大差異時可判定這些流量為來源異常的虛假流量。瀏覽器分布異常則指在某些瀏覽器上的曝光或點擊過于集中。因為在一定時期內各網絡瀏覽器的市場份額是相對固定的,所以特定瀏覽器曝光或點擊的過于集中,可能是虛假流量造成的。
曝光異常流量:在廣告曝光層面產生的虛假流量。
- 曝光異常一般包括:曝光碰撞、曝光過高、連續曝光三種情況。曝光碰撞指同一用戶在很短時間內同時在多個廣告位上發生曝光,由于普通人在打開不同頁面時存在時間差,當時間差過小時,可判定其為虛假流量。曝光過高是是指某個用戶在一分鐘內對某個廣告位的曝光量過高。而連續曝光則指同一用戶在同一個廣告位上有規律地進行了一系列曝光。
- 此外,在廣告曝光異常層面還存在“廣告不可見”的情況,有些媒體或廣告技術服務商為達到廣告主的投放需求,擅自修改廣告素材的尺寸,或通過有代碼無素材、單素材多代碼等形式制造不可見廣告的虛假流量。
點擊異常流量:在廣告點擊層面產生的虛假流量。
- 主要包括:無曝光點擊、點擊頻繁、連續點擊、點擊率過高、鼓勵點擊五種情況。
- 無曝光點擊指某個廣告位沒有被曝光但卻產生了點擊
- 點擊頻繁一般指某一用戶在某個時間段內在同一廣告位上點擊數據過大
- 連續點擊指同一用一用戶在同一個廣告位上有規律地進行了一系列點擊
- 點擊率過高,顧名思義一般指某個廣告位在某個時間段內點擊率過高
- 鼓勵點擊,指作弊者采用誘惑性圖片、文字誘導用戶點擊或將廣告放到用戶容易產生誤操作的區域,讓用戶點擊
- 這些情況下產生的廣告流量一般為虛假流量。
常見的“作弊”手段,從數據到展示,從展示到檢測代碼,只要檢測代碼認為廣告確實被展示了一次,那么不管該用戶是否真的見到了廣告,廣告主都要為此次曝光付費,所謂作弊,就是一個讓代碼說謊的手段[2]。
1. 直接訪問監測代碼
將客戶端的信息以參數的形式拼湊成URL,并以HTTP請求的方式傳給第三方。
人工拼湊URL量級較小,且IP有限,比較好識別,是最低級的手段。
2. 服務器刷監測代碼
將大量爬蟲設定好去爬取制定網頁,指定的元素。
且云機房的IP地址大多屬于同一IP段,屏蔽掉主要云服務提供商的IP段即可破解此類問題。
3. 客戶端刷監測代碼
用戶訪問了一個網頁,網頁上的JS繼續多次觸發該行為,刷多幾次頁面瀏覽,以及模仿多次點擊。
這樣一來如果廣告投放的用戶頻次,大多數都在8/16/24/32這些吉利的數字上。就基本可以認定給用戶的正常瀏覽都買一贈七了!如何自動化找出這樣的作弊呢?可以了解傅立葉變換、頻域。
正常用戶在點擊廣告時,自然的點擊分布與廣告創意有關,而刷的點擊要么較為集中,要么均勻散布,并不難以分辨,查看點擊熱力圖,就一目了然。
4. 頻繁換用戶身份
廣告投放中的用戶身份,不會是email、手機號等PII信息,一般情況下,在web場景下用cookie,在蘋果手機原生應用中用IDFA,在安卓手機原生應用中用AndroidID,如果這些都沒有,就用FingerPrint(IP + User Agent)。
不論采用哪種刷量的手段,一般來說都要比較頻繁地變更用戶身份,這是反作弊時都應該了解的一點。
對可以選流量的DSP來說,有個簡單的辦法:凡是第一次看到的cookie或設備,就干脆不要出價了;
對于移動上以SDK方式潛入媒體的SSP產品來說,可以拿到很多終端的信息,如果一臺手機的電量總是滿的,十有八九是有問題的。
5. 放iframe造假展示
iframe是一個HTML標簽,可以在當前頁面中插入其他頁面的內容,常常被用來作為承載展示廣告的載體。通過對寬高的設置將廣告位設置為肉眼不可見的大小,被機器檢測曝光。在一些新聞頁面,會在一個非常不起眼的位置上播放視頻廣告,效果也是極差的。
如果某一渠道大量曝光卻有極低的轉化基本上可以引起注意了。
6. 誘騙用戶點擊廣告
誘騙用戶點擊廣告的情況通常發生在BBS中,經常會有廣告偽裝成帖子,以博人眼球的內容誘騙用戶產生點擊。在點擊之后,就會發生頁面跳轉或者觸發軟件的下載,用戶很容易中招。除了BBS以外,在有些下載網站中,有很多的“點擊下載”都是很典型的誘騙。
7. 運營商彈窗
媒體在某個位置上展示了一個廣告,在網頁到用戶瀏覽器的數據鏈路中,運營商對網頁數據進行深度報文解析(Deep Packet Inspection, DPI),用自己的廣告覆蓋掉媒體的廣告,發送給用戶。
8. 落地頁劫持
打開瀏覽器訪問目標網址:ww.baidu.com在按下回車的那一剎那,地址欄里的網址卻變成了這樣:www,baidu,com?utm_source=ABC,把網址替換成了一個廣告來源地址增加了該渠道的流量數量。
9. Cookie Stuffing
“Stuffing”的意思是“填充”,這同樣是針對CPS聯盟的一種作弊手段。在用戶不知情的情況下,給用戶打上標識站長的Cookie,如果該用戶后面自己去淘寶上產生了購買行為,由于Cookie的存在,這次自然的購買結果就變成了站長的引流結果。
10. 下載歸因
在移動應用下載廣告中,第三方監測一般規定:用戶點擊廣告后一段時間內,產生的下載行為算作廣告效果。如果讓來訪的每個用戶,不管下載不下載,都先記錄一次點擊,這樣一來,只要用戶后續產生了下載,那就會被記錄為一次收益。用戶未瀏覽廣告就直接產生了點擊行為,通常表現為出現大量無曝光的點擊。
四、常見的反作弊方法
1. 基礎手段
- 排重:Cookie、設備號及IP排重
- SDK加密防護
- 點擊頻次有效期
- 異常數據黑名單
- 歸因時間差防作弊
2. 反作弊策略邏輯
以下均為舉例數據,不作為指標參考使用。
2.1 點擊反作弊
(1)單設備單渠道點擊次數
- 5s內單設備,單渠道,點擊大于等于2次小于5次,該設備在該渠道的點擊標記為異常,激活默認為自然量;點擊大于等于5次,該設備在該渠道的點擊和激活都標記為異常。
- 一天內單設備,單渠道,點擊大于等于3次小于6次,該設備在該渠道的點擊標記為異常,激活默認為自然量;點擊大于等于6次,該設備在該渠道的點擊和激活都標記為異常。
- 一周內單設備,單渠道,點擊大于等于12次小于15次,該設備在該渠道的點擊標記為異常,激活默認為自然量;點擊大于等于15次,該設備在該渠道的點擊和激活都標記為異常。
(2)單ip單渠道點擊次數
- 一天內,單ip,單渠道,點擊大于等于30次,則該IP下的點擊和激活標記為異常。
2.2 激活反作弊
(1)單設備單渠道激活次數
- 一天內單設備,單渠道,激活app大于等于3次小于5次,該設備在該渠道的點擊標記為異常,激活默認為自然量;激活大于等于5次,該設備在該渠道的點擊和激活都標記為異常。
- 一周內單設備,單渠道,激活app大于等于4次小于6次,該設備在該渠道的點擊標記為異常,激活默認為自然量;激活大于等于6次,該設備在該渠道的點擊和激活都標記為異常。
(2)單ip單渠道激活次數
一天內,單ip,單渠道,激活大于等于30次,則該IP下超出的點擊和激活標記為異常。
(3)點擊到激活時間差
從點擊到激活的時間差小于等于5s,該設備在該渠道的點擊和激活標記為異常。
2.3?黑渠道庫
- 3天點擊數大于1w,且激活率在0.01%以下的渠道,進入黑渠道庫。
2.4 黑設備庫
- 5s內點擊3個以上廣告鏈接的設備。
- 一天內點擊5個以上廣告鏈接的設備。
- 一天內激活3個以上app的設備。
- 一周內,激活3個以上app的設備,且次日留存均為0。
- 一周內,激活3個以上app的設備,且7日內,每日使用時長方差小于等于3分鐘。
- 渠道數據設備指紋的唯一性不匹配。
每一個渠道都有一個黑設備庫,都需要參與計算。
單天的激活率小于等于某個值使用所有的黑名單庫。
單天的激活率大于等于某個值出黑名單庫。
單渠道的黑設備,在該渠道未來的點擊和激活均標記為異常。
2.5 黑IP庫
- 一天內,點擊大于等于50次的IP。–50以上ip占比0.47%
- 一天內,激活大于等于10次的IP。–激活大于10個的僅3個人,可見刷IP點擊之多,占比0.054%
- 一天內,激活app次數/激活設備大于等于2的IP。
- 一周內,激活5個以上app的ip,且次日留存率均為0。
- 一周內,激活5個以上app的ip,且7日內,每日使用時長方差小于等于3分鐘。
每一個渠道都有一個黑ip庫,都需要參與計算。
單天的激活率小于等于某個值使用黑名單庫。
單天的激活率大于等于某個值出黑名單庫。
單渠道的黑IP,在該渠道未來的點擊和激活均標記為異常。
五、寫在最后
反作弊需要大量的數據和技術支撐,才能夠更加精準的識別出作弊流量,廣告作弊對于整個行業來說是長期有害的,所有廣告行業的從業者都應該嚴厲打擊廣告作弊的行為,保護行業的正常發展。
本文內容非原創,以下為部分內容來源,系統化整理后發布:
[1]摘自《淺析互聯網廣告虛假流量的常見類型及產生原因》
[2]摘自《廣告公司內部流出版:互聯網廣告作弊的十八般武藝》
[3]摘自《如何用機器學習做廣告反作弊(一)》
作者:幻想伏特伽,商業化 、計算廣告產品經理。
本文由 @幻想伏特伽 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!