構(gòu)建完行為分析報表后,如何識別異常與指標修復(fù)?「用戶行為分析」【修復(fù)篇】
在數(shù)據(jù)分析的世界里,準確識別并修復(fù)數(shù)據(jù)報表中的異常是確保決策有效性的關(guān)鍵。本文深入探討了用戶行為分析中的異常識別與修復(fù)手段,從理解業(yè)務(wù)背景和客觀規(guī)律到具體的修復(fù)策略,為讀者提供了一套全面的指南。
從《用戶行為分析-構(gòu)建篇》到本篇已經(jīng)是第三篇了,分別圍繞用戶行為分析的全流程講述了數(shù)據(jù)集構(gòu)建-分析方法-異常修復(fù)這三趴,雖然三篇是圍繞流程互通的,但也因為主講的內(nèi)容會分布到不同的職能上,所以有些讀者群體們產(chǎn)生不了多少興趣,或者說工作上還沒有遇到諸如此類的問題還不太用的上,但是沒有關(guān)系,我依舊期望在你需要的時候,能夠在搜索結(jié)果或是收藏夾中出現(xiàn)它們的身影,為你提供一套標準可用的用戶行為分析指南。
一、如何識別報表數(shù)據(jù)異常
為什么要留意報表中的數(shù)據(jù)異常?你聽我放屁:天災(zāi)人禍你要渡過難關(guān)、潑天富貴你要想法接住、事在人為你要對比效果。簡言之幫助產(chǎn)品運營良性發(fā)展。
1、識別與修復(fù)的重要性
數(shù)據(jù)報表會用作業(yè)務(wù)決策參考,不想被帶偏就要確保準確性,所以當(dāng)我們完成報表搭建以后,先不考慮業(yè)務(wù)數(shù)據(jù)是否漂亮、是否有外界因素干擾,一定要先檢查從數(shù)據(jù)加工到報表建成的這個過程中是否有紕漏,如果這個過程沒有問題,數(shù)據(jù)依舊異常,則要進一步觀測數(shù)據(jù)采集階段是否有問題,只有當(dāng)數(shù)據(jù)從采集到加工成報表都沒啥問題時,最后代入到業(yè)務(wù)場景中分析異常原因才有價值。
在工作場景中的價值
作為一名非數(shù)據(jù)分析師,你可能是PD、UE、UX、UI等,但作為產(chǎn)研人員你不關(guān)注業(yè)務(wù)數(shù)據(jù)有些說不過去,而掌握不同程度的數(shù)據(jù)異常識別與修復(fù)能力,可以更便捷的滿足自身業(yè)務(wù)數(shù)據(jù)分析的需要。雖然張嘴提數(shù)據(jù)需求很快,但是需求什么時候落地你還得靜候佳音,所以通過自助分析減少對BI同學(xué)的依賴,加快響應(yīng)何嘗不可;
好了,再聊回來如何識別異?!?/p>
清晰業(yè)務(wù)背景與客觀規(guī)律
事實上要搞清楚你的數(shù)據(jù)報表有沒有問題,最簡單快捷的辦法就是了解業(yè)務(wù)與產(chǎn)品屬性后找客觀規(guī)律,因此數(shù)據(jù)不要揪著那么一兩天的看,也不要只停留在報表上找問題,最好是把數(shù)據(jù)的周期范圍拉長,以形成參考對比便于觀察趨勢變化,如果數(shù)據(jù)指標比較單一,不能構(gòu)建趨勢或環(huán)比,那么你也可以結(jié)合業(yè)務(wù)流程、指標結(jié)構(gòu)、行業(yè)標準等來看,看數(shù)據(jù)指標是否處于合理的水準。
如果上述的流程方法你一個字也沒看進去,那么請看這個例子:
如果當(dāng)產(chǎn)品內(nèi)部沒有主動的變量事件,外部也沒有明顯的被動事件影響,且數(shù)據(jù)指標還不符合客觀規(guī)律或業(yè)務(wù)預(yù)期,那么大概率報表搭建的過程中出了Bug,準備找問題吧hhhh
以下是針對業(yè)務(wù)背景與客觀規(guī)律的變量整理,一些常見的基本都概括了,在進行報表數(shù)據(jù)異常排查時可以參考;
通??陀^規(guī)律是比較能夠反映出數(shù)據(jù)異常的,因為數(shù)據(jù)有一定的標準或規(guī)律可言,另外就是配合業(yè)務(wù)背景或行業(yè)狀況來解釋或預(yù)測數(shù)據(jù)的變動,這兩套數(shù)據(jù)異常識別方法,基本上可以用一套決策樹來概括;
業(yè)務(wù)數(shù)據(jù)-多表對比驗證
用戶行為分析構(gòu)建通常會單獨創(chuàng)建一套行為數(shù)據(jù)采集系統(tǒng),這表明相關(guān)的數(shù)據(jù)表不止一套,一般還有業(yè)務(wù)后臺的數(shù)據(jù)、渠道投放數(shù)據(jù)等,這個時候我們就可以將相關(guān)的核心指標或大盤數(shù)據(jù)進行抽樣對比,如果數(shù)據(jù)對不上,那就代表數(shù)據(jù)報表搭建的有問題,一般業(yè)務(wù)后臺的接口數(shù)據(jù)是不會出錯的,遇到數(shù)據(jù)對不上就老老實實檢查報表或采集系統(tǒng)吧。
二、如何修復(fù)數(shù)據(jù)指標異常
一套用戶行為分析報表剛構(gòu)建好之時,用戶行為指標異常無非就兩方面;
一方面就是用戶群中確實有異常的行為帶來了異常的數(shù)據(jù)或趨勢,這些是要結(jié)合業(yè)務(wù)營銷或外界因素來找原因了,但可以肯定的是異常數(shù)據(jù)是對的,沒有說謊,例如商品的優(yōu)惠券配置錯了,給出了驚人的優(yōu)惠,導(dǎo)致下單量數(shù)據(jù)與趨勢遠超以往,數(shù)據(jù)看起來是異常的,但卻是能找到對應(yīng)異常原因的。
另一方面就是你的數(shù)據(jù)采集到計算加工出錯了,事實上這種情況也時有發(fā)生,常見于多個同事交叉作業(yè)、采集需求不完善、數(shù)據(jù)維護不規(guī)范、工作量較大出現(xiàn)紕漏、數(shù)據(jù)處理不熟練等。
那么接下來就好好跟大家嘮嘮數(shù)據(jù)報表構(gòu)建完后,如何修復(fù)這些異常問題。
修復(fù)過程我結(jié)合我個人的習(xí)慣與過往經(jīng)驗拆分成了六個部分,相較于專業(yè)的BI數(shù)字建模開發(fā),可能還是有些差距的,但是也算夠用,起碼能夠自己Hold住大多問題,剩下的疑難雜癥再抱抱BI同事的大腿即可~
1、定位數(shù)據(jù)異常
這是數(shù)據(jù)異常修復(fù)的首要工作,如何識別異常已經(jīng)在上一趴聊過了,那么如何定位問題主要有兩個行動方向;
需要注意的是在數(shù)據(jù)驗證的過程中,采用相同條件的過濾或數(shù)據(jù)范圍,保證口徑的統(tǒng)一,那么當(dāng)你找到數(shù)據(jù)異常發(fā)生在底層還是在中間加工層后,那么就進入下一步驟治理工作了。
2、給數(shù)據(jù)打補丁
給數(shù)據(jù)打補丁就是加篩選條件,發(fā)現(xiàn)數(shù)據(jù)有異常后將異常的部分過濾掉即可,通過觀察這些異常數(shù)據(jù)的規(guī)律來界定一個數(shù)據(jù)有效的范圍或標準,然后在數(shù)據(jù)報表上添加數(shù)據(jù)過濾或判斷,通常數(shù)據(jù)或報表工具一定會具備這些功能,在前文有個清洗調(diào)研問卷的例子還有印象嗎?其實就是將無效的用戶反饋剔除即可;
※你可能會好奇這些臟數(shù)據(jù)從哪里來的?
除了以上交互邏輯不完善導(dǎo)致用戶填入的數(shù)據(jù)外,還有一些可能是來自產(chǎn)品內(nèi)部測試、腳本測試、數(shù)據(jù)爬蟲、灰產(chǎn)攻擊、數(shù)據(jù)采集Bug等,所以如果團隊內(nèi)部有大量測試或腳本動作,一定開個名單把這些數(shù)據(jù)過濾掉,其他的則可以通過觀察產(chǎn)生異常數(shù)據(jù)的賬號、設(shè)備信息、MAC地址、參數(shù)內(nèi)容、IP網(wǎng)絡(luò)等信息來找規(guī)律和數(shù)據(jù)規(guī)避,例如寫一個條件判斷的計算列,有效為0無效為1,數(shù)據(jù)分析時過濾掉為1的即可;
3、修正函數(shù)算法
在我的過往經(jīng)歷中,指標度量的出錯通常有兩種情況,一個是你的函數(shù)能跑,但寫的不符合指標的預(yù)期,另一個是你計算過程中,引用了錯的字段參數(shù),這兩種情況都會使得最終的指標度量不對。
如果你函數(shù)用的比較熟練,那么通常出錯的原因往往是用了不對的字段參數(shù)進行計算,如果你對業(yè)務(wù)數(shù)據(jù)不夠熟悉,或是業(yè)務(wù)數(shù)據(jù)的口徑不規(guī)范,都很容易出現(xiàn)這種問題,這種情況就需要你進行抽樣與數(shù)據(jù)試驗了。
a. 字段參數(shù)口徑選用
最簡單辦法就是定位到存在有差異的數(shù)據(jù)源后,觀察具備相同屬性的字段參數(shù)那個更完整或更準確,例如一套數(shù)據(jù)集中有兩個字段參數(shù)可以視為用戶個體,但是進行列統(tǒng)計時兩個數(shù)據(jù)不相等,那么我們就要在原始數(shù)據(jù)集上進行排查,看看數(shù)據(jù)缺失的部分是否符合邏輯或是數(shù)據(jù)采集有漏洞,然后結(jié)合業(yè)務(wù)情景或數(shù)據(jù)詳情,來挑選出一個靠譜的字段參數(shù)用作業(yè)務(wù)指標度量計算,修復(fù)之后呢,也建議找個地方進行備注,特別是數(shù)據(jù)血緣比較復(fù)雜時,便于維護;
b. 指標函數(shù)驗算
如果對各種函數(shù)的用法不熟悉,或是某個BI工具沒用采用傳統(tǒng)的SQL函數(shù),導(dǎo)致你的指標度量計算出錯概率也是很大的,一般遇到這種情況,我都是先鎖定到一定范圍的數(shù)據(jù),然后通過一些簡單的函數(shù)加人工算出指標值,然后找可行的函數(shù)來加工或調(diào)整出這個指標值,之后再隨機采樣驗證一下是否準確,如果遇到實在搞不定的數(shù)據(jù)運算或函數(shù)使用,那就問問AI大模型,或者平臺客服,反正我這邊BI平臺的語法群里的消息基本沒有停過~
4、下鉆指標度量
此項是針對套娃式函數(shù)運算的指標場景,即當(dāng)前的指標函數(shù)計算中,用到了其他計算列或是度量,但這些計算列或度量本身又是由其他計算列或度量構(gòu)成,這就意味著引用的下游計算列或度量一旦有誤,上游指標全盤崩壞,這種情況也是排查和修護中比較惡心的,你得像剝洋蔥一樣一層一層的找問題,好在改完一個問題后,其他也能變回正常,此類問題修復(fù)可以參考以下決策樹;
5、糾正數(shù)據(jù)采集
針對用戶行為數(shù)據(jù)采集,如果起初的埋點采集需求沒有寫清楚或開發(fā)驗證中有了遺漏,就會導(dǎo)致進行指標或用戶行為路徑分析時缺少關(guān)鍵數(shù)據(jù)或是數(shù)據(jù)對不上,這就是典型的數(shù)據(jù)采集事故,即上報完整性有問題、上報準確性有問題,如果產(chǎn)品迭代后,相關(guān)埋點沒有及時迭代更新也會出現(xiàn)諸如此類的問題。
你以為這種問題是少數(shù)?實際上很多時候開發(fā)者完成行為埋點開發(fā)后,業(yè)務(wù)方都沒有仔細測試驗證過,都是簡單看兩眼就好了沒問題了,然后在做數(shù)據(jù)報表或相關(guān)分析時,才開始查缺補漏找開發(fā)返工或補充,提過行為埋點需求的同學(xué)們,試問自己,每次埋點開發(fā)完后有仔細測試驗收過么?有的話,繼續(xù)保持!
6、培訓(xùn)和交流「交流中」
這一趴從企業(yè)流程管理或是個人發(fā)展學(xué)習(xí)都是有益的,特別是多個同學(xué)交叉作業(yè)的情景,無規(guī)范無維護后續(xù)越亂套我們越難受,讓改一套報表遇到點兒問題都要找半天,真的還不如新建一套報表來的舒服,所以數(shù)據(jù)采集加工、口徑統(tǒng)一、語法技巧等都是可以多交流的,甚至沉淀內(nèi)部材料或分享都是不錯的。
就例如指標的函數(shù)加工,之前我為了輸出業(yè)務(wù)的期望指標,我寫了好幾套計算列才把結(jié)果套出來了,但是后來請教BI后,對方只用了兩套語法就把度量指標弄出來了,看完后我表示妙啊~
至于現(xiàn)在,基本的數(shù)據(jù)分析或報表構(gòu)建我都能自助解決,完全不依賴數(shù)據(jù)相關(guān)的同事,同樣的數(shù)據(jù)需求,如果我有時間的話,別人的還在等數(shù)據(jù)同事那邊的排期,我這邊就開始了,人家開始時,我這邊已經(jīng)結(jié)束了。
三、行為分析的延展應(yīng)用
前文分享了如何進行基礎(chǔ)的用戶行為分析,實際上行為分析的妙用不止于此,如果這些行為數(shù)據(jù)妥善應(yīng)用還能為業(yè)務(wù)帶來不少價值,如通過機器深度學(xué)習(xí)構(gòu)建預(yù)測模型、更深入的偏好分析應(yīng)用、異?;驖撛谕{的行為監(jiān)控等。
1、異常行為監(jiān)控
用戶行為異常分析可以幫助業(yè)務(wù)發(fā)現(xiàn)不正常的用戶行為,不同類型的異常行為對業(yè)務(wù)也會造成不同程度的威脅或負面影響,因此可以構(gòu)建一套用戶行為監(jiān)控系統(tǒng)(根據(jù)業(yè)務(wù)需要提需求或接入第三方服務(wù)即可,不是讓你寫代碼哈),根據(jù)不同類型的用戶行為定制相應(yīng)的響應(yīng)策略,這樣可以減少潛在的威脅以提升安全性或用戶行為規(guī)范性,通常來講這些異常可以分為兩大類;
一類是用戶不合規(guī)的行為,前者可以通過評估行為的惡劣程度來進行賬號警告、凍結(jié)等來處理。
另一類則是灰產(chǎn)攻擊,后者的容忍度相對會更低,一旦通過行為或其他數(shù)據(jù)確認后,就會進行攔截屏蔽或是相關(guān)賬號封禁處理。
至于這些異常如何識別,在第一部分的【清晰業(yè)務(wù)規(guī)律與客觀規(guī)律】或第二部分的【如何給數(shù)據(jù)打補丁】都有提過,基本上就是用戶行為異?;蛟O(shè)備屬性異常,那么在發(fā)現(xiàn)問題以后,最好就是將這些異常的特征記錄在案,并通過算法或一些自動化手段,融合到異常行為監(jiān)控系統(tǒng)中,一旦發(fā)現(xiàn)符合特征的潛在威脅就提前告警或攔截屏蔽等,并且持續(xù)的優(yōu)化迭代,以減少人工投入的成本。
2、用戶偏好系統(tǒng)
相比于預(yù)測模型,用戶偏好系統(tǒng)大家肯定更熟悉一些,一般可以分成三個部分,即用戶畫像構(gòu)建、用戶偏好分析、個性推薦系統(tǒng),這里就不展開一個個聊了,其用途與構(gòu)建的思路方法我用表格整理了一下可供參考,如果有興趣可以專門找一下相關(guān)的資料看看;
3、行為預(yù)測模型
行為預(yù)測模型的本質(zhì)是機器深度學(xué)習(xí)或AI相關(guān)的應(yīng)用,說人話就是不定期的把業(yè)務(wù)數(shù)據(jù)整理好了喂個算法服務(wù),然后算法根據(jù)數(shù)據(jù)產(chǎn)生一套預(yù)測結(jié)果,然后你把結(jié)果用于業(yè)務(wù)決策或定制化營銷上。
因為訓(xùn)練模型需要一定成本,所以訓(xùn)練前需要明確有業(yè)務(wù)上的需要,以及有合適的行為數(shù)據(jù)可用于加工后進行模型訓(xùn)練,那么具體如何繼續(xù)模型訓(xùn)練我就不展開了,很多人可能疑問這些行為預(yù)測模型具體有什么東西,能起到什么用途,對此整理了一下五點可供參考;
四、連續(xù)三篇全流程與決策樹總結(jié)
整個流程事件的步驟與決策方法概括;
三章內(nèi)容整合路書:
感謝耐心閱讀,如果覺得寫的還行,就點贊關(guān)注一下吧,下次更新先通知你~
專欄作家
泡泡,公眾號:即刻UX,人人都是產(chǎn)品經(jīng)理專欄作家。專注產(chǎn)品交互領(lǐng)域的體驗設(shè)計師,擅長思考和UI呈現(xiàn)設(shè)計,喜愛交流探討~
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!