亚洲欧美国产成人综合不卡,精品久久久久久久久中文字幕

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

構(gòu)建完行為分析報表后，如何識別異常與指標修復(fù)？「用戶行為分析」【修復(fù)篇】

泡泡

2024-11-15

0 評論 221 瀏覽 0 收藏

21 分鐘

在數(shù)據(jù)分析的世界里，準確識別并修復(fù)數(shù)據(jù)報表中的異常是確保決策有效性的關(guān)鍵。本文深入探討了用戶行為分析中的異常識別與修復(fù)手段，從理解業(yè)務(wù)背景和客觀規(guī)律到具體的修復(fù)策略，為讀者提供了一套全面的指南。

從《用戶行為分析-構(gòu)建篇》到本篇已經(jīng)是第三篇了，分別圍繞用戶行為分析的全流程講述了數(shù)據(jù)集構(gòu)建-分析方法-異常修復(fù)這三趴，雖然三篇是圍繞流程互通的，但也因為主講的內(nèi)容會分布到不同的職能上，所以有些讀者群體們產(chǎn)生不了多少興趣，或者說工作上還沒有遇到諸如此類的問題還不太用的上，但是沒有關(guān)系，我依舊期望在你需要的時候，能夠在搜索結(jié)果或是收藏夾中出現(xiàn)它們的身影，為你提供一套標準可用的用戶行為分析指南。

一、如何識別報表數(shù)據(jù)異常

為什么要留意報表中的數(shù)據(jù)異常？你聽我放屁：天災(zāi)人禍你要渡過難關(guān)、潑天富貴你要想法接住、事在人為你要對比效果。簡言之幫助產(chǎn)品運營良性發(fā)展。

1、識別與修復(fù)的重要性

數(shù)據(jù)報表會用作業(yè)務(wù)決策參考，不想被帶偏就要確保準確性，所以當(dāng)我們完成報表搭建以后，先不考慮業(yè)務(wù)數(shù)據(jù)是否漂亮、是否有外界因素干擾，一定要先檢查從數(shù)據(jù)加工到報表建成的這個過程中是否有紕漏，如果這個過程沒有問題，數(shù)據(jù)依舊異常，則要進一步觀測數(shù)據(jù)采集階段是否有問題，只有當(dāng)數(shù)據(jù)從采集到加工成報表都沒啥問題時，最后代入到業(yè)務(wù)場景中分析異常原因才有價值。

在工作場景中的價值

作為一名非數(shù)據(jù)分析師，你可能是PD、UE、UX、UI等，但作為產(chǎn)研人員你不關(guān)注業(yè)務(wù)數(shù)據(jù)有些說不過去，而掌握不同程度的數(shù)據(jù)異常識別與修復(fù)能力，可以更便捷的滿足自身業(yè)務(wù)數(shù)據(jù)分析的需要。雖然張嘴提數(shù)據(jù)需求很快，但是需求什么時候落地你還得靜候佳音，所以通過自助分析減少對BI同學(xué)的依賴，加快響應(yīng)何嘗不可；

好了，再聊回來如何識別異?！?/p>

清晰業(yè)務(wù)背景與客觀規(guī)律

事實上要搞清楚你的數(shù)據(jù)報表有沒有問題，最簡單快捷的辦法就是了解業(yè)務(wù)與產(chǎn)品屬性后找客觀規(guī)律，因此數(shù)據(jù)不要揪著那么一兩天的看，也不要只停留在報表上找問題，最好是把數(shù)據(jù)的周期范圍拉長，以形成參考對比便于觀察趨勢變化，如果數(shù)據(jù)指標比較單一，不能構(gòu)建趨勢或環(huán)比，那么你也可以結(jié)合業(yè)務(wù)流程、指標結(jié)構(gòu)、行業(yè)標準等來看，看數(shù)據(jù)指標是否處于合理的水準。

如果上述的流程方法你一個字也沒看進去，那么請看這個例子：

如果當(dāng)產(chǎn)品內(nèi)部沒有主動的變量事件，外部也沒有明顯的被動事件影響，且數(shù)據(jù)指標還不符合客觀規(guī)律或業(yè)務(wù)預(yù)期，那么大概率報表搭建的過程中出了Bug，準備找問題吧hhhh

以下是針對業(yè)務(wù)背景與客觀規(guī)律的變量整理，一些常見的基本都概括了，在進行報表數(shù)據(jù)異常排查時可以參考；

通?？陀^規(guī)律是比較能夠反映出數(shù)據(jù)異常的，因為數(shù)據(jù)有一定的標準或規(guī)律可言，另外就是配合業(yè)務(wù)背景或行業(yè)狀況來解釋或預(yù)測數(shù)據(jù)的變動，這兩套數(shù)據(jù)異常識別方法，基本上可以用一套決策樹來概括；

業(yè)務(wù)數(shù)據(jù)-多表對比驗證

用戶行為分析構(gòu)建通常會單獨創(chuàng)建一套行為數(shù)據(jù)采集系統(tǒng)，這表明相關(guān)的數(shù)據(jù)表不止一套，一般還有業(yè)務(wù)后臺的數(shù)據(jù)、渠道投放數(shù)據(jù)等，這個時候我們就可以將相關(guān)的核心指標或大盤數(shù)據(jù)進行抽樣對比，如果數(shù)據(jù)對不上，那就代表數(shù)據(jù)報表搭建的有問題，一般業(yè)務(wù)后臺的接口數(shù)據(jù)是不會出錯的，遇到數(shù)據(jù)對不上就老老實實檢查報表或采集系統(tǒng)吧。

二、如何修復(fù)數(shù)據(jù)指標異常

一套用戶行為分析報表剛構(gòu)建好之時，用戶行為指標異常無非就兩方面；

一方面就是用戶群中確實有異常的行為帶來了異常的數(shù)據(jù)或趨勢，這些是要結(jié)合業(yè)務(wù)營銷或外界因素來找原因了，但可以肯定的是異常數(shù)據(jù)是對的，沒有說謊，例如商品的優(yōu)惠券配置錯了，給出了驚人的優(yōu)惠，導(dǎo)致下單量數(shù)據(jù)與趨勢遠超以往，數(shù)據(jù)看起來是異常的，但卻是能找到對應(yīng)異常原因的。

另一方面就是你的數(shù)據(jù)采集到計算加工出錯了，事實上這種情況也時有發(fā)生，常見于多個同事交叉作業(yè)、采集需求不完善、數(shù)據(jù)維護不規(guī)范、工作量較大出現(xiàn)紕漏、數(shù)據(jù)處理不熟練等。

那么接下來就好好跟大家嘮嘮數(shù)據(jù)報表構(gòu)建完后，如何修復(fù)這些異常問題。

修復(fù)過程我結(jié)合我個人的習(xí)慣與過往經(jīng)驗拆分成了六個部分，相較于專業(yè)的BI數(shù)字建模開發(fā)，可能還是有些差距的，但是也算夠用，起碼能夠自己Hold住大多問題，剩下的疑難雜癥再抱抱BI同事的大腿即可～

1、定位數(shù)據(jù)異常

這是數(shù)據(jù)異常修復(fù)的首要工作，如何識別異常已經(jīng)在上一趴聊過了，那么如何定位問題主要有兩個行動方向；

需要注意的是在數(shù)據(jù)驗證的過程中，采用相同條件的過濾或數(shù)據(jù)范圍，保證口徑的統(tǒng)一，那么當(dāng)你找到數(shù)據(jù)異常發(fā)生在底層還是在中間加工層后，那么就進入下一步驟治理工作了。

2、給數(shù)據(jù)打補丁

給數(shù)據(jù)打補丁就是加篩選條件，發(fā)現(xiàn)數(shù)據(jù)有異常后將異常的部分過濾掉即可，通過觀察這些異常數(shù)據(jù)的規(guī)律來界定一個數(shù)據(jù)有效的范圍或標準，然后在數(shù)據(jù)報表上添加數(shù)據(jù)過濾或判斷，通常數(shù)據(jù)或報表工具一定會具備這些功能，在前文有個清洗調(diào)研問卷的例子還有印象嗎？其實就是將無效的用戶反饋剔除即可；

※你可能會好奇這些臟數(shù)據(jù)從哪里來的？

除了以上交互邏輯不完善導(dǎo)致用戶填入的數(shù)據(jù)外，還有一些可能是來自產(chǎn)品內(nèi)部測試、腳本測試、數(shù)據(jù)爬蟲、灰產(chǎn)攻擊、數(shù)據(jù)采集Bug等，所以如果團隊內(nèi)部有大量測試或腳本動作，一定開個名單把這些數(shù)據(jù)過濾掉，其他的則可以通過觀察產(chǎn)生異常數(shù)據(jù)的賬號、設(shè)備信息、MAC地址、參數(shù)內(nèi)容、IP網(wǎng)絡(luò)等信息來找規(guī)律和數(shù)據(jù)規(guī)避，例如寫一個條件判斷的計算列，有效為0無效為1，數(shù)據(jù)分析時過濾掉為1的即可；

3、修正函數(shù)算法

在我的過往經(jīng)歷中，指標度量的出錯通常有兩種情況，一個是你的函數(shù)能跑，但寫的不符合指標的預(yù)期，另一個是你計算過程中，引用了錯的字段參數(shù)，這兩種情況都會使得最終的指標度量不對。

如果你函數(shù)用的比較熟練，那么通常出錯的原因往往是用了不對的字段參數(shù)進行計算，如果你對業(yè)務(wù)數(shù)據(jù)不夠熟悉，或是業(yè)務(wù)數(shù)據(jù)的口徑不規(guī)范，都很容易出現(xiàn)這種問題，這種情況就需要你進行抽樣與數(shù)據(jù)試驗了。

a. 字段參數(shù)口徑選用

最簡單辦法就是定位到存在有差異的數(shù)據(jù)源后，觀察具備相同屬性的字段參數(shù)那個更完整或更準確，例如一套數(shù)據(jù)集中有兩個字段參數(shù)可以視為用戶個體，但是進行列統(tǒng)計時兩個數(shù)據(jù)不相等，那么我們就要在原始數(shù)據(jù)集上進行排查，看看數(shù)據(jù)缺失的部分是否符合邏輯或是數(shù)據(jù)采集有漏洞，然后結(jié)合業(yè)務(wù)情景或數(shù)據(jù)詳情，來挑選出一個靠譜的字段參數(shù)用作業(yè)務(wù)指標度量計算，修復(fù)之后呢，也建議找個地方進行備注，特別是數(shù)據(jù)血緣比較復(fù)雜時，便于維護；

b. 指標函數(shù)驗算

如果對各種函數(shù)的用法不熟悉，或是某個BI工具沒用采用傳統(tǒng)的SQL函數(shù)，導(dǎo)致你的指標度量計算出錯概率也是很大的，一般遇到這種情況，我都是先鎖定到一定范圍的數(shù)據(jù)，然后通過一些簡單的函數(shù)加人工算出指標值，然后找可行的函數(shù)來加工或調(diào)整出這個指標值，之后再隨機采樣驗證一下是否準確，如果遇到實在搞不定的數(shù)據(jù)運算或函數(shù)使用，那就問問AI大模型，或者平臺客服，反正我這邊BI平臺的語法群里的消息基本沒有停過～

4、下鉆指標度量

此項是針對套娃式函數(shù)運算的指標場景，即當(dāng)前的指標函數(shù)計算中，用到了其他計算列或是度量，但這些計算列或度量本身又是由其他計算列或度量構(gòu)成，這就意味著引用的下游計算列或度量一旦有誤，上游指標全盤崩壞，這種情況也是排查和修護中比較惡心的，你得像剝洋蔥一樣一層一層的找問題，好在改完一個問題后，其他也能變回正常，此類問題修復(fù)可以參考以下決策樹；

5、糾正數(shù)據(jù)采集

針對用戶行為數(shù)據(jù)采集，如果起初的埋點采集需求沒有寫清楚或開發(fā)驗證中有了遺漏，就會導(dǎo)致進行指標或用戶行為路徑分析時缺少關(guān)鍵數(shù)據(jù)或是數(shù)據(jù)對不上，這就是典型的數(shù)據(jù)采集事故，即上報完整性有問題、上報準確性有問題，如果產(chǎn)品迭代后，相關(guān)埋點沒有及時迭代更新也會出現(xiàn)諸如此類的問題。

你以為這種問題是少數(shù)？實際上很多時候開發(fā)者完成行為埋點開發(fā)后，業(yè)務(wù)方都沒有仔細測試驗證過，都是簡單看兩眼就好了沒問題了，然后在做數(shù)據(jù)報表或相關(guān)分析時，才開始查缺補漏找開發(fā)返工或補充，提過行為埋點需求的同學(xué)們，試問自己，每次埋點開發(fā)完后有仔細測試驗收過么？有的話，繼續(xù)保持！

6、培訓(xùn)和交流「交流中」

這一趴從企業(yè)流程管理或是個人發(fā)展學(xué)習(xí)都是有益的，特別是多個同學(xué)交叉作業(yè)的情景，無規(guī)范無維護后續(xù)越亂套我們越難受，讓改一套報表遇到點兒問題都要找半天，真的還不如新建一套報表來的舒服，所以數(shù)據(jù)采集加工、口徑統(tǒng)一、語法技巧等都是可以多交流的，甚至沉淀內(nèi)部材料或分享都是不錯的。

就例如指標的函數(shù)加工，之前我為了輸出業(yè)務(wù)的期望指標，我寫了好幾套計算列才把結(jié)果套出來了，但是后來請教BI后，對方只用了兩套語法就把度量指標弄出來了，看完后我表示妙啊～

至于現(xiàn)在，基本的數(shù)據(jù)分析或報表構(gòu)建我都能自助解決，完全不依賴數(shù)據(jù)相關(guān)的同事，同樣的數(shù)據(jù)需求，如果我有時間的話，別人的還在等數(shù)據(jù)同事那邊的排期，我這邊就開始了，人家開始時，我這邊已經(jīng)結(jié)束了。

三、行為分析的延展應(yīng)用

前文分享了如何進行基礎(chǔ)的用戶行為分析，實際上行為分析的妙用不止于此，如果這些行為數(shù)據(jù)妥善應(yīng)用還能為業(yè)務(wù)帶來不少價值，如通過機器深度學(xué)習(xí)構(gòu)建預(yù)測模型、更深入的偏好分析應(yīng)用、異?；驖撛谕{的行為監(jiān)控等。

1、異常行為監(jiān)控

用戶行為異常分析可以幫助業(yè)務(wù)發(fā)現(xiàn)不正常的用戶行為，不同類型的異常行為對業(yè)務(wù)也會造成不同程度的威脅或負面影響，因此可以構(gòu)建一套用戶行為監(jiān)控系統(tǒng)（根據(jù)業(yè)務(wù)需要提需求或接入第三方服務(wù)即可，不是讓你寫代碼哈），根據(jù)不同類型的用戶行為定制相應(yīng)的響應(yīng)策略，這樣可以減少潛在的威脅以提升安全性或用戶行為規(guī)范性，通常來講這些異常可以分為兩大類；

一類是用戶不合規(guī)的行為，前者可以通過評估行為的惡劣程度來進行賬號警告、凍結(jié)等來處理。

另一類則是灰產(chǎn)攻擊，后者的容忍度相對會更低，一旦通過行為或其他數(shù)據(jù)確認后，就會進行攔截屏蔽或是相關(guān)賬號封禁處理。

至于這些異常如何識別，在第一部分的【清晰業(yè)務(wù)規(guī)律與客觀規(guī)律】或第二部分的【如何給數(shù)據(jù)打補丁】都有提過，基本上就是用戶行為異?；蛟O(shè)備屬性異常，那么在發(fā)現(xiàn)問題以后，最好就是將這些異常的特征記錄在案，并通過算法或一些自動化手段，融合到異常行為監(jiān)控系統(tǒng)中，一旦發(fā)現(xiàn)符合特征的潛在威脅就提前告警或攔截屏蔽等，并且持續(xù)的優(yōu)化迭代，以減少人工投入的成本。

2、用戶偏好系統(tǒng)

相比于預(yù)測模型，用戶偏好系統(tǒng)大家肯定更熟悉一些，一般可以分成三個部分，即用戶畫像構(gòu)建、用戶偏好分析、個性推薦系統(tǒng)，這里就不展開一個個聊了，其用途與構(gòu)建的思路方法我用表格整理了一下可供參考，如果有興趣可以專門找一下相關(guān)的資料看看；

3、行為預(yù)測模型

行為預(yù)測模型的本質(zhì)是機器深度學(xué)習(xí)或AI相關(guān)的應(yīng)用，說人話就是不定期的把業(yè)務(wù)數(shù)據(jù)整理好了喂個算法服務(wù)，然后算法根據(jù)數(shù)據(jù)產(chǎn)生一套預(yù)測結(jié)果，然后你把結(jié)果用于業(yè)務(wù)決策或定制化營銷上。

因為訓(xùn)練模型需要一定成本，所以訓(xùn)練前需要明確有業(yè)務(wù)上的需要，以及有合適的行為數(shù)據(jù)可用于加工后進行模型訓(xùn)練，那么具體如何繼續(xù)模型訓(xùn)練我就不展開了，很多人可能疑問這些行為預(yù)測模型具體有什么東西，能起到什么用途，對此整理了一下五點可供參考；