三位一體集成監控方案在指標預警中的探索研究

0 評論 959 瀏覽 2 收藏 10 分鐘

企業對于業務指標的監控變得尤為重要。面對日常運營中指標波動的挑戰,如何有效識別異常波動,既避免漏報也減少錯報,是每個數據驅動型企業需解決的問題。本文提出了一種集成監控方案,結合閾值、3sigma和時間序列方法,以app日活指標為例,展示了如何實現對業務指標的精準監控和異常預警。

一、應用場景

在日常工作中,我們經常面臨指標波動的挑戰。比如,當DAU指標環比下降10%,我們是否應該觸發監控機制呢?為了有效地識別指標異常,我們需要解決兩個核心問題:

  1. 避免漏報,即確保能夠準確地識別異常波動,從而最小化對業務的影響;
  2. 減少錯報,即避免錯誤預警,減少不必要的排查工作,以節約人力資源。

本文將介紹一種集成監控方案,能更有效地識別業務指標中的異常情況。

二、解決方案

以app日活指標為例,設計基于閾值、3sigma、時間序列于一體的集成監控方案。

介紹如何實現對日活進行監控,識別指標異常。

1. 基于閾值的監控方案

基于閾值的監控方案,主要依賴個人經驗設置指標閾值。通常適用于振幅相對平緩的業務數據指標,通常采用的方式有:

  • 基于歷史數據觀測值設置監控閾值,將異常上限設置在歷史數據正常值最高點附近,下限設定在最低點附近,一旦業務指標超過設置的上限、下限值觸發監控;
  • 基于同環比設置監控閾值,基于歷史數據同環比波動范圍,將閾值設置在同環比歷史數據峰值、谷峰附近,當業務指標超過設定值觸發監控。

2. 基于3sigma監控方案

3sigma準則通常適用于對正態或近似正態分布的業務數據,若數據服從正態分布,對數據指標進行計算處理得到標準偏差,按與平均值的偏差在三倍標準差范圍內來確定數據分布區間,區間外的指標值則判定為異常值。

即業務指標在滿足正態分布的前提下,距離指標平均值3倍標準差之外的值出現的概率很小(P(|x?μ|>3σ)≤0.003),若在區間外則可認為是異常值。

若數據不服從正態分布,也可以用距離平均值多少倍標準差來描述,但sigma系數需要根據業務數據分布情況來判定。

3. 基于時間序列的監控方案

前文提到數列呈現平穩波動或者服從正態分布的情況,在實際生產過程中,業務指標往往會表現出周期性、趨勢性規劃。

前兩種監控方案往往會出現錯報現象,比如在電商節、節假日、周年慶等時期,數據波動較大,前面基于閾值以及3sigma原則的監控往往會誤報、觸發監控導致不必要排查上的人力投入。

基于時間序列監控方案考慮到業務指標季節性和周期性變化對具體時間點的影響,從業務數據指標歷史時間序列中找出變量變化的特征,利用統計學方式預測變量未來趨勢以及發展規律,從而測算出預測值。

通過預測值與真實值的偏差程度來識別是否是異常,通常會使用平均絕對百分比誤差(MAPE)指標來衡量,如MAPE超出所給的設定值,則判斷為異常,從而觸發異常監控。以日活指標(t-1)為例。

通過t-2前的歷史數據構建預測模型,來預測t-1天的日活值,當業務數據集在t-1天更新指標值(真實值)。

通過計算預測值與真實值之間的平均絕對百分誤差來度量偏差程度,依據模型訓練精度設定閾值。當觸發該閾值時,觸發監控進行異常預警。

綜上所述,集成監控根據業務指標數列特征構建相應的監控模型來進行異常的識別與預警,整體解決方案如下圖:

三、應用案例

以下是以app日活為例,將基于閾值、3sigma、時間序列于一體的監控方案運用在其指標異常監控上。

為舉例方便,我們采用2022年10月到12月期間3個月業務數據樣本。

1. 基于閾值的監控方案

通過計算樣本環比最大波動值為23.9%(見下圖),可以將閾值設置為該值,當日活環比值超過閾值,如25%超過閾值(23.9%)時,則觸發異常監控。

該方案也可以根據樣本最大值、最小值來進行閾值監控,當業務指標超過最大、最小值范圍時觸發監控。

2. 基于3sigma的監控方案

基于上文提到的3sigma準則,我們計算出近3個月的均值、標準差值,在數據呈現近似正態分布情況下,業務指標數據落在數值分布在(μ-3σ,μ+3σ)中的概率約為99.7%,若指標數據落在該區間外,我們則判定為異常值,從而觸發監控。

展示效果如下:

3. 基于時間序列的監控方案

進行時間序列預測前,先可以將指標拆分成4部分:

(a)趨勢性;(b)季節性;(c) 周期性;(d)隨機噪聲。

通過觀察分解圖,來初步識別業務數據指標序列是否平穩。

如果數據是平穩的,可以使用傳統的自回歸平均移動模型(ARMA);如果數據是不平穩的,可以使用差分移動自回歸平均移動模型(ARIMA)。

在實際應用中,我們會發現傳統模型的預測精度效果相對較差,這里我們采用SVR模型來進行預測,對于SVR模型,最主要的參數就是C(懲罰系數)和gamma(核函數自帶參數)。

對于C和gamma參數的確定可以通過交叉驗證的方法來進行確定,本文采取的是粒子群算法,通過粒子群算法初始化隨機解,根據迭代找到最優解。

模型效果如下:

我們可以將真實值與預測值的誤差上限設定為6%,這個設定通常會略高于平均絕對百分比誤差值(MAPE)的數值(如上圖3.79%)。

當誤差超過6%的閾值時,將會觸發異常監控,及時發現并處理異常情況。

這樣可以確保我們對預測值的準確性進行有效監控和控制。

以2023年1.1-2.28期間日活數據為例,監控體系各方案效果,如下:

在日活數據監控中,考慮日活指標的周期性、趨勢性采用時間序列模型較合適,從上圖的監控效果中,基于時間序列的監控方案效果也是3種方案中最好的,在業務預警中,我們可根據業務數據本身的規律來選取最合適的監控方案。

本文由 @yyandbb415 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!