后臺(tái)產(chǎn)品方法論:如何設(shè)計(jì)監(jiān)控功能?

4 評(píng)論 16672 瀏覽 170 收藏 13 分鐘

監(jiān)控功能是后臺(tái)產(chǎn)品中既常用也重要的功能,主要起到異常預(yù)警和異??刂频淖饔?。本篇文章主要闡釋如何打造監(jiān)控功能。

01 什么是監(jiān)控功能?

監(jiān)控功能是指針對(duì)某項(xiàng)數(shù)據(jù)或某項(xiàng)業(yè)務(wù)流程進(jìn)行系統(tǒng)層面的定時(shí)掃描和執(zhí)行控制措施,旨在定位目標(biāo)數(shù)據(jù)中的風(fēng)險(xiǎn)或發(fā)現(xiàn)業(yè)務(wù)流程中的問(wèn)題,并通過(guò)系統(tǒng)采取必要的自動(dòng)化控制手段并沉淀相關(guān)數(shù)據(jù)。

監(jiān)控功能是后臺(tái)系統(tǒng)中的輕量級(jí)應(yīng)用,一般較多的涉及數(shù)據(jù)、邏輯層面,較少的涉及界面原型設(shè)計(jì)。

02 為什么需要監(jiān)控功能?

任何公司在運(yùn)營(yíng)一段時(shí)間以后,都會(huì)產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)可能是與業(yè)務(wù)目標(biāo)直接相關(guān)的核心指標(biāo)。

對(duì)于電商產(chǎn)品而言,是GMV、是利潤(rùn);對(duì)于社交、短視頻等c端產(chǎn)品而言,是DAU、MAU。

這些數(shù)據(jù)一般出現(xiàn)在Dashboard面板上,由于業(yè)務(wù)部門、產(chǎn)品部門每天都在看,當(dāng)出現(xiàn)業(yè)務(wù)指標(biāo)的數(shù)據(jù)浮動(dòng)時(shí),即使不設(shè)置針對(duì)關(guān)鍵業(yè)務(wù)指標(biāo)的監(jiān)控功能,也一樣能很快發(fā)現(xiàn)問(wèn)題。對(duì)于核心指標(biāo)的監(jiān)控,重點(diǎn)不在于發(fā)現(xiàn)問(wèn)題,而在于快速定位問(wèn)題的原因,并進(jìn)行自動(dòng)化的控制。

而一些隱藏較深的間接數(shù)據(jù),是從側(cè)面影響核心數(shù)據(jù)的,而這個(gè)影響可能具有滯后性。如果能在其影響核心數(shù)據(jù)前,監(jiān)控間接數(shù)據(jù),并及時(shí)采取控制措施,那么可以將業(yè)務(wù)損失降至最低,影響范圍降至最小。

03 監(jiān)控的核心要素

監(jiān)控的核心要素為監(jiān)控的對(duì)象及其限定條件、監(jiān)控的時(shí)間范圍或監(jiān)控的數(shù)量級(jí)、系統(tǒng)執(zhí)行的時(shí)間和頻次、觸發(fā)條件、處理機(jī)制。

1. 監(jiān)控對(duì)象及其限定條件

如果監(jiān)控對(duì)象是利潤(rùn),這個(gè)數(shù)據(jù)是系統(tǒng)已有的,也不需要限定條件,直接對(duì)利潤(rùn)監(jiān)控即可。

如:當(dāng)利潤(rùn)≤0時(shí),這個(gè)就是一個(gè)明確的監(jiān)控對(duì)象。

如果監(jiān)控對(duì)象是某項(xiàng)復(fù)雜業(yè)務(wù)流程,那必須明確說(shuō)明選取對(duì)象的規(guī)則。

如:針對(duì)首次充值訂單,且充值時(shí)間在30分鐘以內(nèi)的所有訂單進(jìn)行監(jiān)控。

2. 監(jiān)控的時(shí)間范圍或數(shù)量級(jí)

根據(jù)不同業(yè)務(wù)的數(shù)據(jù)量級(jí)不同,選擇合適的監(jiān)控時(shí)間范圍,對(duì)于利潤(rùn),半小時(shí)內(nèi)已經(jīng)足以產(chǎn)生波動(dòng)較大的數(shù)據(jù),根據(jù)利潤(rùn)的數(shù)據(jù)波動(dòng)情況進(jìn)行數(shù)據(jù)分析,選擇合適的時(shí)間范圍進(jìn)行監(jiān)控,選擇最小產(chǎn)生明確利潤(rùn)波動(dòng)的時(shí)間單位。

假設(shè)通過(guò)數(shù)據(jù)分析得出該類產(chǎn)品訂單量和供貨渠道都相當(dāng)不穩(wěn)定,10分鐘就可能產(chǎn)生利潤(rùn)相差較大的結(jié)果。

那么在定義該產(chǎn)品監(jiān)控時(shí)間范圍時(shí),選擇監(jiān)控近10分鐘的數(shù)據(jù)。通常這個(gè)時(shí)間尺度越小,則控制起來(lái)風(fēng)險(xiǎn)越小。

以上情況適用于數(shù)據(jù)在時(shí)間分布中是均勻的,那么對(duì)于一些數(shù)據(jù)分布不均勻的業(yè)務(wù)而言,應(yīng)該使用累計(jì)數(shù)量劃定監(jiān)控范圍。

比如異常訂單,它的出現(xiàn)往往伴隨著隨機(jī)性,出現(xiàn)的時(shí)間完全不可控。那么就應(yīng)該設(shè)定:監(jiān)控近x筆異常訂單中,異常問(wèn)題定義為無(wú)狀態(tài)碼的訂單。

3. 系統(tǒng)執(zhí)行的時(shí)間和頻次

系統(tǒng)執(zhí)行時(shí)間一般有:

  1. 設(shè)置固定時(shí)間點(diǎn)執(zhí)行;
  2. 設(shè)置固定的間隔時(shí)間執(zhí)行。

選擇1意味著業(yè)務(wù)流程,可能含有更多人工干涉的因素;或者系統(tǒng)在執(zhí)行其他程序時(shí)與此程序有些不兼容的問(wèn)題,比如前置條件和后置條件,為防止程序產(chǎn)生沖突,設(shè)置固定的時(shí)間點(diǎn)執(zhí)行。

選擇2則意味著業(yè)務(wù)數(shù)據(jù)在時(shí)間分布上是均勻的。

間隔時(shí)間的設(shè)置跟業(yè)務(wù)的響應(yīng)時(shí)間成正比,業(yè)務(wù)越需要快速響應(yīng)的,執(zhí)行的頻次越高。如利潤(rùn)屬于公司核心指標(biāo),出現(xiàn)虧損是不可接受的,所以響應(yīng)時(shí)間要盡可能快,間隔時(shí)間可設(shè)置為5分鐘或10分鐘執(zhí)行一次。

即使選擇了按照固定頻次執(zhí)行,也不意味著萬(wàn)事大吉。產(chǎn)品人員還需要與技術(shù)協(xié)商好該程序幾點(diǎn)開始執(zhí)行,執(zhí)行一次的時(shí)間大概是多少秒,執(zhí)行程序是否會(huì)對(duì)關(guān)聯(lián)數(shù)據(jù)產(chǎn)生影響。

4. 觸發(fā)條件

監(jiān)控既然是對(duì)業(yè)務(wù)中風(fēng)險(xiǎn)進(jìn)行控制,那么必然需要有響應(yīng)的觸發(fā)條件。

觸發(fā)條件主要依賴于閾值的設(shè)置,通過(guò)閾值的靈活設(shè)置,可以讓業(yè)務(wù)部門隨時(shí)根據(jù)業(yè)務(wù)情況自行配置相關(guān)閾值。如下圖所示:

當(dāng)達(dá)成觸發(fā)條件時(shí),系統(tǒng)會(huì)執(zhí)行相應(yīng)程序。

5. 處理機(jī)制

處理機(jī)制一般為告警和系統(tǒng)自動(dòng)執(zhí)行。

(1) 告警按照問(wèn)題出現(xiàn)的嚴(yán)重程度,采取不同的告警措施:

  1. 數(shù)據(jù)波動(dòng)幅度較大,情況緊急,設(shè)置電話通知的告警方式,保證消息及時(shí)收到,業(yè)務(wù)人員可以及時(shí)處理(即使在非工作日遇到緊急情況也能迅速處理);
  2. 數(shù)據(jù)波動(dòng)幅度一般,對(duì)于時(shí)間要求較寬松的,采用短信通知的告警方式,業(yè)務(wù)人員看到后處理即可;
  3. 數(shù)據(jù)波動(dòng)較小,處理或不處理影響不大的,或僅做通知用途的,可采用系統(tǒng)推送消息的方式告警。如果是日常運(yùn)營(yíng)內(nèi)容,如工單的處理、審核等(數(shù)據(jù)量小,頻次不高的情況),也可采用系統(tǒng)推送的方式。

當(dāng)對(duì)某項(xiàng)業(yè)務(wù)數(shù)據(jù)進(jìn)行告警時(shí),告警信息務(wù)必明清晰告警內(nèi)容主體,告警相關(guān)數(shù)據(jù),該主體對(duì)應(yīng)設(shè)置的閾值,便于第一時(shí)間明確問(wèn)題出現(xiàn)的層次和范圍,查找更深層次的原因并進(jìn)行控制。

(2) 另外一種處理機(jī)制是系統(tǒng)強(qiáng)制執(zhí)行,控制目標(biāo)產(chǎn)品下架、強(qiáng)制關(guān)閉某功能。

一般為達(dá)到止損或減損的目的,通常配合告警信息同步使用,一方面起到通知的作用,另一方面便于后續(xù)查找問(wèn)題。

所有的超過(guò)閾值和相關(guān)處理措施都應(yīng)該形成日志記錄,如需要后續(xù)迭代和分析數(shù)據(jù)的,則需要形成完整和規(guī)范的數(shù)據(jù)報(bào)表,并且需要導(dǎo)出功能。

04 監(jiān)控的其他輔助功能

1. 主監(jiān)控頁(yè)面

主要以表單頁(yè)面呈現(xiàn),對(duì)于處理需求頻次較高的業(yè)務(wù),或比較重要的業(yè)務(wù),需要設(shè)計(jì)該頁(yè)面。

如果監(jiān)控的產(chǎn)品處理頻次低,告警頻次低,則不必設(shè)計(jì)該頁(yè)面。可根據(jù)處理的操作不同區(qū)分不同的監(jiān)控產(chǎn)品,如產(chǎn)品強(qiáng)制下架的劃分為一類,產(chǎn)品訂單限制的劃分為一類,分類方法沒(méi)有局限,主要根據(jù)業(yè)務(wù)需求。

表單頁(yè)面設(shè)計(jì),必須包含監(jiān)控主題、統(tǒng)計(jì)范圍、數(shù)據(jù)相關(guān)閾值、觸發(fā)動(dòng)作、詳情等,如下圖示例:

2. 數(shù)據(jù)統(tǒng)計(jì)功能

監(jiān)控功能的設(shè)計(jì)不是一蹴而就的,先設(shè)計(jì)出基本的功能,然后再憑借數(shù)據(jù)統(tǒng)計(jì)功能分析數(shù)據(jù),掌握其中數(shù)據(jù)的規(guī)律,做好下次迭代。

一般針對(duì)數(shù)據(jù)較復(fù)雜、設(shè)置閾值不清晰、產(chǎn)品需要個(gè)性化閾值方案的監(jiān)控功能。

同樣以表單頁(yè)面進(jìn)行呈現(xiàn),數(shù)據(jù)統(tǒng)計(jì)一般根據(jù)業(yè)務(wù)需要,每隔一段時(shí)間生成一組數(shù)據(jù),字段需要包含監(jiān)控主體、閾值相關(guān)的所有數(shù)據(jù)(如時(shí)長(zhǎng)、訂單數(shù)、統(tǒng)計(jì)時(shí)間段等)、是否觸發(fā)動(dòng)作、統(tǒng)計(jì)時(shí)間等。

需要導(dǎo)出功能以方便分析,另外數(shù)據(jù)統(tǒng)計(jì)需要和設(shè)置閾值的統(tǒng)計(jì)頻次盡量保持一致。

3. 操作記錄功能

不一定所有執(zhí)行動(dòng)作都是系統(tǒng)完成的,人工也有可能操作。處于風(fēng)險(xiǎn)管理的需要和追責(zé),需要記錄所有操作的操作人,操作人一般為系統(tǒng)和具體人名。字段包含操作內(nèi)容、操作人、操作時(shí)間。

不光是對(duì)于產(chǎn)品的操作需要操作人,對(duì)于閾值的操作也需要操作人,比如誰(shuí)調(diào)整了相關(guān)閾值,這些都是需要記錄下來(lái)的。

4. 閾值配置功能

閾值配置一般適用于觸發(fā)條件會(huì)隨著業(yè)務(wù)需求變化的情況,這樣方便業(yè)務(wù)操作人員根據(jù)業(yè)務(wù)需求靈活調(diào)整閾值配置?;蛘弋a(chǎn)品繁多,各個(gè)產(chǎn)品都需要配置個(gè)性化的閾值方案。

閾值配置也并非一味的追求靈活配置,需要非常清楚這些閾值對(duì)業(yè)務(wù)的影響,部分?jǐn)?shù)據(jù)需要可配置的方式,而一些數(shù)據(jù)固定后臺(tái)寫死比較好,一方面出于風(fēng)險(xiǎn)控制考慮,配置越靈活,越有可能出錯(cuò);另一方面考慮到開發(fā)成本,配置項(xiàng)過(guò)多的,開發(fā)難度越大。

而一些業(yè)務(wù)對(duì)于時(shí)間不敏感的,可以長(zhǎng)期使用一套固定的閾值方案,那么可以不設(shè)計(jì)配置功能。

05 其他注意事項(xiàng)

  1. 后臺(tái)產(chǎn)品核心就是業(yè)務(wù),一切都在滿足核心業(yè)務(wù)需求的基礎(chǔ)上提高用戶體驗(yàn),原型圖不追求高大上,也不能一開始就把原型畫的很完善。先出一個(gè)簡(jiǎn)單的功能邏輯、流程圖,描述你將要做的功能是什么,先進(jìn)行內(nèi)部的業(yè)務(wù)評(píng)審,評(píng)審?fù)ㄟ^(guò)后再著手完善原型和文檔;
  2. 監(jiān)控類產(chǎn)品的核心在于閾值的設(shè)置、監(jiān)控范疇、統(tǒng)計(jì)頻次、統(tǒng)計(jì)時(shí)長(zhǎng)、數(shù)據(jù)敏感度這些抽象邏輯層面,而不是具象化的原型demo,所以事先做好業(yè)務(wù)需求調(diào)研和數(shù)據(jù)分析非常重要,這樣在設(shè)計(jì)功能時(shí)才能有的放矢;
  3. 監(jiān)控類產(chǎn)品不能一開始就追求大而全,先重點(diǎn)解決對(duì)業(yè)務(wù)影響較大的、急需監(jiān)控的數(shù)據(jù),保證核心功能的可用性,再通過(guò)數(shù)據(jù)沉淀分析數(shù)據(jù),逐步細(xì)化產(chǎn)品需求,并逐漸迭代產(chǎn)品;
  4. 后臺(tái)產(chǎn)品大部分頁(yè)面都是在設(shè)計(jì)表單頁(yè)面,必須清晰明白哪些字段屬于核心信息,哪些信息屬于不必要信息,精簡(jiǎn)字段,字段太多也會(huì)影響查詢效率的。

 

本文由 @交響樂(lè)的口技現(xiàn)場(chǎng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很有幫助,感謝!

    來(lái)自浙江 回復(fù)
  2. 拿我們產(chǎn)品后臺(tái)套進(jìn)去 是這么個(gè)邏輯

    回復(fù)
  3. 辛苦了!

    來(lái)自上海 回復(fù)
    1. 謝謝支持

      來(lái)自北京 回復(fù)