無人零售產(chǎn)品:如何從0-1搭建運(yùn)維故障告警平臺(tái)?

11 評(píng)論 12570 瀏覽 148 收藏 14 分鐘

筆者在近期的日常工作中,發(fā)現(xiàn)公司內(nèi)對(duì)于無人設(shè)備的故障告警和維護(hù)長久以來沒有形成一個(gè)完整的業(yè)務(wù)閉環(huán),導(dǎo)致一線的運(yùn)維工作人員效率較低,對(duì)用戶的體驗(yàn)也造成了一定的負(fù)面影響。因此,筆者針對(duì)性的研究了行業(yè)內(nèi)的相關(guān)產(chǎn)品,同時(shí)對(duì)相關(guān)業(yè)務(wù)人員的需求進(jìn)行了調(diào)研,最終初步形成了運(yùn)維故障告警平臺(tái)。

01 引入概念

1. 什么是告警?

顧名思義,即系統(tǒng)發(fā)生故障時(shí),監(jiān)控單元根據(jù)指定的告警策略,通過提前確定好的推送渠道,將告警通知推送給指定的接收方(服務(wù)端、客戶端)。

2. 什么是無人設(shè)備的故障告警閉環(huán)?

具體如下圖:

  • 機(jī)器端:設(shè)備通過工控將出發(fā)的軟件or硬件故障同步到監(jiān)控平臺(tái)(服務(wù)端);
  • 服務(wù)端:監(jiān)控平臺(tái)經(jīng)過一系列的告警策略,將告警消息推送至運(yùn)維人員(客戶端);
  • 客戶端:運(yùn)維人員接收告警通知后,到設(shè)備點(diǎn)位處維護(hù)設(shè)備;
  • 機(jī)器端:設(shè)備維護(hù)完成,更新設(shè)備狀態(tài)并上傳到服務(wù)端。

02 用戶畫像和需求

1. 用戶A

小張,男,25歲,一線運(yùn)維工作人員

負(fù)責(zé)xx分公司xx線路的設(shè)備故障維護(hù)工作。由于下屬負(fù)責(zé)的區(qū)域較廣,區(qū)域內(nèi)無人設(shè)備數(shù)量較多,隨之而來的故障也較多。小張對(duì)于故障的接收仍依賴于設(shè)備場地方工作人員的投訴、客服人員的短信以及補(bǔ)貨人員的信息同步。

希望有一個(gè)故障告警的推送服務(wù),實(shí)時(shí)告知他哪臺(tái)設(shè)備有故障需要維護(hù),哪條告警優(yōu)先級(jí)更高更緊急,該推送服務(wù)將會(huì)極大提升他的日常工作效率。

2. 用戶B

老李,男,30歲,總部項(xiàng)目運(yùn)營負(fù)責(zé)人

負(fù)責(zé)公司總部xx無人設(shè)備產(chǎn)品的線下運(yùn)營。由于工作壓力大,責(zé)任大,每天都需要對(duì)全國設(shè)備的運(yùn)行情況有一個(gè)整體的掌握,但目前對(duì)設(shè)備運(yùn)營狀態(tài)的了解手段還停留在初級(jí)階段,需要每日讓下屬收集數(shù)據(jù),過程較為繁瑣,同時(shí)效率較低,時(shí)間成本較高。

希望有一個(gè)實(shí)時(shí)的故障監(jiān)控平臺(tái),能讓他任何時(shí)候都能了解到全國無人設(shè)備的運(yùn)營情況、故障情況以及告警處理情況。

03 功能結(jié)構(gòu)組成

在調(diào)研了行業(yè)內(nèi)產(chǎn)品和用戶需求后,筆者將運(yùn)維故障告警平臺(tái)的組成拆分為如下幾個(gè)部分:

故障數(shù)據(jù)+故障監(jiān)控+故障告警+告警處理+設(shè)備健康度評(píng)分

1. 故障數(shù)據(jù)

關(guān)于故障數(shù)據(jù),筆者建議可從如下幾步著手:

故障數(shù)據(jù)分類 + 故障數(shù)據(jù)存儲(chǔ) + 故障數(shù)據(jù)篩選和過濾 + 故障數(shù)據(jù)倉庫產(chǎn)品化

故障分類:行業(yè)內(nèi)對(duì)于無人設(shè)備故障的分類大多較為成熟,具體舉例如下:

對(duì)于不同類型的故障,將制定針對(duì)性的告警策略用于告警的觸發(fā)和推送。

故障數(shù)據(jù)存儲(chǔ):根據(jù)無人設(shè)備的軟硬件底層設(shè)計(jì),提前制定一套相對(duì)匹配公司業(yè)務(wù)需求的存儲(chǔ)字段,如設(shè)備號(hào)、故障名稱、故障碼、故障開始時(shí)間、恢復(fù)時(shí)間、持續(xù)時(shí)間、故障次數(shù)等;至于數(shù)據(jù)存儲(chǔ)的邏輯,由于不同的產(chǎn)品業(yè)務(wù)差異較大,筆者就不過多贅述了;

故障數(shù)據(jù)篩選和過濾:即人為過濾掉不影響無人設(shè)備正常交易的故障或是運(yùn)營運(yùn)維人員在補(bǔ)理貨和維護(hù)故障時(shí)產(chǎn)生的干擾性故障;

好處是:

  1. 減少干擾性故障,聚焦關(guān)鍵故障;
  2. 降低運(yùn)維人員的關(guān)注成本,提高工作效率;

數(shù)據(jù)倉庫產(chǎn)品化:通過一定的形式將每一條故障保存至產(chǎn)品化倉庫中,便于后期及時(shí)更新和維護(hù);圍繞數(shù)據(jù)倉庫,開展產(chǎn)品設(shè)計(jì):

故障的展示方式如上:通過故障碼+故障名稱+故障類型+告警指標(biāo)+緊急度+解放方案的形式進(jìn)行維護(hù),產(chǎn)品功能設(shè)計(jì)上支持:

  1. 故障新增;
  2. 故障查詢;
  3. 故障編輯;
  4. 告警指標(biāo)的新增;

當(dāng)然,故障碼的新增依賴于設(shè)備最初在軟硬件層面的底層設(shè)計(jì),有興趣的同學(xué)可以進(jìn)行更深層次的研究和學(xué)習(xí),筆者就不作詳細(xì)介紹了;

對(duì)于“單個(gè)故障”和“告警指標(biāo)”的對(duì)應(yīng)關(guān)系,將在接下來的故障告警中詳細(xì)介紹。

2.?故障監(jiān)控

結(jié)合實(shí)際業(yè)務(wù)和需求,筆者將之分為故障日志監(jiān)控、故障告警監(jiān)控;

故障日志監(jiān)控:以單條故障作為最小顆粒度,對(duì)單臺(tái)設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控和記錄;

故障告警監(jiān)控:以一條告警任務(wù)作為做小顆粒度,對(duì)單臺(tái)設(shè)備的實(shí)時(shí)狀態(tài)和維護(hù)進(jìn)度進(jìn)行記錄,并在運(yùn)維人員維護(hù)完畢后同步告警任務(wù)及設(shè)備狀態(tài)。

圍繞故障監(jiān)控的相關(guān)概念,開展設(shè)計(jì)如下:

故障日志監(jiān)控

以單臺(tái)設(shè)備—單條故障碼的形式進(jìn)行列表實(shí)時(shí)展示,功能上實(shí)現(xiàn)一定字段的查詢、篩選和導(dǎo)出。

故障告警監(jiān)控

通過“單臺(tái)設(shè)備—單個(gè)告警”的形式進(jìn)行列表展示,單個(gè)告警可包含多條故障,最終以告警任務(wù)的狀態(tài)作為閉環(huán)監(jiān)控的最后關(guān)鍵節(jié)點(diǎn)。功能設(shè)計(jì)上實(shí)現(xiàn)一定字段的查詢、篩選和導(dǎo)出,同時(shí)對(duì)單臺(tái)無人設(shè)備的告警任務(wù),提供任務(wù)內(nèi)詳情查看(如告警任務(wù)領(lǐng)取時(shí)間、告警任務(wù)領(lǐng)取人員等信息)。

3. 故障告警

行業(yè)內(nèi)對(duì)于“故障告警”在產(chǎn)品層面有多種實(shí)現(xiàn)方式,筆者在研究了多個(gè)產(chǎn)品并調(diào)研了業(yè)務(wù)需求后,將故障告警理解為故障告警策略,并將之拆分為如下幾個(gè)組成部分:

故障告警策略 = 告警名稱 + 告警對(duì)象 + 告警指標(biāo) + 觸發(fā)條件 + 消息推送;

告警名稱:即整條告警指標(biāo)的名稱,比如告警指標(biāo)-“溫度異?!?,可命名為xx設(shè)備溫度過高告警;

告警對(duì)象:即該告警對(duì)哪些設(shè)備有效,在無人零售行業(yè),該類設(shè)備大多為飲料機(jī)、彈簧機(jī)、掛鉤機(jī)、綜合機(jī)、無人貨架、無人貨柜等;

告警指標(biāo):即對(duì)某一個(gè)或某一類故障統(tǒng)一指定的告警名稱,該處設(shè)計(jì)在產(chǎn)品層面體現(xiàn)在將多個(gè)同類的故障歸類為單一的告警指標(biāo);比方說,溫度過低&溫度過高,實(shí)際為兩條故障碼,但可以人為將之合并為一條告警指標(biāo)—“溫度異常”;該設(shè)計(jì)的優(yōu)勢在于,一線的運(yùn)維工作者不用針對(duì)一類故障去逐一對(duì)接和記憶故障碼和故障名稱,取而代之的是僅記憶一條告警指標(biāo)即可;

觸發(fā)條件:指觸發(fā)告警任務(wù)生成的的條件,筆者根據(jù)實(shí)際業(yè)務(wù)將觸發(fā)條件大致分為如下三類:

消息推送:指通過一定的渠道,將消息推送到相關(guān)權(quán)限人員的手機(jī)客戶端中;

圍繞上述幾個(gè)組成部分,開展產(chǎn)品設(shè)計(jì),原則為:配置規(guī)則簡單靈活,自定義指標(biāo)值,自定義觸發(fā)條件,自定義消息推送渠道。

進(jìn)入告警配置列表:實(shí)現(xiàn)多字段查詢和篩選、新增告警、編輯告警、關(guān)閉和啟用告警。

新增告警配置:輸入告警名稱,選擇對(duì)應(yīng)的告警對(duì)象,告警指標(biāo)可自由選擇,觸發(fā)條件為筆者結(jié)合實(shí)際業(yè)務(wù)需求后制定的初步方案,基本覆蓋所有的告警指標(biāo)并支持自定義值;

消息推送默認(rèn)為內(nèi)部app友智慧,運(yùn)維人員可通過手機(jī)客戶端實(shí)時(shí)接收告警推送消息。此處筆者不建議各位同學(xué)們使用平臺(tái)消息推送,因?yàn)锽端平臺(tái)網(wǎng)頁的自動(dòng)刷新會(huì)給服務(wù)器帶來一定的負(fù)荷,但手動(dòng)刷新對(duì)人的要求較高,所以不推薦;郵件推送的方式可根據(jù)實(shí)際情況選用。

4. 告警處理

即一線運(yùn)維人員通過手機(jī)客戶端接收告警消息并領(lǐng)取,直到在設(shè)備點(diǎn)位處維護(hù)完成的過程,該過程為故障告警閉環(huán)的重要一環(huán);

告警處理分為:告警消息接收 + 告警任務(wù)領(lǐng)取 + 機(jī)器端故障維護(hù)和清除。

告警處理的設(shè)計(jì)原則為:消息展示清晰、消息內(nèi)容簡單易懂、告警任務(wù)領(lǐng)取方便、機(jī)器端告警清除方便。之所以將告警清除放在機(jī)器端是為了在一定程度上防止人員操作的漏洞…(此處省略100個(gè)字);

圍繞上述原則,開展產(chǎn)品設(shè)計(jì):

首先為運(yùn)維人員手機(jī)端

提供告警任務(wù)清單和優(yōu)先級(jí)排序(優(yōu)先級(jí)排序根據(jù)業(yè)務(wù)不同,策略邏輯差異較大,此處筆者就跳過了),同時(shí)告警詳情中對(duì)單臺(tái)無人設(shè)備下的多個(gè)告警任務(wù)可進(jìn)行自由接取,并支持批量接取,接取任務(wù)后同步接取信息至服務(wù)器。

此處筆者將告警任務(wù)設(shè)計(jì)為了搶單式,而非傳統(tǒng)的派單式,對(duì)于搶單式vs派單式的優(yōu)缺點(diǎn),有興趣的同學(xué)可作深度研究,此處筆者就省略1000字了~

最后為機(jī)器端

運(yùn)維人員在設(shè)備維護(hù)完成后,通過無人設(shè)備的屏幕進(jìn)入維護(hù)界面,清除相應(yīng)的告警,此時(shí)告警完成,完成情況同步至后臺(tái)服務(wù)器,整個(gè)運(yùn)維故障告警閉環(huán)即宣告完成。

總結(jié)

在整個(gè)告警閉環(huán)的設(shè)計(jì)中,通過明確告警即制定告警策略,針對(duì)告警策略進(jìn)行拆解,同時(shí)結(jié)合真實(shí)的業(yè)務(wù)場景需求制定了匹配業(yè)務(wù)的告警觸發(fā)條件,最終形成有效的告警推送并由客戶端接收和落地執(zhí)行。

此外,平臺(tái)仍能針對(duì)幾個(gè)方面進(jìn)行持續(xù)性的優(yōu)化:

  1. 更簡單快捷的告警配置方式;
  2. 更加細(xì)分的告警對(duì)象來提升告警的精準(zhǔn)度;
  3. 更加符合業(yè)務(wù)目標(biāo)的告警觸發(fā)條件。

 

本文由 @Mr.張錦鯉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 故障數(shù)據(jù)篩選和過濾,是通過產(chǎn)品邏輯實(shí)現(xiàn)的嘛

    來自山東 回復(fù)
  2. 寫的很專業(yè)

    來自上海 回復(fù)
  3. 請(qǐng)問故障類型是啥

    來自江蘇 回復(fù)
  4. 讓我有了很系統(tǒng)的了解,感謝,寫得真好,完全理解了

    來自北京 回復(fù)
  5. 您好,圖中的系統(tǒng)可以看下嗎,我可以聯(lián)系您嗎,您的微信多少

    回復(fù)
    1. 可以參考下阿里云哈

      回復(fù)
    2. 您是參考那里的嗎

      回復(fù)
    3. 阿里云、華為云都是可以的

      回復(fù)
  6. 很棒的分享。不過運(yùn)維人員搶單模式這個(gè)在企業(yè)內(nèi)部方便實(shí)現(xiàn)么?

    來自湖南 回復(fù)
    1. 這個(gè)可能需要從運(yùn)維人員的業(yè)績構(gòu)成的角度去入手,同時(shí)產(chǎn)品層面通過個(gè)人or分公司完成情況的數(shù)據(jù)看板進(jìn)行激勵(lì),兩步走吧,不過還需要更多的實(shí)踐,無人零售行業(yè)目前這塊兒相對(duì)還沒那么系統(tǒng)。

      回復(fù)
    2. 您好!我想問一下現(xiàn)在這種無人設(shè)備的運(yùn)維工單,工單處理人員什么邏輯
      去處理,如果需要多個(gè)處理人員處理,工單怎么體現(xiàn)每個(gè)人的工作量

      來自山東 回復(fù)