無人零售產(chǎn)品:如何從0-1搭建運(yùn)維故障告警平臺(tái)?
筆者在近期的日常工作中,發(fā)現(xiàn)公司內(nèi)對(duì)于無人設(shè)備的故障告警和維護(hù)長久以來沒有形成一個(gè)完整的業(yè)務(wù)閉環(huán),導(dǎo)致一線的運(yùn)維工作人員效率較低,對(duì)用戶的體驗(yàn)也造成了一定的負(fù)面影響。因此,筆者針對(duì)性的研究了行業(yè)內(nèi)的相關(guān)產(chǎn)品,同時(shí)對(duì)相關(guān)業(yè)務(wù)人員的需求進(jìn)行了調(diào)研,最終初步形成了運(yùn)維故障告警平臺(tái)。
01 引入概念
1. 什么是告警?
顧名思義,即系統(tǒng)發(fā)生故障時(shí),監(jiān)控單元根據(jù)指定的告警策略,通過提前確定好的推送渠道,將告警通知推送給指定的接收方(服務(wù)端、客戶端)。
2. 什么是無人設(shè)備的故障告警閉環(huán)?
具體如下圖:
- 機(jī)器端:設(shè)備通過工控將出發(fā)的軟件or硬件故障同步到監(jiān)控平臺(tái)(服務(wù)端);
- 服務(wù)端:監(jiān)控平臺(tái)經(jīng)過一系列的告警策略,將告警消息推送至運(yùn)維人員(客戶端);
- 客戶端:運(yùn)維人員接收告警通知后,到設(shè)備點(diǎn)位處維護(hù)設(shè)備;
- 機(jī)器端:設(shè)備維護(hù)完成,更新設(shè)備狀態(tài)并上傳到服務(wù)端。
02 用戶畫像和需求
1. 用戶A
小張,男,25歲,一線運(yùn)維工作人員
負(fù)責(zé)xx分公司xx線路的設(shè)備故障維護(hù)工作。由于下屬負(fù)責(zé)的區(qū)域較廣,區(qū)域內(nèi)無人設(shè)備數(shù)量較多,隨之而來的故障也較多。小張對(duì)于故障的接收仍依賴于設(shè)備場地方工作人員的投訴、客服人員的短信以及補(bǔ)貨人員的信息同步。
希望有一個(gè)故障告警的推送服務(wù),實(shí)時(shí)告知他哪臺(tái)設(shè)備有故障需要維護(hù),哪條告警優(yōu)先級(jí)更高更緊急,該推送服務(wù)將會(huì)極大提升他的日常工作效率。
2. 用戶B
老李,男,30歲,總部項(xiàng)目運(yùn)營負(fù)責(zé)人
負(fù)責(zé)公司總部xx無人設(shè)備產(chǎn)品的線下運(yùn)營。由于工作壓力大,責(zé)任大,每天都需要對(duì)全國設(shè)備的運(yùn)行情況有一個(gè)整體的掌握,但目前對(duì)設(shè)備運(yùn)營狀態(tài)的了解手段還停留在初級(jí)階段,需要每日讓下屬收集數(shù)據(jù),過程較為繁瑣,同時(shí)效率較低,時(shí)間成本較高。
希望有一個(gè)實(shí)時(shí)的故障監(jiān)控平臺(tái),能讓他任何時(shí)候都能了解到全國無人設(shè)備的運(yùn)營情況、故障情況以及告警處理情況。
03 功能結(jié)構(gòu)組成
在調(diào)研了行業(yè)內(nèi)產(chǎn)品和用戶需求后,筆者將運(yùn)維故障告警平臺(tái)的組成拆分為如下幾個(gè)部分:
故障數(shù)據(jù)+故障監(jiān)控+故障告警+告警處理+設(shè)備健康度評(píng)分
1. 故障數(shù)據(jù)
關(guān)于故障數(shù)據(jù),筆者建議可從如下幾步著手:
故障數(shù)據(jù)分類 + 故障數(shù)據(jù)存儲(chǔ) + 故障數(shù)據(jù)篩選和過濾 + 故障數(shù)據(jù)倉庫產(chǎn)品化
故障分類:行業(yè)內(nèi)對(duì)于無人設(shè)備故障的分類大多較為成熟,具體舉例如下:
對(duì)于不同類型的故障,將制定針對(duì)性的告警策略用于告警的觸發(fā)和推送。
故障數(shù)據(jù)存儲(chǔ):根據(jù)無人設(shè)備的軟硬件底層設(shè)計(jì),提前制定一套相對(duì)匹配公司業(yè)務(wù)需求的存儲(chǔ)字段,如設(shè)備號(hào)、故障名稱、故障碼、故障開始時(shí)間、恢復(fù)時(shí)間、持續(xù)時(shí)間、故障次數(shù)等;至于數(shù)據(jù)存儲(chǔ)的邏輯,由于不同的產(chǎn)品業(yè)務(wù)差異較大,筆者就不過多贅述了;
故障數(shù)據(jù)篩選和過濾:即人為過濾掉不影響無人設(shè)備正常交易的故障或是運(yùn)營運(yùn)維人員在補(bǔ)理貨和維護(hù)故障時(shí)產(chǎn)生的干擾性故障;
好處是:
- 減少干擾性故障,聚焦關(guān)鍵故障;
- 降低運(yùn)維人員的關(guān)注成本,提高工作效率;
數(shù)據(jù)倉庫產(chǎn)品化:通過一定的形式將每一條故障保存至產(chǎn)品化倉庫中,便于后期及時(shí)更新和維護(hù);圍繞數(shù)據(jù)倉庫,開展產(chǎn)品設(shè)計(jì):
故障的展示方式如上:通過故障碼+故障名稱+故障類型+告警指標(biāo)+緊急度+解放方案的形式進(jìn)行維護(hù),產(chǎn)品功能設(shè)計(jì)上支持:
- 故障新增;
- 故障查詢;
- 故障編輯;
- 告警指標(biāo)的新增;
當(dāng)然,故障碼的新增依賴于設(shè)備最初在軟硬件層面的底層設(shè)計(jì),有興趣的同學(xué)可以進(jìn)行更深層次的研究和學(xué)習(xí),筆者就不作詳細(xì)介紹了;
對(duì)于“單個(gè)故障”和“告警指標(biāo)”的對(duì)應(yīng)關(guān)系,將在接下來的故障告警中詳細(xì)介紹。
2.?故障監(jiān)控
結(jié)合實(shí)際業(yè)務(wù)和需求,筆者將之分為故障日志監(jiān)控、故障告警監(jiān)控;
故障日志監(jiān)控:以單條故障作為最小顆粒度,對(duì)單臺(tái)設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控和記錄;
故障告警監(jiān)控:以一條告警任務(wù)作為做小顆粒度,對(duì)單臺(tái)設(shè)備的實(shí)時(shí)狀態(tài)和維護(hù)進(jìn)度進(jìn)行記錄,并在運(yùn)維人員維護(hù)完畢后同步告警任務(wù)及設(shè)備狀態(tài)。
圍繞故障監(jiān)控的相關(guān)概念,開展設(shè)計(jì)如下:
故障日志監(jiān)控
以單臺(tái)設(shè)備—單條故障碼的形式進(jìn)行列表實(shí)時(shí)展示,功能上實(shí)現(xiàn)一定字段的查詢、篩選和導(dǎo)出。
故障告警監(jiān)控
通過“單臺(tái)設(shè)備—單個(gè)告警”的形式進(jìn)行列表展示,單個(gè)告警可包含多條故障,最終以告警任務(wù)的狀態(tài)作為閉環(huán)監(jiān)控的最后關(guān)鍵節(jié)點(diǎn)。功能設(shè)計(jì)上實(shí)現(xiàn)一定字段的查詢、篩選和導(dǎo)出,同時(shí)對(duì)單臺(tái)無人設(shè)備的告警任務(wù),提供任務(wù)內(nèi)詳情查看(如告警任務(wù)領(lǐng)取時(shí)間、告警任務(wù)領(lǐng)取人員等信息)。
3. 故障告警
行業(yè)內(nèi)對(duì)于“故障告警”在產(chǎn)品層面有多種實(shí)現(xiàn)方式,筆者在研究了多個(gè)產(chǎn)品并調(diào)研了業(yè)務(wù)需求后,將故障告警理解為故障告警策略,并將之拆分為如下幾個(gè)組成部分:
故障告警策略 = 告警名稱 + 告警對(duì)象 + 告警指標(biāo) + 觸發(fā)條件 + 消息推送;
告警名稱:即整條告警指標(biāo)的名稱,比如告警指標(biāo)-“溫度異?!?,可命名為xx設(shè)備溫度過高告警;
告警對(duì)象:即該告警對(duì)哪些設(shè)備有效,在無人零售行業(yè),該類設(shè)備大多為飲料機(jī)、彈簧機(jī)、掛鉤機(jī)、綜合機(jī)、無人貨架、無人貨柜等;
告警指標(biāo):即對(duì)某一個(gè)或某一類故障統(tǒng)一指定的告警名稱,該處設(shè)計(jì)在產(chǎn)品層面體現(xiàn)在將多個(gè)同類的故障歸類為單一的告警指標(biāo);比方說,溫度過低&溫度過高,實(shí)際為兩條故障碼,但可以人為將之合并為一條告警指標(biāo)—“溫度異常”;該設(shè)計(jì)的優(yōu)勢在于,一線的運(yùn)維工作者不用針對(duì)一類故障去逐一對(duì)接和記憶故障碼和故障名稱,取而代之的是僅記憶一條告警指標(biāo)即可;
觸發(fā)條件:指觸發(fā)告警任務(wù)生成的的條件,筆者根據(jù)實(shí)際業(yè)務(wù)將觸發(fā)條件大致分為如下三類:
消息推送:指通過一定的渠道,將消息推送到相關(guān)權(quán)限人員的手機(jī)客戶端中;
圍繞上述幾個(gè)組成部分,開展產(chǎn)品設(shè)計(jì),原則為:配置規(guī)則簡單靈活,自定義指標(biāo)值,自定義觸發(fā)條件,自定義消息推送渠道。
進(jìn)入告警配置列表:實(shí)現(xiàn)多字段查詢和篩選、新增告警、編輯告警、關(guān)閉和啟用告警。
新增告警配置:輸入告警名稱,選擇對(duì)應(yīng)的告警對(duì)象,告警指標(biāo)可自由選擇,觸發(fā)條件為筆者結(jié)合實(shí)際業(yè)務(wù)需求后制定的初步方案,基本覆蓋所有的告警指標(biāo)并支持自定義值;
消息推送默認(rèn)為內(nèi)部app友智慧,運(yùn)維人員可通過手機(jī)客戶端實(shí)時(shí)接收告警推送消息。此處筆者不建議各位同學(xué)們使用平臺(tái)消息推送,因?yàn)锽端平臺(tái)網(wǎng)頁的自動(dòng)刷新會(huì)給服務(wù)器帶來一定的負(fù)荷,但手動(dòng)刷新對(duì)人的要求較高,所以不推薦;郵件推送的方式可根據(jù)實(shí)際情況選用。
4. 告警處理
即一線運(yùn)維人員通過手機(jī)客戶端接收告警消息并領(lǐng)取,直到在設(shè)備點(diǎn)位處維護(hù)完成的過程,該過程為故障告警閉環(huán)的重要一環(huán);
告警處理分為:告警消息接收 + 告警任務(wù)領(lǐng)取 + 機(jī)器端故障維護(hù)和清除。
告警處理的設(shè)計(jì)原則為:消息展示清晰、消息內(nèi)容簡單易懂、告警任務(wù)領(lǐng)取方便、機(jī)器端告警清除方便。之所以將告警清除放在機(jī)器端是為了在一定程度上防止人員操作的漏洞…(此處省略100個(gè)字);
圍繞上述原則,開展產(chǎn)品設(shè)計(jì):
首先為運(yùn)維人員手機(jī)端
提供告警任務(wù)清單和優(yōu)先級(jí)排序(優(yōu)先級(jí)排序根據(jù)業(yè)務(wù)不同,策略邏輯差異較大,此處筆者就跳過了),同時(shí)告警詳情中對(duì)單臺(tái)無人設(shè)備下的多個(gè)告警任務(wù)可進(jìn)行自由接取,并支持批量接取,接取任務(wù)后同步接取信息至服務(wù)器。
此處筆者將告警任務(wù)設(shè)計(jì)為了搶單式,而非傳統(tǒng)的派單式,對(duì)于搶單式vs派單式的優(yōu)缺點(diǎn),有興趣的同學(xué)可作深度研究,此處筆者就省略1000字了~
最后為機(jī)器端
運(yùn)維人員在設(shè)備維護(hù)完成后,通過無人設(shè)備的屏幕進(jìn)入維護(hù)界面,清除相應(yīng)的告警,此時(shí)告警完成,完成情況同步至后臺(tái)服務(wù)器,整個(gè)運(yùn)維故障告警閉環(huán)即宣告完成。
總結(jié)
在整個(gè)告警閉環(huán)的設(shè)計(jì)中,通過明確告警即制定告警策略,針對(duì)告警策略進(jìn)行拆解,同時(shí)結(jié)合真實(shí)的業(yè)務(wù)場景需求制定了匹配業(yè)務(wù)的告警觸發(fā)條件,最終形成有效的告警推送并由客戶端接收和落地執(zhí)行。
此外,平臺(tái)仍能針對(duì)幾個(gè)方面進(jìn)行持續(xù)性的優(yōu)化:
- 更簡單快捷的告警配置方式;
- 更加細(xì)分的告警對(duì)象來提升告警的精準(zhǔn)度;
- 更加符合業(yè)務(wù)目標(biāo)的告警觸發(fā)條件。
本文由 @Mr.張錦鯉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
故障數(shù)據(jù)篩選和過濾,是通過產(chǎn)品邏輯實(shí)現(xiàn)的嘛
寫的很專業(yè)
請(qǐng)問故障類型是啥
讓我有了很系統(tǒng)的了解,感謝,寫得真好,完全理解了
您好,圖中的系統(tǒng)可以看下嗎,我可以聯(lián)系您嗎,您的微信多少
可以參考下阿里云哈
您是參考那里的嗎
阿里云、華為云都是可以的
很棒的分享。不過運(yùn)維人員搶單模式這個(gè)在企業(yè)內(nèi)部方便實(shí)現(xiàn)么?
這個(gè)可能需要從運(yùn)維人員的業(yè)績構(gòu)成的角度去入手,同時(shí)產(chǎn)品層面通過個(gè)人or分公司完成情況的數(shù)據(jù)看板進(jìn)行激勵(lì),兩步走吧,不過還需要更多的實(shí)踐,無人零售行業(yè)目前這塊兒相對(duì)還沒那么系統(tǒng)。
您好!我想問一下現(xiàn)在這種無人設(shè)備的運(yùn)維工單,工單處理人員什么邏輯
去處理,如果需要多個(gè)處理人員處理,工單怎么體現(xiàn)每個(gè)人的工作量