智能化監(jiān)控告警系統(tǒng):基于物聯(lián)網(wǎng)移動(dòng)網(wǎng)絡(luò)通信服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
監(jiān)控告警系統(tǒng)是一款用于實(shí)時(shí)監(jiān)控各類設(shè)備和系統(tǒng)狀態(tài)的工具,通過采集、分析和處理數(shù)據(jù),生成有價(jià)值的指標(biāo)和警報(bào)信息,并向管理員發(fā)送通知,確保系統(tǒng)穩(wěn)定運(yùn)行。本文作者對(duì)智能化監(jiān)控告警系統(tǒng)進(jìn)行了詳細(xì)的分析,一起來看一下吧。
一、系統(tǒng)概述
監(jiān)控告警系統(tǒng)是一款用于實(shí)時(shí)監(jiān)控各類設(shè)備和系統(tǒng)狀態(tài)的工具,通過采集、分析和處理數(shù)據(jù),生成有價(jià)值的指標(biāo)和警報(bào)信息,并向管理員發(fā)送告警通知,幫助管理員及時(shí)發(fā)現(xiàn)和解決問題,確保系統(tǒng)穩(wěn)定運(yùn)行。
- 保持系統(tǒng)穩(wěn)定:監(jiān)控告警系統(tǒng)需要實(shí)時(shí)監(jiān)控系統(tǒng)運(yùn)行狀態(tài),并能夠及時(shí)發(fā)現(xiàn)問題和異常情況,及時(shí)發(fā)出告警通知并迅速響應(yīng)異常,以便管理員采取及時(shí)措施。
- 優(yōu)化運(yùn)營(yíng)策略:監(jiān)控告警系統(tǒng)支持對(duì)各項(xiàng)運(yùn)營(yíng)指標(biāo)進(jìn)行監(jiān)控以及分析,幫助運(yùn)營(yíng)人員及時(shí)調(diào)整運(yùn)營(yíng)策略,提高運(yùn)營(yíng)工作效率。例如通過監(jiān)控設(shè)備的流量使用情況,合理調(diào)整不同套餐的限速策略,避免出現(xiàn)用戶薅羊毛行為導(dǎo)致的流量浪費(fèi);
- 改善服務(wù)質(zhì)量:監(jiān)控告警系統(tǒng)支持對(duì)設(shè)備和系統(tǒng)狀態(tài)的數(shù)據(jù)進(jìn)行采集和分析,生成有價(jià)值的指標(biāo)和警報(bào)信息,及時(shí)發(fā)現(xiàn)并解決問題,避免用戶受到影響,提高用戶體驗(yàn)。例如通過監(jiān)控設(shè)備的故障率,當(dāng)出現(xiàn)大規(guī)模的設(shè)備故障時(shí),能第一時(shí)間介入解決問題,避免設(shè)備故障導(dǎo)致用戶無法使用服務(wù)。
- 實(shí)現(xiàn)成本控制:監(jiān)控告警系統(tǒng)支持對(duì)成本相關(guān)指標(biāo)進(jìn)行監(jiān)控以及分析,幫助運(yùn)營(yíng)人員掌握SIM卡資源的使用情況,有效地控制成本。例如,通過監(jiān)控 SIM 卡庫(kù)存情況,合理調(diào)整采購(gòu) SIM 卡策略,避免庫(kù)存過高或過低帶來的損失。
- 性能和可擴(kuò)展性:監(jiān)控告警系統(tǒng)需要具有良好的性能和可擴(kuò)展性,以應(yīng)對(duì)大量數(shù)據(jù)的處理和分析。
- 安全和風(fēng)險(xiǎn)管理:監(jiān)控告警系統(tǒng)需要具備安全和風(fēng)險(xiǎn)管理機(jī)制,以保證數(shù)據(jù)的機(jī)密性和完整性。同時(shí)需要進(jìn)行備份和恢復(fù)策略的設(shè)計(jì),以應(yīng)對(duì)系統(tǒng)出現(xiàn)故障的情況。
二、功能模塊
系統(tǒng)主要包括數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊、告警通知模塊、告警處理模塊、數(shù)據(jù)展示模塊、管理界面模塊等多個(gè)功能模塊。
- 數(shù)據(jù)采集模塊:負(fù)責(zé)采集各個(gè)模塊的數(shù)據(jù),包括但不限于平臺(tái)系統(tǒng)、SIM卡、設(shè)備等產(chǎn)生的數(shù)據(jù)。采集的數(shù)據(jù)會(huì)存儲(chǔ)到對(duì)應(yīng)的數(shù)據(jù)庫(kù)中,供后續(xù)分析使用。
- 數(shù)據(jù)分析模塊:負(fù)責(zé)對(duì)采集到的數(shù)據(jù)進(jìn)行處理、分析和計(jì)算,從而得出有價(jià)值的指標(biāo)和警報(bào)信息。數(shù)據(jù)處理模塊包括數(shù)據(jù)分析、告警規(guī)則和算法等子模塊。
- 告警通知模塊:負(fù)責(zé)向管理員發(fā)送數(shù)據(jù)分析模塊生成的警報(bào)通知,包括短信、郵件、即時(shí)消息等多種形式。管理員可以根據(jù)自己的需求,選擇接收告警通知的方式。
- 告警處理模塊:負(fù)責(zé)記錄告警信息的處理情況,包括告警信息是否已經(jīng)被處理,處理結(jié)果如何等。管理員在收到告警通知后,采取措施解決問題,并將處理情況記錄,以便后續(xù)分析和跟蹤。
- 數(shù)據(jù)展示模塊:負(fù)責(zé)將監(jiān)控?cái)?shù)據(jù)以及分析結(jié)果以Dashboard的形式展示出來,幫助管理員更直觀地了解系統(tǒng)運(yùn)行狀況。例如,管理員可以通過數(shù)據(jù)展示模塊查看在線設(shè)備數(shù)的歷史趨勢(shì),以便更好地調(diào)整運(yùn)營(yíng)策略。
- 管理界面模塊:提供監(jiān)控告警系統(tǒng)的管理界面,管理員可以通過該界面進(jìn)行系統(tǒng)配置、警報(bào)設(shè)置、數(shù)據(jù)查看等操作。管理員可以在該界面中設(shè)置預(yù)警閾值等參數(shù),用于數(shù)據(jù)分析模塊的判斷標(biāo)準(zhǔn)。
三、數(shù)據(jù)采集以及存儲(chǔ)
數(shù)據(jù)采集和存儲(chǔ)是監(jiān)控告警系統(tǒng)中非常重要的環(huán)節(jié)。一方面,數(shù)據(jù)的質(zhì)量和及時(shí)性決定了監(jiān)控告警系統(tǒng)的準(zhǔn)確度和實(shí)時(shí)性;另一方面,數(shù)據(jù)的存儲(chǔ)和處理能力也會(huì)對(duì)系統(tǒng)的性能和可擴(kuò)展性產(chǎn)生重大影響。
1. 數(shù)據(jù)采集
在監(jiān)控告警系統(tǒng)中,需要采集各個(gè)業(yè)務(wù)系統(tǒng)、設(shè)備、應(yīng)用程序以及核心指標(biāo)的數(shù)據(jù),包括但不限于服務(wù)器負(fù)載、網(wǎng)絡(luò)延遲、存儲(chǔ)空間、設(shè)備故障率、用戶訪問量等。數(shù)據(jù)采集的方式可以通過定時(shí)輪詢、推送通知等多種方式進(jìn)行。
一種常見的數(shù)據(jù)采集方式是通過輪詢獲取各個(gè)監(jiān)控對(duì)象的數(shù)據(jù)。輪詢方式通常會(huì)周期性地向監(jiān)控對(duì)象發(fā)送請(qǐng)求,并獲取相應(yīng)的數(shù)據(jù)。通過這種方式,可以快速、準(zhǔn)確地獲取監(jiān)控對(duì)象的數(shù)據(jù),但同時(shí)也會(huì)增加系統(tǒng)的負(fù)載和網(wǎng)絡(luò)流量。
另一種數(shù)據(jù)采集方式是通過推送通知的方式獲取數(shù)據(jù)。在這種方式下,監(jiān)控對(duì)象會(huì)主動(dòng)將自己的狀態(tài)信息推送給監(jiān)控告警系統(tǒng),監(jiān)控告警系統(tǒng)只需要監(jiān)聽推送通知并接收數(shù)據(jù)即可。這種方式能夠?qū)崿F(xiàn)實(shí)時(shí)數(shù)據(jù)采集,避免了輪詢方式下可能存在的延遲和不準(zhǔn)確性。
2. 數(shù)據(jù)存儲(chǔ)
采集到的數(shù)據(jù)需要進(jìn)行存儲(chǔ),以便后續(xù)的數(shù)據(jù)分析和指標(biāo)生成。監(jiān)控告警系統(tǒng)通常會(huì)采用分布式存儲(chǔ)方案,以保證數(shù)據(jù)的高可靠性和高可用性。常見的分布式存儲(chǔ)方案包括主從架構(gòu)、集群架構(gòu)等。
主從架構(gòu)一般是指將數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)上,然后通過從節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行備份和冗余。主節(jié)點(diǎn)和從節(jié)點(diǎn)之間通過數(shù)據(jù)同步機(jī)制進(jìn)行數(shù)據(jù)同步,保證數(shù)據(jù)的可靠性和一致性。主從架構(gòu)方案適用于數(shù)據(jù)量比較小的場(chǎng)景,相比于集群架構(gòu),主從架構(gòu)的實(shí)現(xiàn)成本更低。
集群架構(gòu)則是將數(shù)據(jù)存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)都可以讀寫數(shù)據(jù)。在數(shù)據(jù)寫入時(shí),系統(tǒng)會(huì)將數(shù)據(jù)分散到不同的節(jié)點(diǎn)上,以提高數(shù)據(jù)寫入的性能和可擴(kuò)展性。集群架構(gòu)適用于數(shù)據(jù)量較大或讀寫請(qǐng)求較為頻繁的場(chǎng)景,但相對(duì)于主從架構(gòu),其實(shí)現(xiàn)成本更高。
此外,為了提高系統(tǒng)性能和查詢效率,監(jiān)控告警系統(tǒng)還可以采用數(shù)據(jù)分片、索引優(yōu)化等技術(shù)進(jìn)行優(yōu)化。數(shù)據(jù)分片可以將數(shù)據(jù)劃分為多個(gè)部分,分別存儲(chǔ)到不同的節(jié)點(diǎn)中,從而提高數(shù)據(jù)的并發(fā)讀寫能力和可擴(kuò)展性。索引優(yōu)化則可以通過建立適當(dāng)?shù)乃饕Y(jié)構(gòu),加快數(shù)據(jù)的查詢速度和準(zhǔn)確性。
四、指標(biāo)生成以及警報(bào)信息
在監(jiān)控告警系統(tǒng)中,指標(biāo)生成和警報(bào)信息是核心功能之一。通過采集和存儲(chǔ)的數(shù)據(jù),系統(tǒng)需要對(duì)其進(jìn)行分析和計(jì)算,生成各種監(jiān)控指標(biāo),并及時(shí)發(fā)出警報(bào)信息,提醒相關(guān)人員進(jìn)行處理和調(diào)整。
1. 數(shù)據(jù)分析
數(shù)據(jù)分析模塊的主要任務(wù)是對(duì)采集到的數(shù)據(jù)進(jìn)行處理和分析,以便生成相應(yīng)的監(jiān)控指標(biāo)和監(jiān)控報(bào)告。在數(shù)據(jù)分析的過程中,需要考慮如下幾個(gè)方面:
- 數(shù)據(jù)分析算法和模型的選擇:根據(jù)不同的監(jiān)控對(duì)象和指標(biāo),采用不同的算法和模型進(jìn)行處理。例如,對(duì)于網(wǎng)絡(luò)延遲和丟包率等指標(biāo),可以采用線性回歸、異常檢測(cè)等算法來進(jìn)行分析和處理。
- 實(shí)時(shí)分析和計(jì)算:根據(jù)預(yù)設(shè)的規(guī)則和算法對(duì)采集到的數(shù)據(jù)進(jìn)行實(shí)時(shí)分析和計(jì)算,并將生成的指標(biāo)和警報(bào)信息存儲(chǔ)到相應(yīng)的數(shù)據(jù)庫(kù)中,以供后續(xù)查詢和使用。例如,對(duì)于可分配卡數(shù)和已分配卡數(shù)等卡庫(kù)存相關(guān)指標(biāo),需要進(jìn)行實(shí)時(shí)計(jì)算統(tǒng)計(jì),避免出現(xiàn)卡庫(kù)存不足導(dǎo)致的服務(wù)故障;
- 可視化和報(bào)告生成:為了能讓用戶進(jìn)行更加直觀和方便的數(shù)據(jù)分析和決策,需要將分析結(jié)果以可視化的形式展示出來。例如,對(duì)于故障設(shè)備率和故障設(shè)備數(shù)等指標(biāo),可以按照時(shí)間線使用折線趨勢(shì)圖來進(jìn)行展示。
2. 指標(biāo)生成
指標(biāo)生成模塊通常會(huì)從存儲(chǔ)的數(shù)據(jù)中,提取出關(guān)鍵的業(yè)務(wù)指標(biāo)和監(jiān)控指標(biāo),并將其計(jì)算、轉(zhuǎn)換、聚合等操作,生成新的指標(biāo)數(shù)據(jù)。監(jiān)控指標(biāo)可以分為系統(tǒng)級(jí)別指標(biāo)、應(yīng)用級(jí)別指標(biāo)以及業(yè)務(wù)定制化指標(biāo):
- 系統(tǒng)級(jí)別指標(biāo)包括CPU利用率、內(nèi)存利用率、磁盤空間利用率等,可以幫助管理員全面了解系統(tǒng)的狀態(tài)和性能。
- 應(yīng)用級(jí)別指標(biāo)則更加細(xì)化,如某個(gè)應(yīng)用程序的響應(yīng)時(shí)間、訪問量等,可以幫助開發(fā)人員對(duì)應(yīng)用程序進(jìn)行優(yōu)化和調(diào)整。
- 業(yè)務(wù)定制化指標(biāo)通常與業(yè)務(wù)的核心流程和關(guān)鍵性能指標(biāo)相關(guān),可以根據(jù)需求進(jìn)行定制化,以滿足不同用戶的監(jiān)控需求,如卡庫(kù)存、采購(gòu)成本、訂單量、故障設(shè)備率等等。這些指標(biāo)對(duì)于業(yè)務(wù)決策非常關(guān)鍵,可以幫助業(yè)務(wù)人員快速發(fā)現(xiàn)問題,及時(shí)調(diào)整業(yè)務(wù)策略,提高業(yè)務(wù)效率和盈利能力。
3. 警報(bào)信息
警報(bào)信息則是根據(jù)指標(biāo)生成模塊生成的監(jiān)控指標(biāo)進(jìn)行判斷和計(jì)算,及時(shí)發(fā)出警報(bào)信息,提醒相關(guān)人員進(jìn)行處理和調(diào)整。
根據(jù)警報(bào)信息的類型和嚴(yán)重程度,可以分為三種:普通告警、嚴(yán)重告警和緊急告警。系統(tǒng)可以根據(jù)不同的告警級(jí)別進(jìn)行靈活配置,如設(shè)置普通告警無需處理,但需要記錄日志;嚴(yán)重告警需要及時(shí)通知相關(guān)人員,以便進(jìn)行處理;緊急告警需要立即采取措施,以避免損失。
五、算法與規(guī)則設(shè)計(jì)
為了能快速、準(zhǔn)確地檢測(cè)到異常情況,及時(shí)發(fā)出警報(bào),需要設(shè)計(jì)各種算法與規(guī)則,用于對(duì)采集到的監(jiān)控?cái)?shù)據(jù)進(jìn)行分析、計(jì)算和判斷,從而生成指標(biāo)和告警信息。
1. 異常檢測(cè)算法
異常檢測(cè)算法是指對(duì)采集到的監(jiān)控?cái)?shù)據(jù)進(jìn)行處理和計(jì)算的算法,識(shí)別出異常情況,主要用于監(jiān)測(cè)設(shè)備、傳感器和其他IOT節(jié)點(diǎn)的狀態(tài)和性能。常見的異常檢測(cè)算法包括:
- 基于統(tǒng)計(jì)的異常檢測(cè)算法:該算法基于統(tǒng)計(jì)學(xué)原理,將各種監(jiān)控指標(biāo)進(jìn)行分析和比較,識(shí)別出與正常情況不符的數(shù)據(jù)點(diǎn)。例如,可以計(jì)算在線故障設(shè)備的歷史數(shù)據(jù)平均值和標(biāo)準(zhǔn)差,然后使用均值加減3倍標(biāo)準(zhǔn)差作為異常檢測(cè)的閾值,超過該閾值的數(shù)據(jù)點(diǎn)將被視為異常數(shù)據(jù)。
- 基于機(jī)器學(xué)習(xí)的異常檢測(cè)算法:該算法利用機(jī)器學(xué)習(xí)技術(shù)對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行分析和建模,從而識(shí)別出與正常情況不符的模式和規(guī)律。例如,可以使用聚類算法對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行分類,然后使用異常檢測(cè)算法對(duì)每個(gè)類別的數(shù)據(jù)進(jìn)行分析和比較,識(shí)別出異常數(shù)據(jù)。
- 基于規(guī)則的異常檢測(cè)算法:該算法通過預(yù)先定義一組規(guī)則,對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行檢測(cè)和分析,識(shí)別出與規(guī)則不符的數(shù)據(jù)點(diǎn)。例如,可以定義規(guī)則檢測(cè)設(shè)備不可用時(shí)長(zhǎng)數(shù)據(jù)是否超過了閾值,如果超過了就視為異常數(shù)據(jù)。
2. 告警規(guī)則設(shè)置
告警規(guī)則需要結(jié)合業(yè)務(wù)需求,通過對(duì)監(jiān)控指標(biāo)進(jìn)行分析和比對(duì),判斷當(dāng)前狀態(tài)是否正常,并生成相應(yīng)的告警信息的規(guī)則。告警規(guī)則需要考慮多個(gè)因素,如監(jiān)控指標(biāo)的變化趨勢(shì)、閾值設(shè)定、告警級(jí)別、告警通知方式等。常用的告警規(guī)則有:
- 閾值告警規(guī)則:該規(guī)則根據(jù)監(jiān)控指標(biāo)的閾值來觸發(fā)警報(bào),例如,當(dāng)可分配SIM卡數(shù)低于閾值時(shí),就會(huì)觸發(fā)警報(bào),并通知相關(guān)人員和部門。
- 持續(xù)時(shí)間告警規(guī)則:該規(guī)則根據(jù)監(jiān)控指標(biāo)的持續(xù)時(shí)間來觸發(fā)警報(bào),例如,當(dāng)在線設(shè)備故障率超過了閾值,并持續(xù)5分鐘以上時(shí),就會(huì)觸發(fā)警報(bào),并通知相關(guān)人員和部門。
- 模式告警規(guī)則:該規(guī)則根據(jù)監(jiān)控指標(biāo)的模式和趨勢(shì)來觸發(fā)警報(bào),例如,當(dāng)在線設(shè)備的可用率在一段時(shí)間內(nèi)一直處于下降趨勢(shì)時(shí),就會(huì)觸發(fā)警報(bào),并通知相關(guān)人員和部門。
- 組合告警規(guī)則:該規(guī)則是將多個(gè)告警規(guī)則進(jìn)行組合,當(dāng)滿足其中一個(gè)或多個(gè)規(guī)則時(shí),就會(huì)觸發(fā)警報(bào),并通知相關(guān)人員和部門。
- 定時(shí)告警規(guī)則:該規(guī)則根據(jù)時(shí)間設(shè)置來觸發(fā)警報(bào),例如,每天下午4點(diǎn)時(shí),對(duì)設(shè)備進(jìn)行一次巡檢,若發(fā)現(xiàn)異常,則觸發(fā)警報(bào),并通知相關(guān)人員和部門。
- 機(jī)器學(xué)習(xí)告警規(guī)則: 機(jī)器學(xué)習(xí)算法可以對(duì)歷史數(shù)據(jù)進(jìn)行分析和建模,根據(jù)數(shù)據(jù)模式來識(shí)別異常行為,并觸發(fā)相應(yīng)的警報(bào)。例如,可以使用機(jī)器學(xué)習(xí)算法來分析設(shè)備的使用流量,當(dāng)出現(xiàn)異常使用流量行為時(shí),就觸發(fā)警報(bào)并通知相關(guān)人員和部門。
- 基于事件的告警規(guī)則: 基于事件的告警規(guī)則可以根據(jù)事件的發(fā)生來觸發(fā)警報(bào)。例如,通過對(duì)設(shè)備狀態(tài)數(shù)據(jù)的監(jiān)測(cè),當(dāng)出現(xiàn)設(shè)備異常故障這些事件時(shí),監(jiān)控系統(tǒng)可以自動(dòng)觸發(fā)警報(bào),并通知相關(guān)人員進(jìn)行故障診斷和修復(fù)。
3. 自動(dòng)化告警處理算法
自動(dòng)化告警處理算法是指對(duì)告警信息進(jìn)行處理和分析的算法,以減輕管理員的工作負(fù)擔(dān)。在物聯(lián)網(wǎng)平臺(tái)中,自動(dòng)化告警處理算法尤其重要,因?yàn)槲锫?lián)網(wǎng)設(shè)備數(shù)量龐大,監(jiān)控指標(biāo)繁多,手動(dòng)處理告警信息幾乎是不可能的。例如,當(dāng)系統(tǒng)出現(xiàn)異常告警時(shí),自動(dòng)化告警處理算法可以自動(dòng)化地進(jìn)行故障定位和修復(fù)操作。
常見的自動(dòng)化告警處理算法包括:
1)自動(dòng)化分析算法
通過對(duì)告警信息進(jìn)行自動(dòng)化分析和處理,提高告警處理的效率和準(zhǔn)確性,減少人工處理的工作量。
- 告警信息的提取和解析:通過自動(dòng)化算法對(duì)監(jiān)控系統(tǒng)采集到的告警信息進(jìn)行提取和解析。例如,從告警信息中提取出關(guān)鍵字、設(shè)備類型、SIM卡信息等重要信息。
- 告警信息的分類:對(duì)采集到的告警信息進(jìn)行分類,以便更快速地找到相關(guān)問題。例如,將告警信息分為硬件故障、網(wǎng)絡(luò)異常、卡故障、系統(tǒng)錯(cuò)誤等類別。
- 告警信息的關(guān)聯(lián)分析:對(duì)不同的告警信息進(jìn)行關(guān)聯(lián)分析,找出異常的根本原因,并對(duì)告警信息進(jìn)行去重,避免重復(fù)處理同一問題。例如,將不同設(shè)備之間的告警信息進(jìn)行關(guān)聯(lián)分析,找出故障的根本原因。
- 告警信息的預(yù)測(cè)分析:通過對(duì)歷史數(shù)據(jù)的分析,預(yù)測(cè)未來可能出現(xiàn)的故障情況。例如,通過對(duì)設(shè)備運(yùn)行數(shù)據(jù)的分析,預(yù)測(cè)未來可能出現(xiàn)的設(shè)備故障情況,提前進(jìn)行維護(hù)和修復(fù)。
2)自動(dòng)告警處理算法
根據(jù)預(yù)設(shè)的規(guī)則自動(dòng)執(zhí)行一定的處理動(dòng)作,如發(fā)送短信、郵件等通知方式。
- 發(fā)送通知:根據(jù)預(yù)設(shè)的規(guī)則,自動(dòng)發(fā)送通知消息,如短信、郵件等,通知相關(guān)人員或部門進(jìn)行處理。
- 執(zhí)行預(yù)設(shè)操作:根據(jù)預(yù)設(shè)的規(guī)則,自動(dòng)執(zhí)行一些操作,如重啟設(shè)備、調(diào)整設(shè)備配置等。
- 自動(dòng)調(diào)整策略:根據(jù)預(yù)設(shè)的規(guī)則,自動(dòng)調(diào)整監(jiān)控策略,例如調(diào)整監(jiān)控閾值等。
- 自動(dòng)忽略告警:根據(jù)預(yù)設(shè)的規(guī)則,自動(dòng)判斷告警是否需要處理,如果不需要?jiǎng)t忽略。
- 自動(dòng)關(guān)閉告警:根據(jù)預(yù)設(shè)的規(guī)則,自動(dòng)關(guān)閉已經(jīng)處理完畢的告警。
六、告警通知的實(shí)現(xiàn)
告警系統(tǒng)發(fā)現(xiàn)問題并生成告警時(shí),告警通知模塊會(huì)自動(dòng)觸發(fā),并將告警信息通知給相關(guān)人員和部門,以便及時(shí)采取措施解決問題。以物聯(lián)網(wǎng)移動(dòng)網(wǎng)絡(luò)通信服務(wù)平臺(tái)為例,當(dāng)監(jiān)控系統(tǒng)發(fā)現(xiàn)問題時(shí),告警通知模塊會(huì)自動(dòng)觸發(fā)并發(fā)送告警通知,具體步驟如下:
1)告警生成:監(jiān)控系統(tǒng)檢測(cè)到異常情況并生成告警信息。
2)告警分類:告警通知模塊對(duì)告警信息進(jìn)行分類,根據(jù)不同的告警等級(jí)和類型,選擇相應(yīng)的通知方式和接收人員。
3)通知方式選擇:告警通知模塊根據(jù)用戶設(shè)置的通知方式,選擇合適的方式通知相關(guān)人員。例如,對(duì)于緊急的告警,可以通過短信或電話通知負(fù)責(zé)人員;對(duì)于普通的告警,可以通過郵件或即時(shí)通訊工具(企業(yè)微信或釘釘?shù)龋┩ㄖ嚓P(guān)人員,低級(jí)別告警則在大屏幕上進(jìn)行展示即可。
- 郵件通知:將告警信息通過郵件發(fā)送給相關(guān)人員或部門。該方式適用于需要及時(shí)通知并且信息量較大的告警情況。
- 短信通知:將告警信息以短信的形式發(fā)送給相關(guān)人員或部門。該方式適用于需要緊急通知但信息量較少的告警情況。
- 語(yǔ)音電話通知:將告警信息通過語(yǔ)音電話形式通知相關(guān)人員或部門。該方式適用于需要緊急通知但又不能立即查看信息的告警情況。
- 微信/釘釘/企業(yè)微信等即時(shí)通訊工具通知:將告警信息通過即時(shí)通訊工具發(fā)送給相關(guān)人員或部門。該方式適用于需要及時(shí)通知且方便處理的告警情況。
- 大屏幕展示:將告警信息以可視化的形式展示在大屏幕上,方便相關(guān)人員實(shí)時(shí)了解監(jiān)控情況。
- 應(yīng)用內(nèi)通知:當(dāng)監(jiān)控系統(tǒng)產(chǎn)生告警信息時(shí),可通過應(yīng)用內(nèi)通知的方式快速通知相關(guān)人員,并提供詳細(xì)的告警信息。
4)通知內(nèi)容生成:告警通知模塊生成告警通知內(nèi)容,并將告警信息、設(shè)備信息、時(shí)間等關(guān)鍵信息包含在通知中,以便相關(guān)人員了解問題的具體情況。
5)通知發(fā)送:通過自定義規(guī)則,告警通知模塊將通知發(fā)送給預(yù)設(shè)的接收人員,同時(shí)記錄發(fā)送時(shí)間、發(fā)送狀態(tài)等信息,方便后續(xù)跟進(jìn)和處理。
七、警報(bào)信息處理
對(duì)已經(jīng)發(fā)出來的告警信息進(jìn)行處理以及記錄處理的內(nèi)容,可以讓管理員清晰了解每個(gè)告警的處理狀態(tài)和處理過程,幫助管理員更好地管理和維護(hù)系統(tǒng)。
1. 告警信息的處理
當(dāng)一個(gè)告警被觸發(fā)并且通知給管理員后,管理員需要對(duì)這個(gè)告警信息進(jìn)行處理。這個(gè)處理過程包括以下幾個(gè)步驟:
- 分析告警信息:管理員需要對(duì)告警信息進(jìn)行分析,了解告警的來源、告警等級(jí)以及影響范圍等,以便更好地判斷告警的緊急程度和處理方法。
- 判斷告警的處理方法:根據(jù)告警的緊急程度和影響范圍,管理員需要判斷告警的處理方法。如果告警比較緊急且影響范圍較大,管理員需要立即采取措施處理告警;如果告警比較普通且影響范圍較小,管理員可以在合適的時(shí)間進(jìn)行處理。
- 處理告警:管理員需要采取措施對(duì)告警進(jìn)行處理。具體措施包括重新啟動(dòng)設(shè)備、更換已分配的SIM卡、修改配置等等。處理完成后,管理員需要記錄處理的內(nèi)容,以便后續(xù)的跟蹤和分析。
2. 處理記錄的跟蹤
在物聯(lián)網(wǎng)移動(dòng)網(wǎng)絡(luò)通信服務(wù)平臺(tái)中,每個(gè)告警信息都應(yīng)該有相應(yīng)的處理記錄,以便管理員追蹤告警的處理情況。處理記錄的跟蹤包括以下幾個(gè)方面:
1)記錄告警的處理過程
管理員需要記錄告警的處理過程,包括采取的措施、處理時(shí)間、處理結(jié)果等等。這些記錄可以幫助管理員了解告警的處理情況和處理效果。
2)記錄告警的處理人員
管理員需要記錄處理告警的人員信息,包括處理人員的姓名、工號(hào)、聯(lián)系方式等等。這些記錄可以幫助管理員了解告警的處理責(zé)任人和責(zé)任區(qū)域。
3)記錄告警的處理狀態(tài)
管理員需要記錄告警的處理狀態(tài),包括告警的開始時(shí)間、結(jié)束時(shí)間、處理狀態(tài)等等。這些記錄可以幫助管理員了解告警的處理狀態(tài)和處理效率。
- 未處理:當(dāng)監(jiān)控系統(tǒng)接收到告警信息后,還沒有進(jìn)行任何處理,此時(shí)告警狀態(tài)為未處理狀態(tài)。
- 處理中:當(dāng)管理員開始處理告警信息時(shí),告警狀態(tài)會(huì)被設(shè)置為處理中。此時(shí),管理員正在對(duì)告警信息進(jìn)行分析和處理。
- 已解決:當(dāng)管理員處理告警信息后,確定問題已經(jīng)得到解決,告警狀態(tài)將被設(shè)置為已解決狀態(tài)。
- 誤報(bào):當(dāng)告警信息被判定為誤報(bào)時(shí),告警狀態(tài)會(huì)被設(shè)置為誤報(bào)狀態(tài)。
- 忽略:當(dāng)管理員認(rèn)為告警信息不需要被處理時(shí),可以將告警狀態(tài)設(shè)置為忽略狀態(tài)。
4)記錄告警的處理結(jié)果
管理員需要記錄告警的處理結(jié)果,包括處理結(jié)果的有效性、處理結(jié)果的影響范圍等等。這些記錄可以幫助管理員了解告警處理的情況,追蹤問題的解決過程,并為未來的處理提供參考。對(duì)于重要的告警事件,還可以向相關(guān)人員發(fā)送告警處理的結(jié)果,以便及時(shí)通知相關(guān)人員。
- 告警處理結(jié)果描述:管理員需要描述告警的處理結(jié)果,包括解決方案、處理過程等。
- 處理結(jié)果狀態(tài):管理員需要記錄處理結(jié)果的狀態(tài),如已解決、處理中等。
- 處理人員:記錄處理告警的人員,以便追蹤問題的處理過程。
- 處理時(shí)間:記錄告警處理的時(shí)間,以便追蹤問題的解決過程。
- 處理影響范圍:記錄告警處理的影響范圍,以便管理員評(píng)估問題的嚴(yán)重程度,并為未來的處理提供參考。
八、系統(tǒng)界面設(shè)計(jì)
在物聯(lián)網(wǎng)移動(dòng)網(wǎng)絡(luò)通信服務(wù)平臺(tái)中,監(jiān)控告警系統(tǒng)的系統(tǒng)界面通常包括以下功能模塊:
1)告警設(shè)置模塊
用于設(shè)置告警的規(guī)則和處理方式,如設(shè)置告警的級(jí)別、觸發(fā)條件、告警通知方式、告警的處理方式等。
2)告警列表模塊
包括當(dāng)前所有的告警信息以及過去所有發(fā)生的告警信息,包括告警等級(jí)、告警類型、告警內(nèi)容、告警時(shí)間等信息。
- 管理員通過快速瀏覽當(dāng)前所有的告警信息,并進(jìn)行快速的定位和處理。
- 管理員通過查看歷史告警的記錄,并了解告警的處理情況和處理結(jié)果。
3)告警詳情模塊
展示選中告警的詳細(xì)信息,包括告警的發(fā)生時(shí)間、告警的影響范圍、告警的處理情況等信息。管理員可以通過該模塊深入了解告警的具體情況,從而更好地制定解決方案。
4)告警處理模塊
用于處理已經(jīng)發(fā)生的告警,通常在告警詳情頁(yè)面進(jìn)行處理。管理員可以通過該模塊對(duì)告警信息進(jìn)行處理,包括告警確認(rèn)、告警分配、告警處理進(jìn)展跟蹤等。同時(shí),管理員也可以將處理結(jié)果記錄在該模塊中,便于后續(xù)的跟蹤和分析。
5)告警統(tǒng)計(jì)模塊
對(duì)所有告警信息進(jìn)行統(tǒng)計(jì)分析,包括告警級(jí)別、告警類型、設(shè)備類型、告警時(shí)間、告警內(nèi)容等等。通過該模塊來了解告警情況的總體概括,同時(shí)也為監(jiān)控系統(tǒng)的改進(jìn)和優(yōu)化提供數(shù)據(jù)支持。
- 總覽界面:展示系統(tǒng)中的所有告警信息,以及告警的處理情況和處理結(jié)果,并按照告警級(jí)別、告警類型等分類。
- 數(shù)據(jù)可視化分析界面:結(jié)合具體的監(jiān)控告警指標(biāo),通過圖表的形式展示具體告警數(shù)據(jù)的趨勢(shì)和變化,例如歷史告警故障設(shè)備趨勢(shì)、歷史故障SIM卡分布等。
6)系統(tǒng)配置模塊
用于對(duì)監(jiān)控告警系統(tǒng)權(quán)限進(jìn)行配置和管理。管理員可以通過該模塊對(duì)系統(tǒng)的用戶、權(quán)限、日志等進(jìn)行管理,確保系統(tǒng)的安全和穩(wěn)定運(yùn)行。
本文由 @產(chǎn)品@Devin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!