剖析:物聯網數據分析該怎么做?
互聯網數據分析大家都討論的太多了,但是對物聯網數據分析而言,卻講的太少。本文筆者將從對物聯網數據進行分類出發,講述:如何進行物聯網數據分析?
在網上查了查,關于互聯網數據、業務數據分析的文章比較多,但是關于物聯網數據分析的文章幾乎找不到,于是萌發了寫一篇專門講解物聯網數據分析的文章,作為自己工作經驗及方法論的復盤,同時也期望能夠對各位童鞋有所啟發。
一、引言
閱讀過我上一篇文章《深度剖析物聯網服務結構如何構建》的朋友應該比較清楚的知道:物聯網服務究竟是如何運轉的?包含哪些要素?每個部分起什么作用?如何運轉?有哪些關鍵技術或者技能?
從傳感器->設備->網關->服務器,整個路徑能夠很好地實現將數據采集到物聯網平臺,但是為什么要對這些數據做分析,如何應用這些數據,如何做好數據分析呢?
1. 什么是物聯網數據
基于我們對于物聯網服務構建的基礎我們可以知道,物聯網數據數據主要是指傳感器和設備發過來的數據。這些數據一部分是對現實環境參數的采集值,一部分是設備的一些常規信息值,比如:狀態、故障信息、錯誤代碼、運行情況等。
物聯網數據在任何情況下都會產生數據,無需人為參與就不會不斷涌現出新的數據,其數據量遠遠大于傳統業務系統的業務數據。
如果單純的按照數據變化來對物聯網數據進行分類,我們可以分為:靜態數據和動態數據。
1)靜態數據
指傳感器或者設備的一些屬性性質的數據,不增加新設備的情況下,不伴隨時間的變化而變化,也不會隨著時間的增長而增長。代表性的數據是設備ID、設備地址等,這種數據采用結構型、關系型數據庫存儲。
2)動態數據
指隨著時間周期會發生變化的數據,每個數據都與時間值有對應關系,數據采用時序方式進行存儲,數據量非常大,并且采集越頻繁數據量越大。
其不僅僅會隨著設備數量增加而增加,還會隨著時間增加而增加。這樣的數據通常情況下,我們會按照一定的時間進行刪除,否則數據量會過大。根據一些行業的要求,通常情況下保存的年限設置在3~5年,具體的沒有明確要求,關鍵是看自己所處行業的要求進行自行設定。
2. 為什么要做物聯網數據分析
如果物聯網只是負責采集一堆傳感器和設備發過來的數據,那就只不過是一堆龐大的數據聚集在一起,產生不了實際的價值意義。
然而,在實際實踐中我們可以發現,物聯網數據非常有意思,經過分析我們可以利用傳感器或者設備數據,清楚的知道設備的運行情況以及現實環境運營的趨勢,幫助作出預判和提前作出響應。
比如:利用物聯網的數據可以有效預判機械的故障,減少因為設備故障而帶來的工作耽誤。根據設備上傳的設備狀態信息值的變化,以及特定傳感器采集的參數,就可以監測預判發生故障的概率,同時提前做出響應。這樣就能夠把一個物聯網服務從一個單純的數據采集,上升到一個能夠不斷創造附加值的服務層面。
同時,基于采集的數據的分析的運營,還可以重新構建企業新的運營模式,部分內容可以參照我的另外一篇文章《物聯網技術如何助力企業轉型升級》的相關闡述,整體來說物聯網數據分析在新形式下的應用將會極大助力企業轉型升級。
3. 物聯網數據能做哪些方面的應用
物聯網數據能夠幫助我們做哪些方面的應用呢,總結下來可能主要有以下幾個:
- 監控:將物聯網數據直接可視化展示,就可以實現設備的狀態監控,及時知道什么發生了什么。
- 反控:當監測到異常數據需要干預時,可以直接通知對應的管理員,遠程操控設備實現反控,提高操作效率,避免直接到設備現場。
- 報表統計:基于物聯網數據,我們可以根據實際的需求,對相關的歷史數據做報表統計分析,按照不同的維度以圖表或者圖形的形式呈現給不同類型的用戶,幫助他們快速直觀知道設備的運行情況。
- 預測/預判:基于數據分析模型,可以對一些事件做預判,提前獲取概率性,以便及時作出響應,避免造成更大的損失,或者直接獲取其他收益。
- 人工智能:當數據及經驗積累到一定程度,系統可以自動針對事件數據分析后,作出正確的響應,無需人工干預。
基于此呢,我們基本上算是給大家說了一個基礎的鋪墊了。那么接下來,我們就要本次分享的重點了,我們來看:如何進行物聯網數據分析,有哪些方法論,具體怎么實操呢?
二、數據分析準備工作
如果把數據分析比作炒菜,那么我們首先得準備一些原材料,那么對于數據分析,我們應該做哪些準備工作呢?
1. 數據采集
數據采集顧名思義就是采集我們需要用來做分析的數據,同時將這些數據以特定格式保存下來。通常情況下,數據分析會基于歷史累計下來的數據,如果數量大,可以使用一些大數據工具進行處理,比如常用的Hadoop等。
數據采集的方式及過程,我們就不多說了,直接參照之前的文章,基本上就可以知道數據采集的流程及處理的過程。
2. 數據積累
數據積累就是將有用的數據保存下來,方便管理和提取。數據積累會用到數據庫,這個在我們上一篇文章也有體積,不僅僅是結構化數據的關系型數據庫,還有鍵值存儲數據庫等。
3. 數據預處理
數據預處理就是對數據進行加工,剔除沒有用的或者異常的數據,提取有用的部分的信息,對數值進行處理等等。對數據進行必要的處理,形成匯集分析用的數據集,就是數據預處理的目的。
三、數據分析方法
基于數據應用的用途考慮,我們將數據分析方法姑且分為統計分析法和機器學習法。
其中統計分析法主要是依靠分析師手工進行分析,基于一定的目的提取數據,并進以各種形式進行展示。機器學習法呢,就是說的比較多的人工智能,主要依據對以往數據的學習,來推斷未知的數據或者狀態。
1. 統計分析法
統計分析其實還真沒太多的需要說的,就是基于統計結果做呈現,用各種形式表示出來,達到直觀呈現的目的。
如果按照步驟來講,那么主要是以下幾個步驟:
step1:決定你的信息
根據你手里面的數據,明確你想要的表達的具體信息是什么;
step2:確定相對關系
你確定的信息在一定程度上講主要包括5種基本類別中的一種,成分、項目、時間順序、頻率分析及相關性;
step3:選擇圖表形式
每一種相對關系都可以引導出相對應的圖表形式,常見的圖表形式包含:餅圖、條形圖、柱形圖、折線圖、散點圖,當然不是特別完整哈,我們只是列舉。
下面我們來舉一個例子,說明一下具體的使用:
比如家里面的智能燃氣表采集了用氣的數據,那么我們就可以用圖形表示一定時間內用氣量的變化,從而直觀的掌握用氣數據的變化趨勢。
2. 機器學習法
機器學習主要是指:基于大量數據來學習數據的傾向,從而做出某些判斷并執行對應的“動作”。
機器學習和數據挖掘是同根同生,二者都是基于數據進行某些推測和判斷。統計分析法是是對采集數據進行呈現,數據被視為無機的數值,屬于表層的數據分析。機器學習分析法主要是從數據中提取更復雜的傾向、規則、結構等信息,采用數學公式和規律模型來表現傾向。
說機器學習法之前,我們首先來說一下數據學習的類型,我們分為“規則學習”和“非規則學習”兩個類別。
規則學習主要是指數據的答案是明確的,機器只需要將新的數據與正確答案進行比較即可做出判斷。非規則學習則沒有既定的正確的答案,需要根據數據的整體傾向然后找出異常值。
舉個例子:我們將某一設備的故障值范圍設定為12~28,直接基于這個范圍就叫規則學習。而如果沒有范圍,那么就需要采用一定的算法讓機器區分數據傾向,并且正確調出異常值了。
下面我們直接舉幾個例子,透過例子來理解應該來講是更加直接的:
命題一:通過傳感器采集到的數據,判斷機器故障的原因。
對于這類問題,需要先定義清楚數據時非故障機器的還是故障機器的,然后再通過對比數據差異化找出因果關系最后形成判斷依據,讓機器具備判斷能力。
命題二:通過各種因素因素來預測交通量。
說到預測分析,那么對于交通量的預測無疑是比較有意思的,通過傳感器在一定的持續時間范圍內對某條道路的交通量進行采集。
然后,再通過星期數、天氣、時間段等因素的綜合分析計算,那么就可以形成一套計算方法,并且在某一段時間內運用計算值與實際值進行對比,不斷修正算法,就能夠較為精準的預算某一天的交流通量,比如:交通量=a*星期數+b*天氣情況+c+……
四、總結
關于物聯網數據分析其實是與互聯網數據分析有些相似的基礎知識的,所以我們沒講那么多。
分析是基礎,對于數據的應用的才是關鍵。具體對數據咋個應用,需要對行業和客戶有較為深刻的理解,那么就需要我們產品經理戶或者數據分析師對行業及業務非常的了解,然后再根據物聯網數據特性制定相關方案,解決實際的問題。
#專欄作家#
Kent,微信公眾號:Liuke2019,人人都是產品經理專欄作家。專注物聯網&智能硬件產品實踐,6年軟硬件結合項目經驗。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
作者說的很好,就是錯別字有點多,不知道有沒有自動識別語義問題或錯別字的工具插件,給作者用用??