如何做數據標準化:哪類數據需要標準化處理
將一個東西標準化,可以提高生產效率,數據也是如此。但在開始化之前,我們需要先來看看,哪些數據需要進行標準化處理,以及如何處理。
關于“數據標準化”,MBA智庫百科的解釋如下:
數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。
主要指的是數據治理中的數據標準化工作,包括數據交換、數據質量和數據標準等一系列內容,可稱之為“數據標準化體系建設”。在這個內涵下,要做好數據標準化,需要做:
- 建立數據模型標準并落地標準化建模流程
- 建立數據編碼標準
- 系統集成標準化
但我們今天所說的,并不是這個“數據標準化”。而是“數據預處理(也稱?數據清洗)”中的一種數據處理手段。
在說“什么是數據標準化”之前,我們先來說說“為什么要做數據標準化”。
回想一下人類發展史,可以了解到,開啟工業化時代的必要條件之一是——零件標準化。
沒錯,只有當工廠實現了“零件標準化”,才真正算是步入了工業化時代,生產效率得到了極大的提升。
為什么零件標準化能帶來這么大的增效呢?
因為有了它,工廠生產零件可以完全按照圖紙規范來,并且就算是不同廠家生產的零件,只要是按照圖紙規范來的,都是可以通用的。此舉大大提高了零件的質量和可用性,并且使得工廠之間的協同和合作變得尤為高效,零件再組裝成更大的可用商品也就更高效和保質保量了。
對于數據來說,同樣地,實現數據標準化,能夠為整個數據生產鏈條帶來效率的提升和質量的保證。
數據標準化需要將數據對象按照我們后續處理的要求切成所需的形態,我們要做的,就是定義這個“模具”并讓它開始工作。
在講到“如何做數據標準化”之前,我們需要先來看看,哪些數據需要進行標準化處理。
一、量級不一數據
比如現在要分析門店銷售額和店均銷量對門店競爭力的影響。在業務認知上,此兩者的權重應是相當的。但數值的量級卻是不一樣的。
試想一下,如果讓門店銷售額和店均銷量直接參與計算,會發生什么事?
門店銷售額的數值量級遠大于店均銷量,必然就會導致店均銷量對結果的影響被拉得微乎其微,而這并不符合業務實際,也不符合我們想要的影響因子系數配比。
那么這時候,就需要對這類數據進行“去量綱化”這種數據標準化的處理。
1. 去量綱化
那么“去量綱化”又怎么做呢?有哪些方法可以用?羅列如下。
min-max標準化
首先,我們需要確定一個原則,既然是“去量鋼化”,那么我們要做的就是:把所有參與計算的自變量的取值區間拉到同一個區間。
min-max標準化這個方法即是將這個統一取值區間定義為:[0,1]。不管原本多大量級的指標,都需要經過處理后落在這個區間內。
問題又來了,如何處理能達到這個效果呢?
這里有個公式:(X-min)/(max-min),所有數據經過這個公式的運算后都可以落在[0,1]區間上。屬于最簡單的線性變換法。
z-score標準化
z-score標準化這個方法即是將這個統一取值區間定義為:圍繞0上下波動。主要是基于均值判斷單個具體值是偏高還是偏低。
這里的公式是:(X-Mean)/Std。大于0說明高于平均水平,小于0說明低于平均水平。
歸一化
歸一化與“min-max標準化”類似,都是使處理后的數據落在[0,1]區間。
公式:X?/?(x1+x2+…Xn)。對正數進行變換,將數值的絕對值變成相對值關系。
其他方法
其他的方法還有如中心化、均值化、區間化等都可以實現將數據處理到期望的確定范圍內。
- 中心化:X-Mean(讓數據變成平均值為0的一組數據)
- 均值化:X/Mean
- 區間化:a+(b-a)*(X-Min)/(Max-Min)【可將數據壓縮到區間[a,b]中】
二、指標作用方向不一數據
比如現在要分析不同商品的優劣,從而用于選品的決策。而評價商品的優劣則需要從多維度來評估,涉及到若干個指標。常見的,如動銷和同質化。在業務認知上,代表動銷的指標動銷率、銷量等,數值越高則商品表現越好;代表同質化的同功效SKU數,數值越低說明同質化程度越低則商品表現(稀缺性優勢)越好。到這里,各位看官應該可以看出來,這兩種指標的作用方向是不一樣的,即:一個是越高越好,另一個是越低越好。
那么,如果讓動銷率和同功效SKU數直接參與計算,又會發生什么事?
商品評分隨動銷率的增高而增高,這沒問題。但商品評分隨同功效SKU數的增高而增高就不合理了,同質化程度的增加只能說明該商品的稀缺性和獨特競爭優勢走弱,商品評分應該隨之降低才是符合業務實際的。
那么這時候,就需要對這類數據進行“負向指標正向化”這種數據標準化的處理。
1. 負向指標正向化
對于“同功效SKU數”這類負向指標,我們的處理方式是,套入如下公式:
(max-X)/?(max-min)
經過如此數據處理后,便可將負向指標轉為正向指標,且結果將落在[0,1]區間內,從而實現了數據的標準化。
2. 中間型指標處理
作為負向指標正向化的變種,對于存在理想中間值的情況,可以采用如下方式:
公式:
作用:對中間型指標數據的線性變換,使結果落到[0,1]區間。原數據等于理想值,處理結果為1;原數據越靠近理想值,處理結果值就越接近1。
3. 區間型指標處理
除中間型指標處理外,還存在另一變種——區間型指標處理。公式如下:
在此方法里,[a,b]是假設的最佳區間。
作用:對區間型指標數據的線性變換,使結果落到[0,1]區間。原數據若在理想區間內,處理結果為1;原數據越靠近理想區間范圍,處理結果值就越接近1。
對于這兩類“不夠標準化”的數據,經過以上兩種處理之后,則滿足了數據應用的標準,可以進行下一步使用了。這便是“數據生產鏈”中“數據標準化”工作的意義與常見的方法。希望對各位理解數據工作的具體內容有所幫助。
本文由 @maggieC 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!