產品經理數據分析入門(三)- 分析過程
前面的文章我們已經分享了數據的指標和采集,這篇文章,我們繼續分析下數據分析中的清洗和驗證、加工內容,希望能幫到大家。
一、數據采集
數據分析的對象就是數據,通過數據采集來獲得數據。數據采集在《產品要懂點數據分析(一)-數據采集和數據指標》中已經討論,這里不展開。
二、數據清洗
在原始數據里面存在著大量錯誤、重復的數據,如果直接使用有可能會導致分析結果出現嚴重的偏差。數據清洗是對“臟數據”進行處理,提高數據的質量。
常見的“臟數據”的類型有錯誤、缺失、重復等。數據清洗就是利用糾正數據的錯誤、刪除或填充缺失的數據、刪除合并重復數據等手段,將數據整理成合規范的數據。
1. 糾正數據錯誤
數據錯誤多由數據源輸入不規范導致的。常見的錯誤類型有:
- 數據值錯誤。如超過域值(性別出現男、女之外的其他值)、超過范圍(年齡大于150歲)。
- 不合理的值。如拼寫錯誤(姓名出現字母)、數據填錯(手機號碼填到身份證號碼字段上了)等。
- 編碼格式錯誤。如全角半角問題、文本編碼問題。
- 數據邏輯不一致。如身份證是女的、性別填成男的。
- 單位規格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
- 表達方式不一致。如國家“中國”和“中華人民共和國”。
2. 補充/刪除缺失數據
并非所有字段缺失都需要處理,如一個學生用戶的工作單位字段是可能為空的。
如何處理缺失的數據,需要綜合考慮填充難度、數據重要性、缺失情況來綜合考慮。
- 如果填充很容易,則直接進行填充。如知道身份證號碼,填充年齡字段。
- 如果數據不重要,且缺失數據較少,則直接填充默認值或者刪除對應的數據(行)。
- 如果數據不重要,但缺失比較嚴重,則直接刪除數據屬性字段(列)。
- 如果數據重要,則可以通過計算的方式算出可能的值進行填充,也可以結合業務和現有數據推斷可能的值。
- 如果數據重要,但是沒辦法計算,則就只能人工進行填充了。
要注意空值對數據處理的影響。假設有10個用戶,兩個月收入為0,另外八個為10000。那么要考慮用戶月收入是否真的為0??赡苡脩羰I了沒工作,可能是用戶沒填。那么在求平均值時,如果是用戶失業了的情況,則平均收入為:( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶,應該這么計算:(10000 * 8) / 8。
3. 合并刪除重復數據
出現重復數據的原因很多,經常是表達不一致導致的。
重復數據往往并不是一模一樣一式多份的數據。所以,對于數據相似程度的判斷是很有必要的。如手機設備“iPhone X”和“iPhone 10”是一樣的數據,卻是兩個不一樣的表達。是否是重復數據要結合數據本身和業務進行分析。
三、數據驗證
數據經過處理之后,有部分數據被更改、填充、刪除,更有甚者原始數據就存在問題。在進行分析前,需要進行數據驗證。
1. 交叉驗證
如果有其他相關數據,或者其他數據源,可以聯合多個表、多個字段進行交叉分析。
通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析,可以推斷用戶的性別,然后再進行驗證。
2. 人工抽查
對于一些重要的數據,還可以通過人工抽查的方式進行驗證。抽取一定量的數據樣本進行人工檢查,根據抽查結果推斷數據樣本的數據質量。
例如,隨機抽取1000條數據,錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。
常見的數據抽取方式有:
- 隨機抽取。從數據樣本中隨機抽取一定量的數據。
- 等距抽取。按一定距離抽取數據,沒間隔一定數量的樣本抽取一次。
- 分層抽取。將同一類型的數據樣本分層多個層次,如高收入群、中收入群、低收入群,然后根據每個層次的占比抽取一定量的數據。
- 分類抽取。將不同類型的數據樣本根據不同的類型進行分類,如學生群體、教師群體、職工群體,然后在每個分類中抽取一定量的數據。
四、數據加工
在數據清洗后,我們得到了一個完整正確的數據。但是數據源和數據分析所需要的數據并不完全一致,在開始分析前。還需要將部分數據進行加工。
數據拆分
從數據字段中抽取需要的數據內容。如從身份證中抽取出生年月日、從手機型號中抽取手機品牌。
數據合并
數據合并是數據拆分的逆操作,將多個字段合并成一個字段。如將出生年、月、日三個字段合并成出生日期一個字段。
數據匹配
從不同的表中匹配到需要的信息組成新的數據表。
如用訂單表匹配用戶信息表,可以得到一個訂單的區域表。
結構轉換
將數據表的結構進行轉換,主要是為了方便后續數據處理。
數據計算
對數據進行簡單的加減乘除、平均、加權等計算。產生新的字段或者新的數據表。
數據轉換
根據分析的需要將字段進行計算和轉換。如將出生年月轉換成年齡,將廣東、湖南轉換成華南區等。
本文由 @林海舟 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!