產(chǎn)品經(jīng)理數(shù)據(jù)分析入門(三)- 分析過程
前面的文章我們已經(jīng)分享了數(shù)據(jù)的指標(biāo)和采集,這篇文章,我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗證、加工內(nèi)容,希望能幫到大家。
一、數(shù)據(jù)采集
數(shù)據(jù)分析的對象就是數(shù)據(jù),通過數(shù)據(jù)采集來獲得數(shù)據(jù)。數(shù)據(jù)采集在《產(chǎn)品要懂點數(shù)據(jù)分析(一)-數(shù)據(jù)采集和數(shù)據(jù)指標(biāo)》中已經(jīng)討論,這里不展開。
二、數(shù)據(jù)清洗
在原始數(shù)據(jù)里面存在著大量錯誤、重復(fù)的數(shù)據(jù),如果直接使用有可能會導(dǎo)致分析結(jié)果出現(xiàn)嚴(yán)重的偏差。數(shù)據(jù)清洗是對“臟數(shù)據(jù)”進(jìn)行處理,提高數(shù)據(jù)的質(zhì)量。
常見的“臟數(shù)據(jù)”的類型有錯誤、缺失、重復(fù)等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復(fù)數(shù)據(jù)等手段,將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。
1. 糾正數(shù)據(jù)錯誤
數(shù)據(jù)錯誤多由數(shù)據(jù)源輸入不規(guī)范導(dǎo)致的。常見的錯誤類型有:
- 數(shù)據(jù)值錯誤。如超過域值(性別出現(xiàn)男、女之外的其他值)、超過范圍(年齡大于150歲)。
- 不合理的值。如拼寫錯誤(姓名出現(xiàn)字母)、數(shù)據(jù)填錯(手機(jī)號碼填到身份證號碼字段上了)等。
- 編碼格式錯誤。如全角半角問題、文本編碼問題。
- 數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
- 單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
- 表達(dá)方式不一致。如國家“中國”和“中華人民共和國”。
2. 補(bǔ)充/刪除缺失數(shù)據(jù)
并非所有字段缺失都需要處理,如一個學(xué)生用戶的工作單位字段是可能為空的。
如何處理缺失的數(shù)據(jù),需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來綜合考慮。
- 如果填充很容易,則直接進(jìn)行填充。如知道身份證號碼,填充年齡字段。
- 如果數(shù)據(jù)不重要,且缺失數(shù)據(jù)較少,則直接填充默認(rèn)值或者刪除對應(yīng)的數(shù)據(jù)(行)。
- 如果數(shù)據(jù)不重要,但缺失比較嚴(yán)重,則直接刪除數(shù)據(jù)屬性字段(列)。
- 如果數(shù)據(jù)重要,則可以通過計算的方式算出可能的值進(jìn)行填充,也可以結(jié)合業(yè)務(wù)和現(xiàn)有數(shù)據(jù)推斷可能的值。
- 如果數(shù)據(jù)重要,但是沒辦法計算,則就只能人工進(jìn)行填充了。
要注意空值對數(shù)據(jù)處理的影響。假設(shè)有10個用戶,兩個月收入為0,另外八個為10000。那么要考慮用戶月收入是否真的為0。可能用戶失業(yè)了沒工作,可能是用戶沒填。那么在求平均值時,如果是用戶失業(yè)了的情況,則平均收入為:( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶,應(yīng)該這么計算:(10000 * 8) / 8。
3. 合并刪除重復(fù)數(shù)據(jù)
出現(xiàn)重復(fù)數(shù)據(jù)的原因很多,經(jīng)常是表達(dá)不一致導(dǎo)致的。
重復(fù)數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以,對于數(shù)據(jù)相似程度的判斷是很有必要的。如手機(jī)設(shè)備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù),卻是兩個不一樣的表達(dá)。是否是重復(fù)數(shù)據(jù)要結(jié)合數(shù)據(jù)本身和業(yè)務(wù)進(jìn)行分析。
三、數(shù)據(jù)驗證
數(shù)據(jù)經(jīng)過處理之后,有部分?jǐn)?shù)據(jù)被更改、填充、刪除,更有甚者原始數(shù)據(jù)就存在問題。在進(jìn)行分析前,需要進(jìn)行數(shù)據(jù)驗證。
1. 交叉驗證
如果有其他相關(guān)數(shù)據(jù),或者其他數(shù)據(jù)源,可以聯(lián)合多個表、多個字段進(jìn)行交叉分析。
通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析,可以推斷用戶的性別,然后再進(jìn)行驗證。
2. 人工抽查
對于一些重要的數(shù)據(jù),還可以通過人工抽查的方式進(jìn)行驗證。抽取一定量的數(shù)據(jù)樣本進(jìn)行人工檢查,根據(jù)抽查結(jié)果推斷數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量。
例如,隨機(jī)抽取1000條數(shù)據(jù),錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。
常見的數(shù)據(jù)抽取方式有:
- 隨機(jī)抽取。從數(shù)據(jù)樣本中隨機(jī)抽取一定量的數(shù)據(jù)。
- 等距抽取。按一定距離抽取數(shù)據(jù),沒間隔一定數(shù)量的樣本抽取一次。
- 分層抽取。將同一類型的數(shù)據(jù)樣本分層多個層次,如高收入群、中收入群、低收入群,然后根據(jù)每個層次的占比抽取一定量的數(shù)據(jù)。
- 分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進(jìn)行分類,如學(xué)生群體、教師群體、職工群體,然后在每個分類中抽取一定量的數(shù)據(jù)。
四、數(shù)據(jù)加工
在數(shù)據(jù)清洗后,我們得到了一個完整正確的數(shù)據(jù)。但是數(shù)據(jù)源和數(shù)據(jù)分析所需要的數(shù)據(jù)并不完全一致,在開始分析前。還需要將部分?jǐn)?shù)據(jù)進(jìn)行加工。
數(shù)據(jù)拆分
從數(shù)據(jù)字段中抽取需要的數(shù)據(jù)內(nèi)容。如從身份證中抽取出生年月日、從手機(jī)型號中抽取手機(jī)品牌。
數(shù)據(jù)合并
數(shù)據(jù)合并是數(shù)據(jù)拆分的逆操作,將多個字段合并成一個字段。如將出生年、月、日三個字段合并成出生日期一個字段。
數(shù)據(jù)匹配
從不同的表中匹配到需要的信息組成新的數(shù)據(jù)表。
如用訂單表匹配用戶信息表,可以得到一個訂單的區(qū)域表。
結(jié)構(gòu)轉(zhuǎn)換
將數(shù)據(jù)表的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,主要是為了方便后續(xù)數(shù)據(jù)處理。
數(shù)據(jù)計算
對數(shù)據(jù)進(jìn)行簡單的加減乘除、平均、加權(quán)等計算。產(chǎn)生新的字段或者新的數(shù)據(jù)表。
數(shù)據(jù)轉(zhuǎn)換
根據(jù)分析的需要將字段進(jìn)行計算和轉(zhuǎn)換。如將出生年月轉(zhuǎn)換成年齡,將廣東、湖南轉(zhuǎn)換成華南區(qū)等。
本文由 @林海舟 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!