亚洲男人第一av网站,99久久国语露脸精品国产,久久丫精品国产亚洲av

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

產(chǎn)品經(jīng)理數(shù)據(jù)分析入門（三）- 分析過程

林海舟

2024-09-02

0 評論 970 瀏覽 6 收藏

8 分鐘

前面的文章我們已經(jīng)分享了數(shù)據(jù)的指標(biāo)和采集，這篇文章，我們繼續(xù)分析下數(shù)據(jù)分析中的清洗和驗證、加工內(nèi)容，希望能幫到大家。

一、數(shù)據(jù)采集

數(shù)據(jù)分析的對象就是數(shù)據(jù)，通過數(shù)據(jù)采集來獲得數(shù)據(jù)。數(shù)據(jù)采集在《產(chǎn)品要懂點數(shù)據(jù)分析（一）-數(shù)據(jù)采集和數(shù)據(jù)指標(biāo)》中已經(jīng)討論，這里不展開。

二、數(shù)據(jù)清洗

在原始數(shù)據(jù)里面存在著大量錯誤、重復(fù)的數(shù)據(jù)，如果直接使用有可能會導(dǎo)致分析結(jié)果出現(xiàn)嚴(yán)重的偏差。數(shù)據(jù)清洗是對“臟數(shù)據(jù)”進(jìn)行處理，提高數(shù)據(jù)的質(zhì)量。

常見的“臟數(shù)據(jù)”的類型有錯誤、缺失、重復(fù)等。數(shù)據(jù)清洗就是利用糾正數(shù)據(jù)的錯誤、刪除或填充缺失的數(shù)據(jù)、刪除合并重復(fù)數(shù)據(jù)等手段，將數(shù)據(jù)整理成合規(guī)范的數(shù)據(jù)。

1. 糾正數(shù)據(jù)錯誤

數(shù)據(jù)錯誤多由數(shù)據(jù)源輸入不規(guī)范導(dǎo)致的。常見的錯誤類型有：

數(shù)據(jù)值錯誤。如超過域值（性別出現(xiàn)男、女之外的其他值）、超過范圍（年齡大于150歲）。
不合理的值。如拼寫錯誤（姓名出現(xiàn)字母）、數(shù)據(jù)填錯（手機(jī)號碼填到身份證號碼字段上了）等。
編碼格式錯誤。如全角半角問題、文本編碼問題。
數(shù)據(jù)邏輯不一致。如身份證是女的、性別填成男的。
單位規(guī)格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
表達(dá)方式不一致。如國家“中國”和“中華人民共和國”。

2. 補(bǔ)充/刪除缺失數(shù)據(jù)

并非所有字段缺失都需要處理，如一個學(xué)生用戶的工作單位字段是可能為空的。

如何處理缺失的數(shù)據(jù)，需要綜合考慮填充難度、數(shù)據(jù)重要性、缺失情況來綜合考慮。

如果填充很容易，則直接進(jìn)行填充。如知道身份證號碼，填充年齡字段。
如果數(shù)據(jù)不重要，且缺失數(shù)據(jù)較少，則直接填充默認(rèn)值或者刪除對應(yīng)的數(shù)據(jù)（行）。
如果數(shù)據(jù)不重要，但缺失比較嚴(yán)重，則直接刪除數(shù)據(jù)屬性字段（列）。
如果數(shù)據(jù)重要，則可以通過計算的方式算出可能的值進(jìn)行填充，也可以結(jié)合業(yè)務(wù)和現(xiàn)有數(shù)據(jù)推斷可能的值。
如果數(shù)據(jù)重要，但是沒辦法計算，則就只能人工進(jìn)行填充了。

要注意空值對數(shù)據(jù)處理的影響。假設(shè)有10個用戶，兩個月收入為0，另外八個為10000。那么要考慮用戶月收入是否真的為0。可能用戶失業(yè)了沒工作，可能是用戶沒填。那么在求平均值時，如果是用戶失業(yè)了的情況，則平均收入為：( 0 * 2 + 10000 * 8 ) / 10。如果用戶沒填則要剔除兩個用戶，應(yīng)該這么計算：(10000 * 8) / 8。

3. 合并刪除重復(fù)數(shù)據(jù)

出現(xiàn)重復(fù)數(shù)據(jù)的原因很多，經(jīng)常是表達(dá)不一致導(dǎo)致的。

重復(fù)數(shù)據(jù)往往并不是一模一樣一式多份的數(shù)據(jù)。所以，對于數(shù)據(jù)相似程度的判斷是很有必要的。如手機(jī)設(shè)備“iPhone X”和“iPhone 10”是一樣的數(shù)據(jù)，卻是兩個不一樣的表達(dá)。是否是重復(fù)數(shù)據(jù)要結(jié)合數(shù)據(jù)本身和業(yè)務(wù)進(jìn)行分析。

三、數(shù)據(jù)驗證

數(shù)據(jù)經(jīng)過處理之后，有部分?jǐn)?shù)據(jù)被更改、填充、刪除，更有甚者原始數(shù)據(jù)就存在問題。在進(jìn)行分析前，需要進(jìn)行數(shù)據(jù)驗證。

1. 交叉驗證

如果有其他相關(guān)數(shù)據(jù)，或者其他數(shù)據(jù)源，可以聯(lián)合多個表、多個字段進(jìn)行交叉分析。

通過身份證信息可以驗證用戶性別、年齡等信息。甚至通過對用戶行為的分析，可以推斷用戶的性別，然后再進(jìn)行驗證。

2. 人工抽查

對于一些重要的數(shù)據(jù)，還可以通過人工抽查的方式進(jìn)行驗證。抽取一定量的數(shù)據(jù)樣本進(jìn)行人工檢查，根據(jù)抽查結(jié)果推斷數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量。

例如，隨機(jī)抽取1000條數(shù)據(jù)，錯誤2條。那么推斷錯誤率為0.2%左右。再比對這個錯誤率是否符合分析的要求。

常見的數(shù)據(jù)抽取方式有：

隨機(jī)抽取。從數(shù)據(jù)樣本中隨機(jī)抽取一定量的數(shù)據(jù)。
等距抽取。按一定距離抽取數(shù)據(jù)，沒間隔一定數(shù)量的樣本抽取一次。
分層抽取。將同一類型的數(shù)據(jù)樣本分層多個層次，如高收入群、中收入群、低收入群，然后根據(jù)每個層次的占比抽取一定量的數(shù)據(jù)。
分類抽取。將不同類型的數(shù)據(jù)樣本根據(jù)不同的類型進(jìn)行分類，如學(xué)生群體、教師群體、職工群體，然后在每個分類中抽取一定量的數(shù)據(jù)。