轉(zhuǎn)型AI產(chǎn)品經(jīng)理(2):數(shù)據(jù)集篇
我們在做AI產(chǎn)品,尤其是有監(jiān)督學(xué)習(xí)時,最重要的事情是訓(xùn)練數(shù)據(jù)從哪里來,數(shù)據(jù)又要怎么用,才能提升產(chǎn)出效率。今天我們來講下有關(guān)數(shù)據(jù)集的那些事。
一、獲取數(shù)據(jù)
- 內(nèi)部數(shù)據(jù):通過整合系統(tǒng)內(nèi)部的數(shù)據(jù)來獲取AI訓(xùn)練/驗(yàn)證數(shù)據(jù),通??梢钥紤]系統(tǒng)里的歷史記錄,用戶的行為,屬性,交易等數(shù)據(jù)。這些內(nèi)部數(shù)據(jù)可能在系統(tǒng)的不同模塊中,包含了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(日志等)、非結(jié)構(gòu)化數(shù)據(jù)(文本類的數(shù)據(jù))需要進(jìn)行整合、映射、清洗。
- 外部數(shù)據(jù):公開類的或第三方合作伙伴的數(shù)據(jù),根據(jù)具體業(yè)務(wù),可從外部的公開資源或伙伴資源中,找到跟AI訓(xùn)練相關(guān)的數(shù)據(jù),如第三方的數(shù)據(jù)平臺、公開的已被標(biāo)注好的訓(xùn)練集等(AI數(shù)據(jù)集類的網(wǎng)站會有公開的標(biāo)注好的數(shù)據(jù),但是否適用,要看具體的業(yè)務(wù)情況)。此外,還可以發(fā)布數(shù)據(jù)標(biāo)注的眾包任務(wù),通過人工標(biāo)注的形式收集標(biāo)注好的訓(xùn)練數(shù)據(jù)。
二、數(shù)據(jù)清洗
數(shù)據(jù)收集好后,不能直接使用,需要進(jìn)行清洗,否則會影響模型訓(xùn)練的結(jié)果。
通常需要關(guān)注以下幾種場景:
- 缺失數(shù)據(jù):收集后的數(shù)據(jù),因?yàn)閬碓床煌驍?shù)據(jù)本身的問題,會有數(shù)據(jù)缺失的情況。對于缺失的數(shù)據(jù),一般根據(jù)數(shù)據(jù)量的情況,采用“直接刪除”或“想辦法填補(bǔ)”的方法,填補(bǔ)數(shù)據(jù)可采用人工填補(bǔ)、臨近值填補(bǔ)、平均值/眾數(shù)填補(bǔ)、熱卡填補(bǔ)(最相似的填補(bǔ))等方法來填充。
- 重復(fù)數(shù)據(jù):數(shù)據(jù)本身可能因?yàn)楦鞣N原因有重復(fù)的情況或相似重復(fù)的情況(因?yàn)楦袷降炔町悓?dǎo)致系統(tǒng)不能正確識別),對于重復(fù)數(shù)據(jù),多采用直接刪除的方式。
- 不均衡數(shù)據(jù):部分維度的數(shù)據(jù)較多或太少,要根據(jù)數(shù)據(jù)的體量來選擇“丟棄”或“補(bǔ)充”,以達(dá)到數(shù)據(jù)集的平衡。
- 錯誤數(shù)據(jù):包含數(shù)據(jù)本身是錯誤值和異常極端的情況(超出范圍的極大、不可能的負(fù)數(shù)等),此類數(shù)據(jù)要看數(shù)據(jù)量的情況,選擇修正或舍棄。這部分的處理主要還是看各個方案的性價(jià)比,如果修正的時間太長,而數(shù)據(jù)量又足夠的情況,舍棄這部分訓(xùn)練數(shù)據(jù)是最省力的做法。當(dāng)然,如果這些數(shù)據(jù)隱含著系統(tǒng)中的bug,那還是最好要查清楚,至少要知道影響的范圍以及處理方案。
- 量綱不一致:這指的是在同一組數(shù)據(jù)中,不同特征或變量的單位或量綱不相同。例如某一特征的取值范圍是1到1000,而另一特征的取值范圍是0.01到10。這種情況下,兩個特征的量綱就不一致。在處理數(shù)據(jù)量綱不一致時,可采用以下方法:歸一化(將數(shù)據(jù)縮放到特定的范圍內(nèi),如將數(shù)據(jù)縮放到[0, 1]范圍內(nèi)),標(biāo)準(zhǔn)化(通過線性變換將數(shù)據(jù)縮放到相似的范圍,使其均值為0,標(biāo)準(zhǔn)差為1)等方法來使量綱達(dá)到一一致。
除了以上的處理,還需要根據(jù)業(yè)務(wù)場景進(jìn)行其他處理,如大小寫轉(zhuǎn)換、顯示格式的轉(zhuǎn)換,去除噪聲(部分?jǐn)?shù)據(jù)的存在不重要或會影響模型的結(jié)果,比如某些單詞,符號,停用詞等),需要根據(jù)具體的業(yè)務(wù)場景來進(jìn)行相應(yīng)的處理。
三、數(shù)據(jù)考量
在考量AI訓(xùn)練的數(shù)據(jù)集時,除了要根據(jù)情況對數(shù)據(jù)進(jìn)行處理之外,還要考慮訓(xùn)練數(shù)據(jù)是否滿足以下條件:
- 可維護(hù)性:對于需要連續(xù)關(guān)注“數(shù)據(jù)”進(jìn)展,不斷優(yōu)化模型的場景,數(shù)據(jù)后續(xù)的可維護(hù)性決定了是否能夠持續(xù)得到“訓(xùn)練數(shù)據(jù)”;
- 覆蓋面:選取的數(shù)據(jù)集是否能夠覆蓋當(dāng)前業(yè)務(wù)的主要場景及特征,會影響模型的實(shí)際表現(xiàn);
- 時效性:數(shù)據(jù)更新的頻率如果太慢,比如一個月更新一次,那這一個月中間數(shù)據(jù)的變化情況,模型就沒有了訓(xùn)練基礎(chǔ),當(dāng)然,數(shù)據(jù)更新太快,牽涉到的成本也更多,需要根據(jù)業(yè)務(wù)情況來權(quán)衡;
- 相關(guān)性:訓(xùn)練數(shù)據(jù)需要盡可能的相關(guān),比如你想分析某個話題下評論的情感分析,但是你給的訓(xùn)練集是電商領(lǐng)域的商品評論,雖然都是評論,但是因?yàn)闃I(yè)務(wù)領(lǐng)域不同,也會極大影響訓(xùn)練的結(jié)果。
AI模型需要大量的數(shù)據(jù)集(尤其是有監(jiān)督學(xué)習(xí)),而真正符合業(yè)務(wù)場景的數(shù)據(jù),往往都要花大量的時間收集、處理、標(biāo)注,所以盡可能地開拓思路,用最快、簡便的方式找到符合業(yè)務(wù)場景的高質(zhì)量數(shù)據(jù)來源,才能更好的讓模型訓(xùn)練起來。
多研究下行業(yè)內(nèi)外的其他產(chǎn)品是如何獲取訓(xùn)練數(shù)據(jù)的,多看些公開的數(shù)據(jù)集網(wǎng)站,是否有符合自己業(yè)務(wù)的已經(jīng)標(biāo)注好的數(shù)據(jù),多找找是否有第三方公司是否可以幫助你,盡可能“借力”簡化訓(xùn)練數(shù)據(jù)的獲取、處理過程,才能讓你有更多的精力放在AI模型后續(xù)的工作上。
本文由 @養(yǎng)心進(jìn)行時 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!