AV无码电影,久久综合亚洲色hezyo社区

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

轉(zhuǎn)型AI產(chǎn)品經(jīng)理（2）：數(shù)據(jù)集篇

養(yǎng)心進(jìn)行時

2024-05-16

0 評論 2763 瀏覽 13 收藏

7 分鐘

我們在做AI產(chǎn)品，尤其是有監(jiān)督學(xué)習(xí)時，最重要的事情是訓(xùn)練數(shù)據(jù)從哪里來，數(shù)據(jù)又要怎么用，才能提升產(chǎn)出效率。今天我們來講下有關(guān)數(shù)據(jù)集的那些事。

一、獲取數(shù)據(jù)

內(nèi)部數(shù)據(jù)：通過整合系統(tǒng)內(nèi)部的數(shù)據(jù)來獲取AI訓(xùn)練/驗(yàn)證數(shù)據(jù)，通?？梢钥紤]系統(tǒng)里的歷史記錄，用戶的行為，屬性，交易等數(shù)據(jù)。這些內(nèi)部數(shù)據(jù)可能在系統(tǒng)的不同模塊中，包含了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)（日志等）、非結(jié)構(gòu)化數(shù)據(jù)（文本類的數(shù)據(jù)）需要進(jìn)行整合、映射、清洗。
外部數(shù)據(jù)：公開類的或第三方合作伙伴的數(shù)據(jù)，根據(jù)具體業(yè)務(wù)，可從外部的公開資源或伙伴資源中，找到跟AI訓(xùn)練相關(guān)的數(shù)據(jù)，如第三方的數(shù)據(jù)平臺、公開的已被標(biāo)注好的訓(xùn)練集等（AI數(shù)據(jù)集類的網(wǎng)站會有公開的標(biāo)注好的數(shù)據(jù)，但是否適用，要看具體的業(yè)務(wù)情況）。此外，還可以發(fā)布數(shù)據(jù)標(biāo)注的眾包任務(wù)，通過人工標(biāo)注的形式收集標(biāo)注好的訓(xùn)練數(shù)據(jù)。

二、數(shù)據(jù)清洗

數(shù)據(jù)收集好后，不能直接使用，需要進(jìn)行清洗，否則會影響模型訓(xùn)練的結(jié)果。

通常需要關(guān)注以下幾種場景：

缺失數(shù)據(jù)：收集后的數(shù)據(jù)，因?yàn)閬碓床煌驍?shù)據(jù)本身的問題，會有數(shù)據(jù)缺失的情況。對于缺失的數(shù)據(jù)，一般根據(jù)數(shù)據(jù)量的情況，采用“直接刪除”或“想辦法填補(bǔ)”的方法，填補(bǔ)數(shù)據(jù)可采用人工填補(bǔ)、臨近值填補(bǔ)、平均值/眾數(shù)填補(bǔ)、熱卡填補(bǔ)（最相似的填補(bǔ)）等方法來填充。
重復(fù)數(shù)據(jù)：數(shù)據(jù)本身可能因?yàn)楦鞣N原因有重復(fù)的情況或相似重復(fù)的情況（因?yàn)楦袷降炔町悓?dǎo)致系統(tǒng)不能正確識別），對于重復(fù)數(shù)據(jù)，多采用直接刪除的方式。
不均衡數(shù)據(jù)：部分維度的數(shù)據(jù)較多或太少，要根據(jù)數(shù)據(jù)的體量來選擇“丟棄”或“補(bǔ)充”，以達(dá)到數(shù)據(jù)集的平衡。
錯誤數(shù)據(jù)：包含數(shù)據(jù)本身是錯誤值和異常極端的情況（超出范圍的極大、不可能的負(fù)數(shù)等），此類數(shù)據(jù)要看數(shù)據(jù)量的情況，選擇修正或舍棄。這部分的處理主要還是看各個方案的性價(jià)比，如果修正的時間太長，而數(shù)據(jù)量又足夠的情況，舍棄這部分訓(xùn)練數(shù)據(jù)是最省力的做法。當(dāng)然，如果這些數(shù)據(jù)隱含著系統(tǒng)中的bug，那還是最好要查清楚，至少要知道影響的范圍以及處理方案。
量綱不一致：這指的是在同一組數(shù)據(jù)中，不同特征或變量的單位或量綱不相同。例如某一特征的取值范圍是1到1000，而另一特征的取值范圍是0.01到10。這種情況下，兩個特征的量綱就不一致。在處理數(shù)據(jù)量綱不一致時，可采用以下方法：歸一化（將數(shù)據(jù)縮放到特定的范圍內(nèi)，如將數(shù)據(jù)縮放到[0, 1]范圍內(nèi)），標(biāo)準(zhǔn)化（通過線性變換將數(shù)據(jù)縮放到相似的范圍，使其均值為0，標(biāo)準(zhǔn)差為1）等方法來使量綱達(dá)到一一致。

除了以上的處理，還需要根據(jù)業(yè)務(wù)場景進(jìn)行其他處理，如大小寫轉(zhuǎn)換、顯示格式的轉(zhuǎn)換，去除噪聲（部分?jǐn)?shù)據(jù)的存在不重要或會影響模型的結(jié)果，比如某些單詞，符號，停用詞等），需要根據(jù)具體的業(yè)務(wù)場景來進(jìn)行相應(yīng)的處理。

三、數(shù)據(jù)考量

在考量AI訓(xùn)練的數(shù)據(jù)集時，除了要根據(jù)情況對數(shù)據(jù)進(jìn)行處理之外，還要考慮訓(xùn)練數(shù)據(jù)是否滿足以下條件：

可維護(hù)性：對于需要連續(xù)關(guān)注“數(shù)據(jù)”進(jìn)展，不斷優(yōu)化模型的場景，數(shù)據(jù)后續(xù)的可維護(hù)性決定了是否能夠持續(xù)得到“訓(xùn)練數(shù)據(jù)”；
覆蓋面：選取的數(shù)據(jù)集是否能夠覆蓋當(dāng)前業(yè)務(wù)的主要場景及特征，會影響模型的實(shí)際表現(xiàn)；
時效性：數(shù)據(jù)更新的頻率如果太慢，比如一個月更新一次，那這一個月中間數(shù)據(jù)的變化情況，模型就沒有了訓(xùn)練基礎(chǔ)，當(dāng)然，數(shù)據(jù)更新太快，牽涉到的成本也更多，需要根據(jù)業(yè)務(wù)情況來權(quán)衡；
相關(guān)性：訓(xùn)練數(shù)據(jù)需要盡可能的相關(guān)，比如你想分析某個話題下評論的情感分析，但是你給的訓(xùn)練集是電商領(lǐng)域的商品評論，雖然都是評論，但是因?yàn)闃I(yè)務(wù)領(lǐng)域不同，也會極大影響訓(xùn)練的結(jié)果。

AI模型需要大量的數(shù)據(jù)集（尤其是有監(jiān)督學(xué)習(xí)），而真正符合業(yè)務(wù)場景的數(shù)據(jù)，往往都要花大量的時間收集、處理、標(biāo)注，所以盡可能地開拓思路，用最快、簡便的方式找到符合業(yè)務(wù)場景的高質(zhì)量數(shù)據(jù)來源，才能更好的讓模型訓(xùn)練起來。

多研究下行業(yè)內(nèi)外的其他產(chǎn)品是如何獲取訓(xùn)練數(shù)據(jù)的，多看些公開的數(shù)據(jù)集網(wǎng)站，是否有符合自己業(yè)務(wù)的已經(jīng)標(biāo)注好的數(shù)據(jù)，多找找是否有第三方公司是否可以幫助你，盡可能“借力”簡化訓(xùn)練數(shù)據(jù)的獲取、處理過程，才能讓你有更多的精力放在AI模型后續(xù)的工作上。

本文由 @養(yǎng)心進(jìn)行時原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App