訓(xùn)練集、驗(yàn)證集、測(cè)試集和而不同,國(guó)內(nèi)數(shù)據(jù)集又是怎樣光景?
在AI的世界中,有關(guān)數(shù)據(jù)集的“故事”有很多,這篇文章里,作者就繼續(xù)講述有關(guān)AI數(shù)據(jù)集的那些原理,梳理了訓(xùn)練集、驗(yàn)證集、測(cè)試集的區(qū)別和聯(lián)系,以及目前國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應(yīng)對(duì)之策。想弄懂AI數(shù)據(jù)集的同學(xué),不妨來(lái)看看這篇文章。
各位看官:
歡迎一起揭秘AI的世界。AI領(lǐng)域中,無(wú)論是模型,算法,還是應(yīng)用,都離不開數(shù)據(jù)。
如果將AI比喻成一個(gè)廚師,那么數(shù)據(jù)就是食材。沒(méi)有食材,廚師就無(wú)法烹飪出美味的佳肴。同樣地,沒(méi)有數(shù)據(jù),AI就無(wú)法進(jìn)行分析和預(yù)測(cè),無(wú)法提供有價(jià)值的信息和決策支持。
所以,我覺(jué)得很有必要在了解AI的初步階段時(shí),就先和大家一起了解一下AI數(shù)據(jù)集是怎么回事。
無(wú)論你是廚師還是食客,大致要知道一些,美食佳肴用哪些食材烹飪而成的吧?
原本呢,我是打算僅一篇文章就把數(shù)據(jù)集的事情說(shuō)清楚的,但后面越寫越發(fā)現(xiàn),數(shù)據(jù)集的內(nèi)容比我預(yù)想的要多,文章草稿擬完后,意外發(fā)現(xiàn)竟然有2萬(wàn)多字。
2萬(wàn)多字如果放在一篇文章中,不符合閱讀習(xí)慣,不能發(fā)。所以,即使我已經(jīng)將整體的內(nèi)容草稿都寫好了,還是決定再投入一些精力和時(shí)間,重新進(jìn)行一輪拆分。
畢竟太長(zhǎng)的內(nèi)容,確實(shí)會(huì)影響到閱讀的耐心,在短視頻充斥的當(dāng)代,也不知道還剩多少人會(huì)有耐心看完一篇長(zhǎng)文了??梢姡瑑?nèi)容太長(zhǎng),亟待拆解,分章閱讀,許更合適。
本篇依舊繼續(xù)說(shuō)數(shù)據(jù)集的故事,這是數(shù)據(jù)集的第三篇文章,和之前兩篇有上下文的邏輯關(guān)聯(lián),但不會(huì)影響?yīng)毩㈤喿x。如果想一次性弄懂AI數(shù)據(jù)集,可以連著前面兩篇一起看。
第一篇《帶你識(shí)別AI數(shù)據(jù)集的各種面孔 (AI從業(yè)萬(wàn)字干貨)》中,我主要介紹了AI數(shù)據(jù)集是什么,這些數(shù)據(jù)集的常見格式有哪些,分別有哪些適用場(chǎng)景和局限之處,也給大家整理了一些網(wǎng)上的公開數(shù)據(jù)集,當(dāng)我們需要數(shù)據(jù)來(lái)做AI項(xiàng)目時(shí),可供君參考。
第二篇《AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通!》中,我將三者比喻成了教師、輔導(dǎo)員和考官,通過(guò)貓貓識(shí)別模型的模擬案例來(lái)說(shuō)明三者在不同階段所發(fā)揮的能力以及如何運(yùn)用。
這是第三篇,我想說(shuō)的是“訓(xùn)練集,驗(yàn)證集,測(cè)試集”的區(qū)別和聯(lián)系,以及目前國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應(yīng)對(duì)之策。希望對(duì)你有幫助。
全文8000字左右,預(yù)計(jì)閱讀時(shí)間12分鐘,若是碎片時(shí)間不夠,建議先收藏后看,便于找回。
照例,開篇提供文章結(jié)構(gòu)導(dǎo)圖,方便大家在閱讀前總攬全局,有大致的畫面框架。
一、訓(xùn)練集、測(cè)試集、驗(yàn)證集的不同之處
訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者,在數(shù)據(jù)目的與功能、數(shù)據(jù)交互頻率上、數(shù)據(jù)劃分與比例以及使用時(shí)機(jī)等方面均有不同之處。
1. 目的與功能不同
訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者的目的和功能不同。訓(xùn)練集主要用于訓(xùn)練模型,驗(yàn)證集主要用于在訓(xùn)練過(guò)程中選擇模型和調(diào)整超參數(shù),測(cè)試集則用來(lái)最終評(píng)估模型的性能。
【訓(xùn)練集】:訓(xùn)練模型
訓(xùn)練集用于模型訓(xùn)練,幫助模型確定權(quán)重和偏置等參數(shù),模型通過(guò)深入學(xué)習(xí)和理解訓(xùn)練集中的數(shù)據(jù),逐漸學(xué)會(huì)識(shí)別其中的模式和規(guī)律,并逐步優(yōu)化其預(yù)測(cè)能力。
這就像是人類在學(xué)習(xí)語(yǔ)言和知識(shí),一步步建立起自己的認(rèn)知體系。
“九層之臺(tái),起于累土?!睕](méi)有良好的訓(xùn)練集,模型就像是失去了根基的大樹,無(wú)法穩(wěn)固地生長(zhǎng)和擴(kuò)展。
因此,我們需要精心準(zhǔn)備和挑選訓(xùn)練集,確保它具有代表性和高質(zhì)量,這樣模型才能更好地理解和適應(yīng)真實(shí)世界的變化。
【驗(yàn)證集】:選擇和調(diào)參
驗(yàn)證集用于模型選擇和超參數(shù)調(diào)整。它不參與學(xué)習(xí)參數(shù)的確定,主要幫助我們?cè)诒姸嗫赡苄灾?,找到那些能夠使模型性能達(dá)到巔峰的超參數(shù),如網(wǎng)絡(luò)層數(shù)、網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)率等。
它有點(diǎn)像是幕后的智囊團(tuán),默默地為挑選最優(yōu)模型超參數(shù)提供優(yōu)質(zhì)的咨詢和建議。
驗(yàn)證集讓我們能夠在實(shí)戰(zhàn)之前,就預(yù)知模型的性能,從而做出最佳的選擇。這種前瞻性的策略,不僅能夠提高模型的效率,更能夠節(jié)省寶貴的時(shí)間和資源。
【測(cè)試集】:評(píng)估性能
測(cè)試集用于評(píng)估模型的最終性能,是考驗(yàn)?zāi)P偷淖詈笠魂P(guān)。它不參與模型的學(xué)習(xí)參數(shù)過(guò)程,也不介入超參數(shù)的選擇,它的存在,就是為了對(duì)模型的最終性能(即泛化能力)做出公正的評(píng)價(jià)。
如果把自己想象成一個(gè)AI大模型,有沒(méi)有覺(jué)得測(cè)試集有點(diǎn)像古代的科舉考試,或者是當(dāng)今的高考,是對(duì)自己所學(xué)知識(shí)的一次全面檢驗(yàn)。
“真金不怕火煉”,測(cè)試集就是那煉金的火焰,一個(gè)AI模型只有通過(guò)了它的考驗(yàn),才能真正稱得上是具備良好泛化能力的模型。
2. 數(shù)據(jù)交互頻率不同
訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者和模型的數(shù)據(jù)交互頻率不同。訓(xùn)練集會(huì)不斷交互,驗(yàn)證集是定期交互,而測(cè)試集只交互一次。
【訓(xùn)練集】:不斷交互
使用訓(xùn)練集時(shí),模型在訓(xùn)練階段不斷與訓(xùn)練集交互,通過(guò)多次地學(xué)習(xí)、調(diào)整和迭代來(lái)提高性能。它是在訓(xùn)練集的多次反饋中完成優(yōu)化的。
這讓我想到“熟能生巧”這個(gè)詞,在訓(xùn)練集中,模型就像是一位手藝人在反復(fù)錘煉自己的技藝,通過(guò)一次次的迭代優(yōu)化,逐步提升自己的工藝水平。
【驗(yàn)證集】:定期交互
驗(yàn)證集在訓(xùn)練過(guò)程中的不同時(shí)間點(diǎn)交互,幫助開發(fā)人員調(diào)整模型參數(shù)和決定訓(xùn)練的結(jié)束點(diǎn)。它在訓(xùn)練過(guò)程中的每一個(gè)關(guān)鍵時(shí)刻出現(xiàn),為開發(fā)人員提供寶貴的反饋和指引,幫助開發(fā)人員調(diào)整模型的超參數(shù)。
所以,模型并不會(huì)在驗(yàn)證集中反復(fù)訓(xùn)練。和訓(xùn)練集中的情況不一樣,模型只會(huì)定期和驗(yàn)證集進(jìn)行數(shù)據(jù)交互,驗(yàn)證集的每一次反饋,都是對(duì)模型的一次重要檢驗(yàn),所獲得的數(shù)據(jù)評(píng)估指標(biāo),也是優(yōu)化AI性能的重要依據(jù)。
【測(cè)試集】:交互一次
測(cè)試集在整個(gè)訓(xùn)練過(guò)程完成后只交互一次,用于模型的最終評(píng)估。就像是那最后一場(chǎng)決定勝負(fù)的較量,只有在整個(gè)訓(xùn)練過(guò)程圓滿完成后,它才會(huì)出現(xiàn)。
正因?yàn)橹挥幸淮危圆疟陡姓湎В瑴y(cè)試集是模型的最后一道關(guān)卡,通過(guò)了,它就“出師”了,可以“下山”去江湖中見世面,接受真實(shí)世界的考驗(yàn)了。
3. 數(shù)據(jù)劃分與比例不同
通常情況下,數(shù)據(jù)集會(huì)通過(guò)隨機(jī)抽樣、分層抽樣、時(shí)間序列抽樣等方式,按照不同比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,三者之間不能有交集。
【訓(xùn)練集】:占比約60%~80%
訓(xùn)練集作為模型學(xué)習(xí)的主要來(lái)源,需要占據(jù)較大的比例,以確保模型有足夠的數(shù)據(jù)來(lái)捕捉到數(shù)據(jù)中的模式和規(guī)律。
【驗(yàn)證集】:占比約10%~20%
一般來(lái)說(shuō),這個(gè)占比規(guī)模的驗(yàn)證集已經(jīng)足夠提供模型性能的合理估計(jì),能提供有關(guān)模型泛化能力的有用信息就行,不用過(guò)多。
而且,如果驗(yàn)證集太大,每次評(píng)估的時(shí)間成本會(huì)顯著增加,這會(huì)拖慢整個(gè)實(shí)驗(yàn)的進(jìn)度。
【測(cè)試集】:占比約10%~20%
因?yàn)闇y(cè)試集在模型訓(xùn)練完成后只評(píng)估一次,所以只要足夠用于評(píng)估模型最終性能就行。
如果測(cè)試集太大,評(píng)估過(guò)程可能也會(huì)消耗大量的計(jì)算資源和時(shí)間,沒(méi)有必要。
以上,就是在數(shù)據(jù)劃分上,訓(xùn)練集、測(cè)試集、驗(yàn)證集較為常見的劃分比例。具體比例取決于實(shí)際任務(wù)的需求和數(shù)據(jù)量的大小,不同的機(jī)器學(xué)習(xí)問(wèn)題可能有不同的數(shù)據(jù)劃分需求。
例如,對(duì)于數(shù)據(jù)量非常龐大的情況,可能只需要很小的驗(yàn)證集和測(cè)試集;而對(duì)于數(shù)據(jù)量本身就很小的情況,可能需要采用交叉驗(yàn)證等方法來(lái)充分利用數(shù)據(jù)。
4. 使用時(shí)機(jī)不同
訓(xùn)練集、驗(yàn)證集和測(cè)試集在模型的整個(gè)訓(xùn)練過(guò)程中,會(huì)在不同階段發(fā)揮作用,所以開發(fā)人員使用它們的時(shí)機(jī)是不同的。
【訓(xùn)練集】:在模型的初始訓(xùn)練階段使用
模型剛剛搭建起來(lái)的時(shí)候,就像是個(gè)對(duì)世界一無(wú)所知的新生兒,我們需要耐心地用訓(xùn)練集對(duì)它進(jìn)行大量的訓(xùn)練,就像是給孩子上課,一遍又一遍,直到它掌握了所有的知識(shí)為止,這是初始必經(jīng)過(guò)程。
【驗(yàn)證集】:在模型訓(xùn)練過(guò)程中定期使用
因?yàn)轵?yàn)證集用于監(jiān)控模型的性能和調(diào)整超參數(shù)。所以在模型通過(guò)初始階段的訓(xùn)練后,我們需要在過(guò)程中可以監(jiān)督到模型的學(xué)習(xí)效果。
于是,在模型的訓(xùn)練過(guò)程中,直到結(jié)束訓(xùn)練前的這個(gè)階段,我們會(huì)用驗(yàn)證集給模型來(lái)幾場(chǎng)“摸底考試”,若是發(fā)現(xiàn)不對(duì)的地方,還可以及時(shí)調(diào)整,以確保模型在訓(xùn)練過(guò)程中具備良好的性能。
【測(cè)試集】:在模型訓(xùn)練完成后使用
測(cè)試集用于最終評(píng)估模型性能。所以,在訓(xùn)練集和驗(yàn)證集階段,我們都不會(huì)用到測(cè)試集的數(shù)據(jù),并且也需要保證測(cè)試集的數(shù)據(jù)是模型之前未見過(guò)的數(shù)據(jù)。
然后,在模型訓(xùn)練完成后,測(cè)試集作為最后的“期末大考”,會(huì)給模型一次真槍實(shí)彈的考驗(yàn)。
對(duì)模型學(xué)習(xí)成果來(lái)一次最終的全面檢驗(yàn)是測(cè)試集存在的價(jià)值之一,這也是為什么測(cè)試集會(huì)被放在模型訓(xùn)練的最后階段。
二、訓(xùn)練集、測(cè)試集、驗(yàn)證集的相似之處
訓(xùn)練集、測(cè)試集和驗(yàn)證集在數(shù)據(jù)來(lái)源、預(yù)處理、目標(biāo)、獨(dú)立性以及數(shù)據(jù)質(zhì)量和代表性方面都有著相似之處,這些相似性是確保模型完成有效訓(xùn)練和評(píng)估的基礎(chǔ)。
1. 數(shù)據(jù)來(lái)源一致
訓(xùn)練集、驗(yàn)證集和測(cè)試集通常來(lái)自同一數(shù)據(jù)源或具有相同的數(shù)據(jù)分布。這意味著它們共享相同的數(shù)據(jù)特征和屬性,確保模型在不同階段處理的數(shù)據(jù)具有一致性。
這就像是在同一個(gè)課堂里學(xué)習(xí),大家都在吸收著同樣的知識(shí)。
2. 相似的數(shù)據(jù)預(yù)處理
在模型訓(xùn)練之前,訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要進(jìn)行相似的數(shù)據(jù)預(yù)處理步驟,如歸一化、標(biāo)準(zhǔn)化、缺失值處理等。
歸一化就像是給數(shù)據(jù)量體裁衣,讓每個(gè)數(shù)據(jù)點(diǎn)都在合適的范圍內(nèi)。
數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到一個(gè)特定的范圍,通常是在0和1之間。這樣做的目的是讓數(shù)據(jù)在相同的尺度上,以便模型能夠更好地學(xué)習(xí)和識(shí)別其中的模式。
例如,如果數(shù)據(jù)集中的某些特征值非常大,而另一些特征值非常小,那么在訓(xùn)練過(guò)程中,較大的值可能會(huì)對(duì)模型的學(xué)習(xí)產(chǎn)生更大的影響。
通過(guò)歸一化,我們可以減少這種影響,使得每個(gè)特征對(duì)模型的貢獻(xiàn)更加均衡。
標(biāo)準(zhǔn)化則是調(diào)整數(shù)據(jù)的尺碼,讓它們能夠站在同一條起跑線上。
標(biāo)準(zhǔn)化的方法,是將數(shù)據(jù)特征的均值(mean)設(shè)置為0,標(biāo)準(zhǔn)差(standard deviation)設(shè)置為1。這通常通過(guò)減去特征的均值然后除以其標(biāo)準(zhǔn)差來(lái)實(shí)現(xiàn)。
公式為:z= (x?μ)/σ
其中:x 是數(shù)據(jù)點(diǎn)的原始值,μ 是該特征的均值,σ 是該特征的標(biāo)準(zhǔn)差。
通過(guò)將每個(gè)數(shù)據(jù)點(diǎn)減去其特征的均值,然后除以其標(biāo)準(zhǔn)差,我們可以將數(shù)據(jù)特征縮放到一個(gè)標(biāo)準(zhǔn)單位,使其具有零均值和單位方差。這個(gè)過(guò)程有助于某些算法(如線性回歸)的訓(xùn)練和預(yù)測(cè)過(guò)程更加穩(wěn)定。
缺失值的處理,則像是填補(bǔ)數(shù)據(jù)中的空白,讓整個(gè)數(shù)據(jù)集更加完整。
在數(shù)據(jù)集中,可能會(huì)有一些數(shù)據(jù)點(diǎn)由于各種原因(如測(cè)量錯(cuò)誤、數(shù)據(jù)錄入錯(cuò)誤等)而丟失。
處理這些缺失值的方法有多種,包括刪除含有缺失值的樣本、填充缺失值(如使用平均值、中位數(shù)或眾數(shù)填充)、或者使用模型預(yù)測(cè)缺失值等。
處理缺失值的關(guān)鍵是確保不會(huì)引入偏差,同時(shí)保留盡可能多的有效信息。
3. 目標(biāo)一致
盡管這三個(gè)數(shù)據(jù)集在模型開發(fā)的不同階段使用,但它們的目標(biāo)是一致的,即都是為了構(gòu)建一個(gè)泛化能力強(qiáng)、能夠準(zhǔn)確預(yù)測(cè)新數(shù)據(jù)的模型。
這三個(gè)數(shù)據(jù)集,就像是一個(gè)團(tuán)隊(duì)的成員,奔著共同的目標(biāo),各司其職,相互協(xié)作,一起推動(dòng)模型的成長(zhǎng)。
4. 數(shù)據(jù)皆有獨(dú)立性
為了保證模型評(píng)估的公正性,訓(xùn)練集、驗(yàn)證集和測(cè)試集中的樣本必須保持相互獨(dú)立。
這意味著,每個(gè)集合中的數(shù)據(jù)是獨(dú)一無(wú)二的,不會(huì)與其他集合的數(shù)據(jù)交叉重疊,讓模型在評(píng)估過(guò)程中的表現(xiàn)不會(huì)受到其他集合數(shù)據(jù)的影響。這種獨(dú)立性確保了評(píng)估結(jié)果的真實(shí)性和有效性。
5. 保證數(shù)據(jù)質(zhì)量和代表性
為了確保模型在不同階段的學(xué)習(xí)和評(píng)估過(guò)程中能夠獲得準(zhǔn)確和可靠的結(jié)果,訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要能夠代表原始數(shù)據(jù)的整體特性,同時(shí)還需保證數(shù)據(jù)質(zhì)量。
這意味著它們都應(yīng)該包含所有可能的數(shù)據(jù)特征和類別,以便模型能夠在不同的數(shù)據(jù)集上都能學(xué)習(xí)到有效的模式,提高其泛化能力。
關(guān)于什么樣的數(shù)據(jù)集算得上高質(zhì)量,什么樣的數(shù)據(jù)集屬于具有代表性,我在《AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通!》中有詳細(xì)介紹,感興趣的朋友可以進(jìn)一步閱讀。
整體而言,我們從訓(xùn)練集、驗(yàn)證集和測(cè)試集的不同與相似之中可以發(fā)現(xiàn),它們?cè)跈C(jī)器學(xué)習(xí)的模型訓(xùn)練中是緊密相連的。
如果拿它們的關(guān)系舉例的話。
訓(xùn)練集相當(dāng)于課后的練習(xí)題,用于日常的知識(shí)鞏固。
驗(yàn)證集相當(dāng)于平時(shí)的周考月考,用來(lái)糾正和強(qiáng)化學(xué)到的知識(shí)。
測(cè)試集相當(dāng)于期末考試,用來(lái)最終評(píng)估學(xué)習(xí)效果。
它們各司其職,共同保障了模型的有效學(xué)習(xí)結(jié)果和泛化能力。
三、國(guó)內(nèi)AI數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)
AI行業(yè)經(jīng)過(guò)2023年一整年的喧囂與熱鬧之后,大模型之間的“卷”也走向了高潮,國(guó)外有OpenAI的GPT-4、DALL-E,Meta的LLaMA 2等,國(guó)內(nèi)有阿里的通義千問(wèn),百度的文心一言,百川智能的百川大模型等。
但實(shí)際上,AI應(yīng)用的成功案例并不多,這表明AI落地的部分仍不明確,需要進(jìn)一步的探索和創(chuàng)新。為了適應(yīng)更多細(xì)分的落地場(chǎng)景,大模型之間這股“卷”的浪潮也將逐步帶起一堆小模型之間的競(jìng)爭(zhēng)。
“王侯將相寧有種乎”,AI的風(fēng)吹起來(lái)了,更多的創(chuàng)業(yè)者和普通大眾的機(jī)會(huì)來(lái)了,挖掘適合自己或者某個(gè)細(xì)分行業(yè)的小模型、小gpt,恐怕是2024年的主旋律了。
畢竟,“不管白貓黑貓,抓住老鼠就是好貓”。不管大模型小模型,能掙到錢的就是好模型。
但最關(guān)鍵的是,好模型離不開好數(shù)據(jù),好的數(shù)據(jù)集對(duì)模型的成功至關(guān)重要。它能提升模型的精確度,讓模型能更準(zhǔn)確地預(yù)測(cè)或分類。
同時(shí),好的數(shù)據(jù)集還能增強(qiáng)模型的可解釋性,使我們更容易理解模型的決策過(guò)程。也有助于模型更快地收斂到最優(yōu)解,這意味著模型的訓(xùn)練時(shí)間將大大縮短,這背后也意味著的,是實(shí)打?qū)嵉男屎统杀?,是核心?jìng)爭(zhēng)力。
我們不妨一起來(lái)看看,國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)。
1. 數(shù)據(jù)集的規(guī)模和質(zhì)量還待提升
由于數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)類型復(fù)雜,國(guó)內(nèi)AI大模型數(shù)據(jù)集存在質(zhì)量參差不齊的問(wèn)題。高質(zhì)量的數(shù)據(jù)集往往需要專業(yè)的標(biāo)注和清洗過(guò)程。這一過(guò)程包括對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的分類、校對(duì)和驗(yàn)證,以確保模型能夠接收準(zhǔn)確、一致和有用的信息。
然而,國(guó)內(nèi)部分AI數(shù)據(jù)集因缺乏嚴(yán)格的標(biāo)注和清洗流程,導(dǎo)致數(shù)據(jù)質(zhì)量不盡如人意。這些問(wèn)題包括標(biāo)注錯(cuò)誤、數(shù)據(jù)重復(fù)和不平衡的數(shù)據(jù)分布,這些都可能削弱AI大模型的訓(xùn)練效果。
從另外一個(gè)角度看,這也凸顯了高質(zhì)量數(shù)據(jù)的價(jià)值,高質(zhì)量的數(shù)據(jù)集不僅能夠提升模型的性能,而且由于其收集和處理的復(fù)雜性,成本也相對(duì)較高。
與此同時(shí),國(guó)內(nèi)的數(shù)據(jù)文化有其自身的特色,國(guó)內(nèi)在數(shù)據(jù)集的共享和開放性方面相對(duì)謹(jǐn)慎。由于對(duì)數(shù)據(jù)隱私、安全以及商業(yè)競(jìng)爭(zhēng)的考慮,許多有價(jià)值的數(shù)據(jù)庫(kù)并沒(méi)有對(duì)外公開。從技術(shù)的角度來(lái)看,這種做法可能會(huì)限制數(shù)據(jù)集的廣泛應(yīng)用和研究。
然而,從其他角度來(lái)看,保持?jǐn)?shù)據(jù)的獨(dú)立性和私密性也是有其合理性的。這種做法有助于保護(hù)敏感信息,防止數(shù)據(jù)被濫用,同時(shí)也鼓勵(lì)企業(yè)和機(jī)構(gòu)投資于數(shù)據(jù)收集和分析,以獲得競(jìng)爭(zhēng)優(yōu)勢(shì),也算是體現(xiàn)了對(duì)數(shù)據(jù)安全和商業(yè)利益的重視。
隨著AI浪潮的涌進(jìn),未來(lái)的大模型可能會(huì)呈現(xiàn)出一種增長(zhǎng)飛輪效應(yīng)。然而,無(wú)論模型變得多么龐大,數(shù)據(jù)集的質(zhì)量始終是關(guān)鍵。
為了從公開網(wǎng)絡(luò)中獲取高質(zhì)量的數(shù)據(jù),我們需要尋找那些內(nèi)容質(zhì)量高、規(guī)模大的平臺(tái)。例如,對(duì)于視頻內(nèi)容,字節(jié)跳動(dòng)和騰訊的視頻平臺(tái)是不錯(cuò)的選擇,B站上的視頻質(zhì)量也比較優(yōu)秀。至于觀點(diǎn)表達(dá)和知識(shí)分享,百家號(hào)、知乎等平臺(tái)則提供了豐富的資源。
在國(guó)內(nèi),中文數(shù)據(jù)集在AI研究中進(jìn)展較慢,部分原因是構(gòu)建中文數(shù)據(jù)集的難度大,且NLP算法的進(jìn)步與中文數(shù)據(jù)集關(guān)聯(lián)性不強(qiáng)。這些因素導(dǎo)致我們的中文NLP數(shù)據(jù)集在數(shù)量和質(zhì)量上與國(guó)外存在明顯差距。
為了有效縮小這一差距,同時(shí)考慮實(shí)際操作、成本效益和時(shí)間效率,我們可以推動(dòng)關(guān)鍵行業(yè)應(yīng)用數(shù)據(jù)集的發(fā)展。這樣做不僅能加快中文NLP技術(shù)的發(fā)展,還能確保其在實(shí)際應(yīng)用中的高效和實(shí)用。
2. 大模型與數(shù)據(jù)集之間必然相輔相成
國(guó)內(nèi)的大模型呈現(xiàn)著百花齊放的盛況,數(shù)據(jù)的發(fā)展同樣需要跟上這一步伐。
在2024年1月23日浙江省兩會(huì)上,浙江省政協(xié)委員、達(dá)摩院院長(zhǎng)、湖畔實(shí)驗(yàn)室主任張建鋒建議統(tǒng)籌建設(shè)高質(zhì)量醫(yī)學(xué)影像數(shù)據(jù)集,推動(dòng)醫(yī)療AI技術(shù)的廣泛應(yīng)用,進(jìn)而促進(jìn)醫(yī)療行業(yè)的發(fā)展。
在模型和數(shù)據(jù)相互助力方面,達(dá)摩院(湖畔實(shí)驗(yàn)室)與全球多家頂級(jí)醫(yī)療機(jī)構(gòu)合作,創(chuàng)建了一個(gè)迄今為止最大的胰腺腫瘤CT影像訓(xùn)練集,并利用它訓(xùn)練出了一個(gè)具有強(qiáng)大泛化能力的AI模型。
據(jù)央廣網(wǎng)報(bào)道,在一個(gè)包含2萬(wàn)多人的回顧性真實(shí)病例試驗(yàn)中,該模型成功發(fā)現(xiàn)了31例之前未被診斷出的臨床病變,其中2例病患已經(jīng)通過(guò)手術(shù)治愈。這項(xiàng)研究的成果被發(fā)表在了國(guó)際著名的醫(yī)學(xué)期刊《自然·醫(yī)學(xué)》上。
由此可見,好的AI模型和好的數(shù)據(jù)集,相輔相成,互相助力。AI模型如同大腦,通過(guò)深度學(xué)習(xí)與不斷優(yōu)化,實(shí)現(xiàn)智能識(shí)別、預(yù)測(cè)與分析;而數(shù)據(jù)集則如同養(yǎng)料,為AI模型提供豐富、準(zhǔn)確的信息來(lái)源。
只有優(yōu)秀的AI模型與高質(zhì)量的數(shù)據(jù)集相結(jié)合,才能充分發(fā)揮AI的潛力,為各行各業(yè)帶來(lái)顛覆性的變革。
伴隨著GPT系列大模型的火熱,國(guó)內(nèi)的各大模型也都發(fā)揮著渾身解數(shù),國(guó)內(nèi)的科大訊飛星火認(rèn)知大模型,百度文心一言,商湯商量,智譜AI-ChatGLM等模型都相繼面市,不知道各位有沒(méi)有去體驗(yàn)過(guò)呢?
小插曲,我們讓星火認(rèn)知大模型,文心一言,商湯商量,智譜AI-ChatGLM這四位來(lái)個(gè)小試牛刀。
假設(shè)初次見面,讓它們做一個(gè)自我介紹,如何?
問(wèn)題很簡(jiǎn)單,就用“你好,請(qǐng)介紹一下你自己,我該如何向你提問(wèn)才能得到有效的答案?”一起來(lái)看看它們的回復(fù)吧。
科大訊飛星火認(rèn)知大模型
百度文心一言
商湯商量
智譜AI-ChatGLM
從4款產(chǎn)品的回復(fù)來(lái)看,貌似是星火認(rèn)知大模型更勝一籌呢,它的回答更加清晰易懂,結(jié)構(gòu)層次分明,內(nèi)容詳盡周全。相較于其他產(chǎn)品,它在信息的組織上,邏輯性更強(qiáng),傳達(dá)信息時(shí)更加高效和精確。
當(dāng)然啦,國(guó)內(nèi)大模型還有很多,有阿里巴巴的通義千問(wèn),百川智能的百川大模型等,感興趣的朋友,可以自行體驗(yàn)哈。
3. 數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范需更健全
隨著人工智能技術(shù)的快速發(fā)展,AI大模型在眾多領(lǐng)域展現(xiàn)出驚人的成長(zhǎng)速度,幾乎每周都能看到新的變化。
然而,AI大模型所需的數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范卻略顯滯后,數(shù)據(jù)集的標(biāo)準(zhǔn)和規(guī)范還不夠健全,這在一定程度上影響了AI模型的訓(xùn)練效果和應(yīng)用范圍。
顯然,國(guó)家已經(jīng)認(rèn)識(shí)到這一情況的重要性,制定了一系列政策和規(guī)劃,如《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》、《AI大模型發(fā)展白皮書》等。這些政策文件為AI大模型的數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范提供了高層次的指導(dǎo),指明了發(fā)展方向。
《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》中提到,“到 2023 年,初步建立人工智能標(biāo)準(zhǔn)體系,重點(diǎn)研制數(shù)據(jù)算法、系統(tǒng)、服務(wù)等重點(diǎn)急需標(biāo)準(zhǔn),并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點(diǎn)行業(yè)和領(lǐng)域進(jìn)行推進(jìn)。建設(shè)人工智能標(biāo)準(zhǔn)試驗(yàn)驗(yàn)證平臺(tái),提供公共服務(wù)能力。”
《AI大模型發(fā)展白皮書》由國(guó)家工信安全中心在2023年9月14日發(fā)布,其中也有提到,在基礎(chǔ)支撐方面,AI大模型訓(xùn)練數(shù)據(jù)需求激增,高質(zhì)量數(shù)據(jù)集成為AI大模型進(jìn)化的關(guān)鍵支撐。并建議全面夯實(shí)算法、算力、數(shù)據(jù)等高質(zhì)量發(fā)展根基。
與此同時(shí),由國(guó)家網(wǎng)信辦聯(lián)合國(guó)家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部和廣電總局共同發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中,明確了生成式人工智能服務(wù)提供者在數(shù)據(jù)處理活動(dòng)中應(yīng)遵循的規(guī)定,包括使用合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型,提高訓(xùn)練數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性和多樣性等。
無(wú)論是從政策文件出發(fā),還是從實(shí)際應(yīng)用出發(fā),AI大模型數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范對(duì)于我國(guó)AI產(chǎn)業(yè)發(fā)展具有重要意義。
面對(duì)當(dāng)前的挑戰(zhàn),我們期待能看到更完善的政策法規(guī)體系,建立有效的數(shù)據(jù)集質(zhì)量評(píng)估體系,推動(dòng)數(shù)據(jù)集共享與開放,加強(qiáng)國(guó)際合作與交流,從而讓我們的國(guó)產(chǎn)AI在全球競(jìng)爭(zhēng)中也能立于不敗之地。
4. 數(shù)據(jù)存儲(chǔ)性能還需提高
人工智能技術(shù)的快速進(jìn)步推動(dòng)了AI數(shù)據(jù)集的急劇擴(kuò)張和復(fù)雜化。大型數(shù)據(jù)集不僅包含海量的數(shù)據(jù),而且還包括大量的文本、圖片、音頻和視頻等不同類型的數(shù)據(jù)。
這就要求存儲(chǔ)系統(tǒng)必須擁有更大的存儲(chǔ)空間和更快的讀寫速度,才能滿足這些不斷增長(zhǎng)的數(shù)據(jù)需求。
在AI的整個(gè)工作流程中,從數(shù)據(jù)收集、預(yù)處理、模型訓(xùn)練與評(píng)估,再到模型的部署和應(yīng)用,每個(gè)環(huán)節(jié)都離不開對(duì)海量數(shù)據(jù)的存儲(chǔ)和快速訪問(wèn)。
然而,目前主流的存儲(chǔ)架構(gòu),如共享存儲(chǔ)結(jié)合本地SSD硬盤,還有一些IT系統(tǒng)大多采用煙囪式的建設(shè)模式,導(dǎo)致了數(shù)據(jù)在不同存儲(chǔ)集群之間需要頻繁遷移。
這種數(shù)據(jù)遷移不僅增加了復(fù)雜性,還降低了AI大模型處理數(shù)據(jù)的效率,已然是當(dāng)前AI數(shù)據(jù)集發(fā)展中面臨的一個(gè)挑戰(zhàn)。
所以,為了提高AI數(shù)據(jù)集的存儲(chǔ)性能,需要對(duì)存儲(chǔ)架構(gòu)進(jìn)行優(yōu)化。
可以考慮采用分布式存儲(chǔ)系統(tǒng),將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,提高數(shù)據(jù)的訪問(wèn)速度和可靠性。也可以采用數(shù)據(jù)壓縮和去重技術(shù),減少數(shù)據(jù)存儲(chǔ)的空間需求,提高存儲(chǔ)效率。
除了數(shù)量規(guī)模和數(shù)據(jù)架構(gòu),大模型參數(shù)的頻繁優(yōu)化和訓(xùn)練平臺(tái)的不穩(wěn)定性也會(huì)增加對(duì)高性能存儲(chǔ)的需求。
可以采用數(shù)據(jù)分片和索引技術(shù),提高數(shù)據(jù)的查詢和訪問(wèn)速度。也可以采用數(shù)據(jù)預(yù)處理和特征提取技術(shù),減少訓(xùn)練數(shù)據(jù)的大小和復(fù)雜度,提高訓(xùn)練效率。
伴隨著AI大模型發(fā)展的大趨勢(shì):參數(shù)量指數(shù)增長(zhǎng)、多模態(tài)和全模態(tài)的發(fā)展、以及對(duì)算力需求的增長(zhǎng),都會(huì)帶來(lái)數(shù)據(jù)存儲(chǔ)架構(gòu)的挑戰(zhàn),如存儲(chǔ)容量、數(shù)據(jù)遷移效率、系統(tǒng)故障間隔時(shí)間等。
因此,一個(gè)滿足AI大模型發(fā)展的存儲(chǔ)架構(gòu)需要具備高性能和大容量,并能進(jìn)行數(shù)據(jù)全生命周期管理,能支持AI全流程業(yè)務(wù),兼容多種協(xié)議,支持?jǐn)?shù)據(jù)高效流轉(zhuǎn)的同時(shí)又能滿足數(shù)千節(jié)點(diǎn)的橫向擴(kuò)展。要達(dá)到這個(gè)標(biāo)準(zhǔn),著實(shí)不容易。
其實(shí)國(guó)內(nèi)已經(jīng)有頭部企業(yè)在提供解決方案了,華為推出了OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000訓(xùn)/推超一體機(jī)。既展現(xiàn)了華為在AI存儲(chǔ)領(lǐng)域的深厚技術(shù)積累,也為AI大模型的發(fā)展和應(yīng)用提供了強(qiáng)大的基礎(chǔ)設(shè)施支持。
其中,OceanStor A310,專為處理基礎(chǔ)和行業(yè)大模型場(chǎng)景設(shè)計(jì),支持高達(dá)96個(gè)NVMe SSD閃存盤,帶寬可達(dá)400GB/s,IOPS達(dá)到驚人的1200萬(wàn)。
與此同時(shí),F(xiàn)usionCube A3000訓(xùn)/推超一體機(jī)的推出,進(jìn)一步降低了企業(yè)應(yīng)用AI大模型的門檻。該系統(tǒng)集成了高性能存儲(chǔ)、高速網(wǎng)絡(luò)和多樣化的計(jì)算資源,專為應(yīng)對(duì)行業(yè)大模型的訓(xùn)練和推理需求而設(shè)計(jì)。它不僅簡(jiǎn)化了部署和運(yùn)維流程,還提高了資源利用率和系統(tǒng)穩(wěn)定性。
不僅是華為,焱融科技的焱融全閃一體機(jī)F8000X,搭載全NVMe SSD硬件架構(gòu),攜手YRCloudFile軟件系統(tǒng),能全力發(fā)揮硬件性能。結(jié)合高速infiniband 200Gb網(wǎng)絡(luò),為NVIDIA GPU集群實(shí)現(xiàn)存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算全鏈路高性能配比。
這種設(shè)計(jì)摒棄了傳統(tǒng)的數(shù)據(jù)核心建設(shè)模式,實(shí)現(xiàn)了存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算三大核心資源的優(yōu)化組合。這不僅消除了IT基礎(chǔ)資源的限制,降低了數(shù)據(jù)流成本,還避免了資源浪費(fèi),實(shí)現(xiàn)了更優(yōu)的投入產(chǎn)出比。
綜合來(lái)看,AI數(shù)據(jù)集的重要性日益凸顯,是AI行業(yè)進(jìn)步的關(guān)鍵因素,同時(shí)也面臨著許多挑戰(zhàn)。我們需要企業(yè)和專業(yè)人士加大對(duì)AI數(shù)據(jù)集構(gòu)建的投入,擴(kuò)大數(shù)據(jù)集規(guī)模,提升數(shù)據(jù)質(zhì)量。
同時(shí),加強(qiáng)數(shù)據(jù)集的標(biāo)準(zhǔn)化和規(guī)范化同樣重要,需要提高數(shù)據(jù)標(biāo)注的質(zhì)量,以確保數(shù)據(jù)集的有效性和可靠性。
在存儲(chǔ)性能方面,需要研發(fā)和部署高性能、高可靠的存儲(chǔ)系統(tǒng),以支持大規(guī)模數(shù)據(jù)集的存儲(chǔ)和管理,確保AI模型的訓(xùn)練效率和數(shù)據(jù)處理的準(zhǔn)確性,這樣的系統(tǒng)是AI行業(yè)的基礎(chǔ)建設(shè),是增長(zhǎng)基礎(chǔ)。
作者:果釀,公眾號(hào):果釀產(chǎn)品說(shuō)
本文由 @果釀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!