欧洲女人牲交性开放视频,久久精品中文字幕无码

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

訓(xùn)練集、驗(yàn)證集、測(cè)試集和而不同，國(guó)內(nèi)數(shù)據(jù)集又是怎樣光景？

果釀

2024-02-04

0 評(píng)論 1233 瀏覽 6 收藏

37 分鐘

在AI的世界中，有關(guān)數(shù)據(jù)集的“故事”有很多，這篇文章里，作者就繼續(xù)講述有關(guān)AI數(shù)據(jù)集的那些原理，梳理了訓(xùn)練集、驗(yàn)證集、測(cè)試集的區(qū)別和聯(lián)系，以及目前國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應(yīng)對(duì)之策。想弄懂AI數(shù)據(jù)集的同學(xué)，不妨來(lái)看看這篇文章。

各位看官：

歡迎一起揭秘AI的世界。AI領(lǐng)域中，無(wú)論是模型，算法，還是應(yīng)用，都離不開數(shù)據(jù)。

如果將AI比喻成一個(gè)廚師，那么數(shù)據(jù)就是食材。沒(méi)有食材，廚師就無(wú)法烹飪出美味的佳肴。同樣地，沒(méi)有數(shù)據(jù)，AI就無(wú)法進(jìn)行分析和預(yù)測(cè)，無(wú)法提供有價(jià)值的信息和決策支持。

所以，我覺(jué)得很有必要在了解AI的初步階段時(shí)，就先和大家一起了解一下AI數(shù)據(jù)集是怎么回事。

無(wú)論你是廚師還是食客，大致要知道一些，美食佳肴用哪些食材烹飪而成的吧？

原本呢，我是打算僅一篇文章就把數(shù)據(jù)集的事情說(shuō)清楚的，但后面越寫越發(fā)現(xiàn)，數(shù)據(jù)集的內(nèi)容比我預(yù)想的要多，文章草稿擬完后，意外發(fā)現(xiàn)竟然有2萬(wàn)多字。

2萬(wàn)多字如果放在一篇文章中，不符合閱讀習(xí)慣，不能發(fā)。所以，即使我已經(jīng)將整體的內(nèi)容草稿都寫好了，還是決定再投入一些精力和時(shí)間，重新進(jìn)行一輪拆分。

畢竟太長(zhǎng)的內(nèi)容，確實(shí)會(huì)影響到閱讀的耐心，在短視頻充斥的當(dāng)代，也不知道還剩多少人會(huì)有耐心看完一篇長(zhǎng)文了?？梢姡瑑?nèi)容太長(zhǎng)，亟待拆解，分章閱讀，許更合適。

本篇依舊繼續(xù)說(shuō)數(shù)據(jù)集的故事，這是數(shù)據(jù)集的第三篇文章，和之前兩篇有上下文的邏輯關(guān)聯(lián)，但不會(huì)影響?yīng)毩㈤喿x。如果想一次性弄懂AI數(shù)據(jù)集，可以連著前面兩篇一起看。

第一篇《帶你識(shí)別AI數(shù)據(jù)集的各種面孔（AI從業(yè)萬(wàn)字干貨）》中，我主要介紹了AI數(shù)據(jù)集是什么，這些數(shù)據(jù)集的常見格式有哪些，分別有哪些適用場(chǎng)景和局限之處，也給大家整理了一些網(wǎng)上的公開數(shù)據(jù)集，當(dāng)我們需要數(shù)據(jù)來(lái)做AI項(xiàng)目時(shí)，可供君參考。

第二篇《AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！》中，我將三者比喻成了教師、輔導(dǎo)員和考官，通過(guò)貓貓識(shí)別模型的模擬案例來(lái)說(shuō)明三者在不同階段所發(fā)揮的能力以及如何運(yùn)用。

這是第三篇，我想說(shuō)的是“訓(xùn)練集，驗(yàn)證集，測(cè)試集”的區(qū)別和聯(lián)系，以及目前國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應(yīng)對(duì)之策。希望對(duì)你有幫助。

全文8000字左右，預(yù)計(jì)閱讀時(shí)間12分鐘，若是碎片時(shí)間不夠，建議先收藏后看，便于找回。

照例，開篇提供文章結(jié)構(gòu)導(dǎo)圖，方便大家在閱讀前總攬全局，有大致的畫面框架。

一、訓(xùn)練集、測(cè)試集、驗(yàn)證集的不同之處

訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者，在數(shù)據(jù)目的與功能、數(shù)據(jù)交互頻率上、數(shù)據(jù)劃分與比例以及使用時(shí)機(jī)等方面均有不同之處。

1. 目的與功能不同

訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者的目的和功能不同。訓(xùn)練集主要用于訓(xùn)練模型，驗(yàn)證集主要用于在訓(xùn)練過(guò)程中選擇模型和調(diào)整超參數(shù)，測(cè)試集則用來(lái)最終評(píng)估模型的性能。

【訓(xùn)練集】：訓(xùn)練模型

訓(xùn)練集用于模型訓(xùn)練，幫助模型確定權(quán)重和偏置等參數(shù)，模型通過(guò)深入學(xué)習(xí)和理解訓(xùn)練集中的數(shù)據(jù)，逐漸學(xué)會(huì)識(shí)別其中的模式和規(guī)律，并逐步優(yōu)化其預(yù)測(cè)能力。

這就像是人類在學(xué)習(xí)語(yǔ)言和知識(shí)，一步步建立起自己的認(rèn)知體系。

“九層之臺(tái)，起于累土?！睕](méi)有良好的訓(xùn)練集，模型就像是失去了根基的大樹，無(wú)法穩(wěn)固地生長(zhǎng)和擴(kuò)展。

因此，我們需要精心準(zhǔn)備和挑選訓(xùn)練集，確保它具有代表性和高質(zhì)量，這樣模型才能更好地理解和適應(yīng)真實(shí)世界的變化。

【驗(yàn)證集】：選擇和調(diào)參

驗(yàn)證集用于模型選擇和超參數(shù)調(diào)整。它不參與學(xué)習(xí)參數(shù)的確定，主要幫助我們?cè)诒姸嗫赡苄灾?，找到那些能夠使模型性能達(dá)到巔峰的超參數(shù)，如網(wǎng)絡(luò)層數(shù)、網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)率等。

它有點(diǎn)像是幕后的智囊團(tuán)，默默地為挑選最優(yōu)模型超參數(shù)提供優(yōu)質(zhì)的咨詢和建議。

驗(yàn)證集讓我們能夠在實(shí)戰(zhàn)之前，就預(yù)知模型的性能，從而做出最佳的選擇。這種前瞻性的策略，不僅能夠提高模型的效率，更能夠節(jié)省寶貴的時(shí)間和資源。

【測(cè)試集】：評(píng)估性能

測(cè)試集用于評(píng)估模型的最終性能，是考驗(yàn)?zāi)Ｐ偷淖詈笠魂P(guān)。它不參與模型的學(xué)習(xí)參數(shù)過(guò)程，也不介入超參數(shù)的選擇，它的存在，就是為了對(duì)模型的最終性能（即泛化能力）做出公正的評(píng)價(jià)。

如果把自己想象成一個(gè)AI大模型，有沒(méi)有覺(jué)得測(cè)試集有點(diǎn)像古代的科舉考試，或者是當(dāng)今的高考，是對(duì)自己所學(xué)知識(shí)的一次全面檢驗(yàn)。

“真金不怕火煉”，測(cè)試集就是那煉金的火焰，一個(gè)AI模型只有通過(guò)了它的考驗(yàn)，才能真正稱得上是具備良好泛化能力的模型。

2. 數(shù)據(jù)交互頻率不同

訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者和模型的數(shù)據(jù)交互頻率不同。訓(xùn)練集會(huì)不斷交互，驗(yàn)證集是定期交互，而測(cè)試集只交互一次。

【訓(xùn)練集】：不斷交互

使用訓(xùn)練集時(shí)，模型在訓(xùn)練階段不斷與訓(xùn)練集交互，通過(guò)多次地學(xué)習(xí)、調(diào)整和迭代來(lái)提高性能。它是在訓(xùn)練集的多次反饋中完成優(yōu)化的。

這讓我想到“熟能生巧”這個(gè)詞，在訓(xùn)練集中，模型就像是一位手藝人在反復(fù)錘煉自己的技藝，通過(guò)一次次的迭代優(yōu)化，逐步提升自己的工藝水平。

【驗(yàn)證集】：定期交互

驗(yàn)證集在訓(xùn)練過(guò)程中的不同時(shí)間點(diǎn)交互，幫助開發(fā)人員調(diào)整模型參數(shù)和決定訓(xùn)練的結(jié)束點(diǎn)。它在訓(xùn)練過(guò)程中的每一個(gè)關(guān)鍵時(shí)刻出現(xiàn)，為開發(fā)人員提供寶貴的反饋和指引，幫助開發(fā)人員調(diào)整模型的超參數(shù)。

所以，模型并不會(huì)在驗(yàn)證集中反復(fù)訓(xùn)練。和訓(xùn)練集中的情況不一樣，模型只會(huì)定期和驗(yàn)證集進(jìn)行數(shù)據(jù)交互，驗(yàn)證集的每一次反饋，都是對(duì)模型的一次重要檢驗(yàn)，所獲得的數(shù)據(jù)評(píng)估指標(biāo)，也是優(yōu)化AI性能的重要依據(jù)。

【測(cè)試集】：交互一次

測(cè)試集在整個(gè)訓(xùn)練過(guò)程完成后只交互一次，用于模型的最終評(píng)估。就像是那最后一場(chǎng)決定勝負(fù)的較量，只有在整個(gè)訓(xùn)練過(guò)程圓滿完成后，它才會(huì)出現(xiàn)。

正因?yàn)橹挥幸淮危圆疟陡姓湎В瑴y(cè)試集是模型的最后一道關(guān)卡，通過(guò)了，它就“出師”了，可以“下山”去江湖中見世面，接受真實(shí)世界的考驗(yàn)了。

3. 數(shù)據(jù)劃分與比例不同

通常情況下，數(shù)據(jù)集會(huì)通過(guò)隨機(jī)抽樣、分層抽樣、時(shí)間序列抽樣等方式，按照不同比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，三者之間不能有交集。

【訓(xùn)練集】：占比約60%～80%

訓(xùn)練集作為模型學(xué)習(xí)的主要來(lái)源，需要占據(jù)較大的比例，以確保模型有足夠的數(shù)據(jù)來(lái)捕捉到數(shù)據(jù)中的模式和規(guī)律。

【驗(yàn)證集】：占比約10%～20%

一般來(lái)說(shuō)，這個(gè)占比規(guī)模的驗(yàn)證集已經(jīng)足夠提供模型性能的合理估計(jì)，能提供有關(guān)模型泛化能力的有用信息就行，不用過(guò)多。

而且，如果驗(yàn)證集太大，每次評(píng)估的時(shí)間成本會(huì)顯著增加，這會(huì)拖慢整個(gè)實(shí)驗(yàn)的進(jìn)度。

【測(cè)試集】：占比約10%～20%

因?yàn)闇y(cè)試集在模型訓(xùn)練完成后只評(píng)估一次，所以只要足夠用于評(píng)估模型最終性能就行。

如果測(cè)試集太大，評(píng)估過(guò)程可能也會(huì)消耗大量的計(jì)算資源和時(shí)間，沒(méi)有必要。

以上，就是在數(shù)據(jù)劃分上，訓(xùn)練集、測(cè)試集、驗(yàn)證集較為常見的劃分比例。具體比例取決于實(shí)際任務(wù)的需求和數(shù)據(jù)量的大小，不同的機(jī)器學(xué)習(xí)問(wèn)題可能有不同的數(shù)據(jù)劃分需求。

例如，對(duì)于數(shù)據(jù)量非常龐大的情況，可能只需要很小的驗(yàn)證集和測(cè)試集；而對(duì)于數(shù)據(jù)量本身就很小的情況，可能需要采用交叉驗(yàn)證等方法來(lái)充分利用數(shù)據(jù)。

4. 使用時(shí)機(jī)不同

訓(xùn)練集、驗(yàn)證集和測(cè)試集在模型的整個(gè)訓(xùn)練過(guò)程中，會(huì)在不同階段發(fā)揮作用，所以開發(fā)人員使用它們的時(shí)機(jī)是不同的。

【訓(xùn)練集】：在模型的初始訓(xùn)練階段使用

模型剛剛搭建起來(lái)的時(shí)候，就像是個(gè)對(duì)世界一無(wú)所知的新生兒，我們需要耐心地用訓(xùn)練集對(duì)它進(jìn)行大量的訓(xùn)練，就像是給孩子上課，一遍又一遍，直到它掌握了所有的知識(shí)為止，這是初始必經(jīng)過(guò)程。

【驗(yàn)證集】：在模型訓(xùn)練過(guò)程中定期使用

因?yàn)轵?yàn)證集用于監(jiān)控模型的性能和調(diào)整超參數(shù)。所以在模型通過(guò)初始階段的訓(xùn)練后，我們需要在過(guò)程中可以監(jiān)督到模型的學(xué)習(xí)效果。

于是，在模型的訓(xùn)練過(guò)程中，直到結(jié)束訓(xùn)練前的這個(gè)階段，我們會(huì)用驗(yàn)證集給模型來(lái)幾場(chǎng)“摸底考試”，若是發(fā)現(xiàn)不對(duì)的地方，還可以及時(shí)調(diào)整，以確保模型在訓(xùn)練過(guò)程中具備良好的性能。

【測(cè)試集】：在模型訓(xùn)練完成后使用

測(cè)試集用于最終評(píng)估模型性能。所以，在訓(xùn)練集和驗(yàn)證集階段，我們都不會(huì)用到測(cè)試集的數(shù)據(jù)，并且也需要保證測(cè)試集的數(shù)據(jù)是模型之前未見過(guò)的數(shù)據(jù)。

然后，在模型訓(xùn)練完成后，測(cè)試集作為最后的“期末大考”，會(huì)給模型一次真槍實(shí)彈的考驗(yàn)。

對(duì)模型學(xué)習(xí)成果來(lái)一次最終的全面檢驗(yàn)是測(cè)試集存在的價(jià)值之一，這也是為什么測(cè)試集會(huì)被放在模型訓(xùn)練的最后階段。

二、訓(xùn)練集、測(cè)試集、驗(yàn)證集的相似之處

訓(xùn)練集、測(cè)試集和驗(yàn)證集在數(shù)據(jù)來(lái)源、預(yù)處理、目標(biāo)、獨(dú)立性以及數(shù)據(jù)質(zhì)量和代表性方面都有著相似之處，這些相似性是確保模型完成有效訓(xùn)練和評(píng)估的基礎(chǔ)。

1. 數(shù)據(jù)來(lái)源一致

訓(xùn)練集、驗(yàn)證集和測(cè)試集通常來(lái)自同一數(shù)據(jù)源或具有相同的數(shù)據(jù)分布。這意味著它們共享相同的數(shù)據(jù)特征和屬性，確保模型在不同階段處理的數(shù)據(jù)具有一致性。

這就像是在同一個(gè)課堂里學(xué)習(xí)，大家都在吸收著同樣的知識(shí)。

2. 相似的數(shù)據(jù)預(yù)處理

在模型訓(xùn)練之前，訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要進(jìn)行相似的數(shù)據(jù)預(yù)處理步驟，如歸一化、標(biāo)準(zhǔn)化、缺失值處理等。

歸一化就像是給數(shù)據(jù)量體裁衣，讓每個(gè)數(shù)據(jù)點(diǎn)都在合適的范圍內(nèi)。

數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到一個(gè)特定的范圍，通常是在0和1之間。這樣做的目的是讓數(shù)據(jù)在相同的尺度上，以便模型能夠更好地學(xué)習(xí)和識(shí)別其中的模式。

例如，如果數(shù)據(jù)集中的某些特征值非常大，而另一些特征值非常小，那么在訓(xùn)練過(guò)程中，較大的值可能會(huì)對(duì)模型的學(xué)習(xí)產(chǎn)生更大的影響。

通過(guò)歸一化，我們可以減少這種影響，使得每個(gè)特征對(duì)模型的貢獻(xiàn)更加均衡。

標(biāo)準(zhǔn)化則是調(diào)整數(shù)據(jù)的尺碼，讓它們能夠站在同一條起跑線上。

標(biāo)準(zhǔn)化的方法，是將數(shù)據(jù)特征的均值（mean）設(shè)置為0，標(biāo)準(zhǔn)差（standard deviation）設(shè)置為1。這通常通過(guò)減去特征的均值然后除以其標(biāo)準(zhǔn)差來(lái)實(shí)現(xiàn)。

公式為：z= (x?μ)/σ

其中：x 是數(shù)據(jù)點(diǎn)的原始值，μ 是該特征的均值，σ 是該特征的標(biāo)準(zhǔn)差。

通過(guò)將每個(gè)數(shù)據(jù)點(diǎn)減去其特征的均值，然后除以其標(biāo)準(zhǔn)差，我們可以將數(shù)據(jù)特征縮放到一個(gè)標(biāo)準(zhǔn)單位，使其具有零均值和單位方差。這個(gè)過(guò)程有助于某些算法（如線性回歸）的訓(xùn)練和預(yù)測(cè)過(guò)程更加穩(wěn)定。

缺失值的處理，則像是填補(bǔ)數(shù)據(jù)中的空白，讓整個(gè)數(shù)據(jù)集更加完整。

在數(shù)據(jù)集中，可能會(huì)有一些數(shù)據(jù)點(diǎn)由于各種原因（如測(cè)量錯(cuò)誤、數(shù)據(jù)錄入錯(cuò)誤等）而丟失。

處理這些缺失值的方法有多種，包括刪除含有缺失值的樣本、填充缺失值（如使用平均值、中位數(shù)或眾數(shù)填充）、或者使用模型預(yù)測(cè)缺失值等。

處理缺失值的關(guān)鍵是確保不會(huì)引入偏差，同時(shí)保留盡可能多的有效信息。

3. 目標(biāo)一致

盡管這三個(gè)數(shù)據(jù)集在模型開發(fā)的不同階段使用，但它們的目標(biāo)是一致的，即都是為了構(gòu)建一個(gè)泛化能力強(qiáng)、能夠準(zhǔn)確預(yù)測(cè)新數(shù)據(jù)的模型。

這三個(gè)數(shù)據(jù)集，就像是一個(gè)團(tuán)隊(duì)的成員，奔著共同的目標(biāo)，各司其職，相互協(xié)作，一起推動(dòng)模型的成長(zhǎng)。

4. 數(shù)據(jù)皆有獨(dú)立性

為了保證模型評(píng)估的公正性，訓(xùn)練集、驗(yàn)證集和測(cè)試集中的樣本必須保持相互獨(dú)立。

這意味著，每個(gè)集合中的數(shù)據(jù)是獨(dú)一無(wú)二的，不會(huì)與其他集合的數(shù)據(jù)交叉重疊，讓模型在評(píng)估過(guò)程中的表現(xiàn)不會(huì)受到其他集合數(shù)據(jù)的影響。這種獨(dú)立性確保了評(píng)估結(jié)果的真實(shí)性和有效性。

5. 保證數(shù)據(jù)質(zhì)量和代表性

為了確保模型在不同階段的學(xué)習(xí)和評(píng)估過(guò)程中能夠獲得準(zhǔn)確和可靠的結(jié)果，訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要能夠代表原始數(shù)據(jù)的整體特性，同時(shí)還需保證數(shù)據(jù)質(zhì)量。

這意味著它們都應(yīng)該包含所有可能的數(shù)據(jù)特征和類別，以便模型能夠在不同的數(shù)據(jù)集上都能學(xué)習(xí)到有效的模式，提高其泛化能力。

關(guān)于什么樣的數(shù)據(jù)集算得上高質(zhì)量，什么樣的數(shù)據(jù)集屬于具有代表性，我在《AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！》中有詳細(xì)介紹，感興趣的朋友可以進(jìn)一步閱讀。

整體而言，我們從訓(xùn)練集、驗(yàn)證集和測(cè)試集的不同與相似之中可以發(fā)現(xiàn)，它們?cè)跈C(jī)器學(xué)習(xí)的模型訓(xùn)練中是緊密相連的。

如果拿它們的關(guān)系舉例的話。

訓(xùn)練集相當(dāng)于課后的練習(xí)題，用于日常的知識(shí)鞏固。

驗(yàn)證集相當(dāng)于平時(shí)的周考月考，用來(lái)糾正和強(qiáng)化學(xué)到的知識(shí)。

測(cè)試集相當(dāng)于期末考試，用來(lái)最終評(píng)估學(xué)習(xí)效果。

它們各司其職，共同保障了模型的有效學(xué)習(xí)結(jié)果和泛化能力。

三、國(guó)內(nèi)AI數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)

AI行業(yè)經(jīng)過(guò)2023年一整年的喧囂與熱鬧之后，大模型之間的“卷”也走向了高潮，國(guó)外有OpenAI的GPT-4、DALL-E，Meta的LLaMA 2等，國(guó)內(nèi)有阿里的通義千問(wèn)，百度的文心一言，百川智能的百川大模型等。

但實(shí)際上，AI應(yīng)用的成功案例并不多，這表明AI落地的部分仍不明確，需要進(jìn)一步的探索和創(chuàng)新。為了適應(yīng)更多細(xì)分的落地場(chǎng)景，大模型之間這股“卷”的浪潮也將逐步帶起一堆小模型之間的競(jìng)爭(zhēng)。

“王侯將相寧有種乎”，AI的風(fēng)吹起來(lái)了，更多的創(chuàng)業(yè)者和普通大眾的機(jī)會(huì)來(lái)了，挖掘適合自己或者某個(gè)細(xì)分行業(yè)的小模型、小gpt，恐怕是2024年的主旋律了。

畢竟，“不管白貓黑貓，抓住老鼠就是好貓”。不管大模型小模型，能掙到錢的就是好模型。

但最關(guān)鍵的是，好模型離不開好數(shù)據(jù)，好的數(shù)據(jù)集對(duì)模型的成功至關(guān)重要。它能提升模型的精確度，讓模型能更準(zhǔn)確地預(yù)測(cè)或分類。

同時(shí)，好的數(shù)據(jù)集還能增強(qiáng)模型的可解釋性，使我們更容易理解模型的決策過(guò)程。也有助于模型更快地收斂到最優(yōu)解，這意味著模型的訓(xùn)練時(shí)間將大大縮短，這背后也意味著的，是實(shí)打?qū)嵉男屎统杀?，是核心?jìng)爭(zhēng)力。

我們不妨一起來(lái)看看，國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)。

1. 數(shù)據(jù)集的規(guī)模和質(zhì)量還待提升

由于數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)類型復(fù)雜，國(guó)內(nèi)AI大模型數(shù)據(jù)集存在質(zhì)量參差不齊的問(wèn)題。高質(zhì)量的數(shù)據(jù)集往往需要專業(yè)的標(biāo)注和清洗過(guò)程。這一過(guò)程包括對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的分類、校對(duì)和驗(yàn)證，以確保模型能夠接收準(zhǔn)確、一致和有用的信息。

然而，國(guó)內(nèi)部分AI數(shù)據(jù)集因缺乏嚴(yán)格的標(biāo)注和清洗流程，導(dǎo)致數(shù)據(jù)質(zhì)量不盡如人意。這些問(wèn)題包括標(biāo)注錯(cuò)誤、數(shù)據(jù)重復(fù)和不平衡的數(shù)據(jù)分布，這些都可能削弱AI大模型的訓(xùn)練效果。

從另外一個(gè)角度看，這也凸顯了高質(zhì)量數(shù)據(jù)的價(jià)值，高質(zhì)量的數(shù)據(jù)集不僅能夠提升模型的性能，而且由于其收集和處理的復(fù)雜性，成本也相對(duì)較高。

與此同時(shí)，國(guó)內(nèi)的數(shù)據(jù)文化有其自身的特色，國(guó)內(nèi)在數(shù)據(jù)集的共享和開放性方面相對(duì)謹(jǐn)慎。由于對(duì)數(shù)據(jù)隱私、安全以及商業(yè)競(jìng)爭(zhēng)的考慮，許多有價(jià)值的數(shù)據(jù)庫(kù)并沒(méi)有對(duì)外公開。從技術(shù)的角度來(lái)看，這種做法可能會(huì)限制數(shù)據(jù)集的廣泛應(yīng)用和研究。

然而，從其他角度來(lái)看，保持?jǐn)?shù)據(jù)的獨(dú)立性和私密性也是有其合理性的。這種做法有助于保護(hù)敏感信息，防止數(shù)據(jù)被濫用，同時(shí)也鼓勵(lì)企業(yè)和機(jī)構(gòu)投資于數(shù)據(jù)收集和分析，以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)，也算是體現(xiàn)了對(duì)數(shù)據(jù)安全和商業(yè)利益的重視。

隨著AI浪潮的涌進(jìn)，未來(lái)的大模型可能會(huì)呈現(xiàn)出一種增長(zhǎng)飛輪效應(yīng)。然而，無(wú)論模型變得多么龐大，數(shù)據(jù)集的質(zhì)量始終是關(guān)鍵。

為了從公開網(wǎng)絡(luò)中獲取高質(zhì)量的數(shù)據(jù)，我們需要尋找那些內(nèi)容質(zhì)量高、規(guī)模大的平臺(tái)。例如，對(duì)于視頻內(nèi)容，字節(jié)跳動(dòng)和騰訊的視頻平臺(tái)是不錯(cuò)的選擇，B站上的視頻質(zhì)量也比較優(yōu)秀。至于觀點(diǎn)表達(dá)和知識(shí)分享，百家號(hào)、知乎等平臺(tái)則提供了豐富的資源。

在國(guó)內(nèi)，中文數(shù)據(jù)集在AI研究中進(jìn)展較慢，部分原因是構(gòu)建中文數(shù)據(jù)集的難度大，且NLP算法的進(jìn)步與中文數(shù)據(jù)集關(guān)聯(lián)性不強(qiáng)。這些因素導(dǎo)致我們的中文NLP數(shù)據(jù)集在數(shù)量和質(zhì)量上與國(guó)外存在明顯差距。

為了有效縮小這一差距，同時(shí)考慮實(shí)際操作、成本效益和時(shí)間效率，我們可以推動(dòng)關(guān)鍵行業(yè)應(yīng)用數(shù)據(jù)集的發(fā)展。這樣做不僅能加快中文NLP技術(shù)的發(fā)展，還能確保其在實(shí)際應(yīng)用中的高效和實(shí)用。

2. 大模型與數(shù)據(jù)集之間必然相輔相成

國(guó)內(nèi)的大模型呈現(xiàn)著百花齊放的盛況，數(shù)據(jù)的發(fā)展同樣需要跟上這一步伐。

在2024年1月23日浙江省兩會(huì)上，浙江省政協(xié)委員、達(dá)摩院院長(zhǎng)、湖畔實(shí)驗(yàn)室主任張建鋒建議統(tǒng)籌建設(shè)高質(zhì)量醫(yī)學(xué)影像數(shù)據(jù)集，推動(dòng)醫(yī)療AI技術(shù)的廣泛應(yīng)用，進(jìn)而促進(jìn)醫(yī)療行業(yè)的發(fā)展。

在模型和數(shù)據(jù)相互助力方面，達(dá)摩院（湖畔實(shí)驗(yàn)室）與全球多家頂級(jí)醫(yī)療機(jī)構(gòu)合作，創(chuàng)建了一個(gè)迄今為止最大的胰腺腫瘤CT影像訓(xùn)練集，并利用它訓(xùn)練出了一個(gè)具有強(qiáng)大泛化能力的AI模型。

據(jù)央廣網(wǎng)報(bào)道，在一個(gè)包含2萬(wàn)多人的回顧性真實(shí)病例試驗(yàn)中，該模型成功發(fā)現(xiàn)了31例之前未被診斷出的臨床病變，其中2例病患已經(jīng)通過(guò)手術(shù)治愈。這項(xiàng)研究的成果被發(fā)表在了國(guó)際著名的醫(yī)學(xué)期刊《自然·醫(yī)學(xué)》上。

由此可見，好的AI模型和好的數(shù)據(jù)集，相輔相成，互相助力。AI模型如同大腦，通過(guò)深度學(xué)習(xí)與不斷優(yōu)化，實(shí)現(xiàn)智能識(shí)別、預(yù)測(cè)與分析；而數(shù)據(jù)集則如同養(yǎng)料，為AI模型提供豐富、準(zhǔn)確的信息來(lái)源。

只有優(yōu)秀的AI模型與高質(zhì)量的數(shù)據(jù)集相結(jié)合，才能充分發(fā)揮AI的潛力，為各行各業(yè)帶來(lái)顛覆性的變革。

伴隨著GPT系列大模型的火熱，國(guó)內(nèi)的各大模型也都發(fā)揮著渾身解數(shù)，國(guó)內(nèi)的科大訊飛星火認(rèn)知大模型，百度文心一言，商湯商量，智譜AI-ChatGLM等模型都相繼面市，不知道各位有沒(méi)有去體驗(yàn)過(guò)呢？

小插曲，我們讓星火認(rèn)知大模型，文心一言，商湯商量，智譜AI-ChatGLM這四位來(lái)個(gè)小試牛刀。

假設(shè)初次見面，讓它們做一個(gè)自我介紹，如何？

問(wèn)題很簡(jiǎn)單，就用“你好，請(qǐng)介紹一下你自己，我該如何向你提問(wèn)才能得到有效的答案？”一起來(lái)看看它們的回復(fù)吧。

科大訊飛星火認(rèn)知大模型

百度文心一言

商湯商量

智譜AI-ChatGLM

從4款產(chǎn)品的回復(fù)來(lái)看，貌似是星火認(rèn)知大模型更勝一籌呢，它的回答更加清晰易懂，結(jié)構(gòu)層次分明，內(nèi)容詳盡周全。相較于其他產(chǎn)品，它在信息的組織上，邏輯性更強(qiáng)，傳達(dá)信息時(shí)更加高效和精確。

當(dāng)然啦，國(guó)內(nèi)大模型還有很多，有阿里巴巴的通義千問(wèn)，百川智能的百川大模型等，感興趣的朋友，可以自行體驗(yàn)哈。

3. 數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范需更健全

隨著人工智能技術(shù)的快速發(fā)展，AI大模型在眾多領(lǐng)域展現(xiàn)出驚人的成長(zhǎng)速度，幾乎每周都能看到新的變化。

然而，AI大模型所需的數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范卻略顯滯后，數(shù)據(jù)集的標(biāo)準(zhǔn)和規(guī)范還不夠健全，這在一定程度上影響了AI模型的訓(xùn)練效果和應(yīng)用范圍。

顯然，國(guó)家已經(jīng)認(rèn)識(shí)到這一情況的重要性，制定了一系列政策和規(guī)劃，如《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》、《AI大模型發(fā)展白皮書》等。這些政策文件為AI大模型的數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范提供了高層次的指導(dǎo)，指明了發(fā)展方向。

《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》中提到，“到 2023 年,初步建立人工智能標(biāo)準(zhǔn)體系,重點(diǎn)研制數(shù)據(jù)算法、系統(tǒng)、服務(wù)等重點(diǎn)急需標(biāo)準(zhǔn),并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點(diǎn)行業(yè)和領(lǐng)域進(jìn)行推進(jìn)。建設(shè)人工智能標(biāo)準(zhǔn)試驗(yàn)驗(yàn)證平臺(tái),提供公共服務(wù)能力。”

《AI大模型發(fā)展白皮書》由國(guó)家工信安全中心在2023年9月14日發(fā)布，其中也有提到，在基礎(chǔ)支撐方面，AI大模型訓(xùn)練數(shù)據(jù)需求激增，高質(zhì)量數(shù)據(jù)集成為AI大模型進(jìn)化的關(guān)鍵支撐。并建議全面夯實(shí)算法、算力、數(shù)據(jù)等高質(zhì)量發(fā)展根基。

與此同時(shí)，由國(guó)家網(wǎng)信辦聯(lián)合國(guó)家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部和廣電總局共同發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中，明確了生成式人工智能服務(wù)提供者在數(shù)據(jù)處理活動(dòng)中應(yīng)遵循的規(guī)定，包括使用合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型，提高訓(xùn)練數(shù)據(jù)質(zhì)量，確保數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性和多樣性等。

無(wú)論是從政策文件出發(fā)，還是從實(shí)際應(yīng)用出發(fā)，AI大模型數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范對(duì)于我國(guó)AI產(chǎn)業(yè)發(fā)展具有重要意義。

面對(duì)當(dāng)前的挑戰(zhàn)，我們期待能看到更完善的政策法規(guī)體系，建立有效的數(shù)據(jù)集質(zhì)量評(píng)估體系，推動(dòng)數(shù)據(jù)集共享與開放，加強(qiáng)國(guó)際合作與交流，從而讓我們的國(guó)產(chǎn)AI在全球競(jìng)爭(zhēng)中也能立于不敗之地。

4. 數(shù)據(jù)存儲(chǔ)性能還需提高

人工智能技術(shù)的快速進(jìn)步推動(dòng)了AI數(shù)據(jù)集的急劇擴(kuò)張和復(fù)雜化。大型數(shù)據(jù)集不僅包含海量的數(shù)據(jù)，而且還包括大量的文本、圖片、音頻和視頻等不同類型的數(shù)據(jù)。

這就要求存儲(chǔ)系統(tǒng)必須擁有更大的存儲(chǔ)空間和更快的讀寫速度，才能滿足這些不斷增長(zhǎng)的數(shù)據(jù)需求。

在AI的整個(gè)工作流程中，從數(shù)據(jù)收集、預(yù)處理、模型訓(xùn)練與評(píng)估，再到模型的部署和應(yīng)用，每個(gè)環(huán)節(jié)都離不開對(duì)海量數(shù)據(jù)的存儲(chǔ)和快速訪問(wèn)。

然而，目前主流的存儲(chǔ)架構(gòu)，如共享存儲(chǔ)結(jié)合本地SSD硬盤，還有一些IT系統(tǒng)大多采用煙囪式的建設(shè)模式，導(dǎo)致了數(shù)據(jù)在不同存儲(chǔ)集群之間需要頻繁遷移。

這種數(shù)據(jù)遷移不僅增加了復(fù)雜性，還降低了AI大模型處理數(shù)據(jù)的效率，已然是當(dāng)前AI數(shù)據(jù)集發(fā)展中面臨的一個(gè)挑戰(zhàn)。

所以，為了提高AI數(shù)據(jù)集的存儲(chǔ)性能，需要對(duì)存儲(chǔ)架構(gòu)進(jìn)行優(yōu)化。

可以考慮采用分布式存儲(chǔ)系統(tǒng)，將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上，提高數(shù)據(jù)的訪問(wèn)速度和可靠性。也可以采用數(shù)據(jù)壓縮和去重技術(shù)，減少數(shù)據(jù)存儲(chǔ)的空間需求，提高存儲(chǔ)效率。

除了數(shù)量規(guī)模和數(shù)據(jù)架構(gòu)，大模型參數(shù)的頻繁優(yōu)化和訓(xùn)練平臺(tái)的不穩(wěn)定性也會(huì)增加對(duì)高性能存儲(chǔ)的需求。

可以采用數(shù)據(jù)分片和索引技術(shù)，提高數(shù)據(jù)的查詢和訪問(wèn)速度。也可以采用數(shù)據(jù)預(yù)處理和特征提取技術(shù)，減少訓(xùn)練數(shù)據(jù)的大小和復(fù)雜度，提高訓(xùn)練效率。

伴隨著AI大模型發(fā)展的大趨勢(shì)：參數(shù)量指數(shù)增長(zhǎng)、多模態(tài)和全模態(tài)的發(fā)展、以及對(duì)算力需求的增長(zhǎng)，都會(huì)帶來(lái)數(shù)據(jù)存儲(chǔ)架構(gòu)的挑戰(zhàn)，如存儲(chǔ)容量、數(shù)據(jù)遷移效率、系統(tǒng)故障間隔時(shí)間等。

因此，一個(gè)滿足AI大模型發(fā)展的存儲(chǔ)架構(gòu)需要具備高性能和大容量，并能進(jìn)行數(shù)據(jù)全生命周期管理，能支持AI全流程業(yè)務(wù)，兼容多種協(xié)議，支持?jǐn)?shù)據(jù)高效流轉(zhuǎn)的同時(shí)又能滿足數(shù)千節(jié)點(diǎn)的橫向擴(kuò)展。要達(dá)到這個(gè)標(biāo)準(zhǔn)，著實(shí)不容易。

其實(shí)國(guó)內(nèi)已經(jīng)有頭部企業(yè)在提供解決方案了，華為推出了OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000訓(xùn)/推超一體機(jī)。既展現(xiàn)了華為在AI存儲(chǔ)領(lǐng)域的深厚技術(shù)積累，也為AI大模型的發(fā)展和應(yīng)用提供了強(qiáng)大的基礎(chǔ)設(shè)施支持。

其中，OceanStor A310，專為處理基礎(chǔ)和行業(yè)大模型場(chǎng)景設(shè)計(jì)，支持高達(dá)96個(gè)NVMe SSD閃存盤，帶寬可達(dá)400GB/s，IOPS達(dá)到驚人的1200萬(wàn)。

與此同時(shí)，F(xiàn)usionCube A3000訓(xùn)/推超一體機(jī)的推出，進(jìn)一步降低了企業(yè)應(yīng)用AI大模型的門檻。該系統(tǒng)集成了高性能存儲(chǔ)、高速網(wǎng)絡(luò)和多樣化的計(jì)算資源，專為應(yīng)對(duì)行業(yè)大模型的訓(xùn)練和推理需求而設(shè)計(jì)。它不僅簡(jiǎn)化了部署和運(yùn)維流程，還提高了資源利用率和系統(tǒng)穩(wěn)定性。

不僅是華為，焱融科技的焱融全閃一體機(jī)F8000X，搭載全NVMe SSD硬件架構(gòu)，攜手YRCloudFile軟件系統(tǒng)，能全力發(fā)揮硬件性能。結(jié)合高速infiniband 200Gb網(wǎng)絡(luò)，為NVIDIA GPU集群實(shí)現(xiàn)存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算全鏈路高性能配比。

這種設(shè)計(jì)摒棄了傳統(tǒng)的數(shù)據(jù)核心建設(shè)模式，實(shí)現(xiàn)了存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算三大核心資源的優(yōu)化組合。這不僅消除了IT基礎(chǔ)資源的限制，降低了數(shù)據(jù)流成本，還避免了資源浪費(fèi)，實(shí)現(xiàn)了更優(yōu)的投入產(chǎn)出比。

綜合來(lái)看，AI數(shù)據(jù)集的重要性日益凸顯，是AI行業(yè)進(jìn)步的關(guān)鍵因素，同時(shí)也面臨著許多挑戰(zhàn)。我們需要企業(yè)和專業(yè)人士加大對(duì)AI數(shù)據(jù)集構(gòu)建的投入，擴(kuò)大數(shù)據(jù)集規(guī)模，提升數(shù)據(jù)質(zhì)量。

同時(shí)，加強(qiáng)數(shù)據(jù)集的標(biāo)準(zhǔn)化和規(guī)范化同樣重要，需要提高數(shù)據(jù)標(biāo)注的質(zhì)量，以確保數(shù)據(jù)集的有效性和可靠性。

在存儲(chǔ)性能方面，需要研發(fā)和部署高性能、高可靠的存儲(chǔ)系統(tǒng)，以支持大規(guī)模數(shù)據(jù)集的存儲(chǔ)和管理，確保AI模型的訓(xùn)練效率和數(shù)據(jù)處理的準(zhǔn)確性，這樣的系統(tǒng)是AI行業(yè)的基礎(chǔ)建設(shè)，是增長(zhǎng)基礎(chǔ)。

作者：果釀，公眾號(hào)：果釀產(chǎn)品說(shuō)

本文由 @果釀原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App