當(dāng)2027年人類數(shù)據(jù)被用盡,那大模型未來怎么辦?

0 評論 1070 瀏覽 1 收藏 12 分鐘

我們都知道,大模型是用人類的數(shù)據(jù)“喂”出來的,但人類的數(shù)據(jù)是有限的,而當(dāng)前大模型的數(shù)據(jù)需求遠(yuǎn)遠(yuǎn)看不到盡頭。這種情況下,如果人類的數(shù)據(jù)使用殆盡,大模型怎么辦,難道就不發(fā)展了嗎?這篇文章,作者分享了他的觀點(diǎn),一起來看看。

為什么會產(chǎn)生這個(gè)問題呢?是因?yàn)樽罱铱匆娏艘黄撐?,說人工智能研究和預(yù)測組織 Epoch 在其發(fā)表的一篇論文里預(yù)測,人類世界的高質(zhì)量的文本數(shù)據(jù)會在 2023-2027 年之間消耗殆盡。

而我們也知道,大模型的參數(shù)從十億、百億再到千億,最近華為又推出了萬億參數(shù)的大模型,大模型的參數(shù)大幅增加,相應(yīng)的,用來訓(xùn)練大模型的數(shù)據(jù)量,也需要以指數(shù)級暴增。據(jù)網(wǎng)絡(luò)公開的數(shù)據(jù),以 OpenAI 為例,從 GPT-1 到 GPT-3,其訓(xùn)練數(shù)據(jù)集就從 4.5GB 指數(shù)級增長到了 570GB,以此內(nèi)推,那GPT-5、GPT-6需要的訓(xùn)練數(shù)據(jù)更是天文數(shù)字了!

所以在未來,高質(zhì)量數(shù)據(jù)的稀缺性會導(dǎo)致包括Open AI在內(nèi)大模型公司的數(shù)據(jù)采集成本水漲船高,許多公司面臨著數(shù)據(jù)獲取困境,而根據(jù)Scaling law定律,大模型的性能提升,一定離不開數(shù)據(jù)量的提升,那大模型未來應(yīng)該怎么辦?

01.大模型、Scaling Law與數(shù)據(jù)

在討論數(shù)據(jù)殆盡的解決方案之前,我們先來看看大模型、Scaling Law、數(shù)據(jù)三者之間的關(guān)系。

我們都知道Scaling law是大模型的摩爾定律,中文翻譯為:規(guī)模法則,簡單介紹就是:隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算浮點(diǎn)數(shù)的增加,模型的性能會提高,并且為了獲得最佳性能,所有三個(gè)因素必須同時(shí)放大,當(dāng)不受其他兩個(gè)因素的制約時(shí),模型性能與每個(gè)單獨(dú)的因素都有冪律關(guān)系。

不管有多少人質(zhì)疑Scaling law,但至少到今天為止,這個(gè)定律還在發(fā)揮著重要的作用,可以說大模型的性能能有今天這樣的表現(xiàn),離不開Scaling law。

而Scaling law中支撐大模型性能的重要一環(huán)就是數(shù)據(jù)!

a16z 創(chuàng)始人 Marc Andreessen 認(rèn)為,二十幾年來互聯(lián)網(wǎng)積累的海量數(shù)據(jù),是這一次新的 AI 浪潮興起的重要原因,因?yàn)榍罢邽楹笳咛峁┝丝捎脕碛?xùn)練的數(shù)據(jù)。

所以當(dāng)人工智能研究和預(yù)測組織 Epoch 在其發(fā)表的論文里預(yù)測,人類世界的高質(zhì)量的文本數(shù)據(jù)會在 2023-2027 年之間消耗殆盡時(shí),我們會產(chǎn)生恐慌,因?yàn)橐坏?shù)據(jù)耗盡,新的大模型會面臨嚴(yán)重的更新問題,而大模型的性能和對世界的理解提升不了,那更不要提AGI何時(shí)到來了。

盡管研究團(tuán)隊(duì)也承認(rèn),分析方法存在嚴(yán)重的局限,模型的不準(zhǔn)確性很高,但是很難否認(rèn),AI 消耗數(shù)據(jù)集的速度是恐怖的,所以我們提出了一個(gè)問題:

當(dāng)2027年人類數(shù)據(jù)被用盡,那大模型未來怎么辦?

如果數(shù)據(jù)就是決定文本大模型未來能力天花板的最關(guān)鍵的因素,而未來我們可能面臨數(shù)據(jù)短缺問題,那么目前來看將來只有兩條路可走:

02.提高大模型對數(shù)據(jù)的學(xué)習(xí)效率

我們在生活中有個(gè)處理短缺問題的通用性原則,那就是開源節(jié)流,這個(gè)辦法同樣適用于大模型訓(xùn)練數(shù)據(jù)缺少的場景。

提高大模型對數(shù)據(jù)的學(xué)習(xí)效率就是我們節(jié)流的手段,簡單來講就是當(dāng)我們的只能喂給大模型一定量的數(shù)據(jù)的時(shí)候,同時(shí)我們又希望大模型的性能能有所提升,那只能寄希望于模型能夠從同樣的數(shù)據(jù)中學(xué)到更多的知識,以此增強(qiáng)它的預(yù)測或分析能力,這不僅能顯著提高模型的性能,還能有效降低對龐大數(shù)據(jù)集的依賴,這是一條看起來很理想的發(fā)展路線。

不過提高大模型的數(shù)據(jù)學(xué)習(xí)效率極富挑戰(zhàn)性,當(dāng)前,在不增加數(shù)據(jù)量的情況下提升模型效果的研究進(jìn)展有限,但有數(shù)條可行的道路和理論基礎(chǔ)值得探索。

首先,模型的架構(gòu)優(yōu)化是一個(gè)關(guān)鍵的研究方向。通過設(shè)計(jì)更為高效的網(wǎng)絡(luò)結(jié)構(gòu),我們可以使模型更好地捕捉數(shù)據(jù)中的特征和規(guī)律。

其次,模型的訓(xùn)練策略也是提升學(xué)習(xí)效率的一個(gè)重要思路。之前,深度學(xué)習(xí)技術(shù)中的遷移學(xué)習(xí)(Transfer Learning)和少樣本學(xué)習(xí)(Few-shot Learning)技術(shù),被廣泛用于在有限數(shù)據(jù)下提升模型的泛化能力,那么未來能否有新的類似策略提出?

第三,優(yōu)化模型的數(shù)據(jù)處理能力,實(shí)現(xiàn)對數(shù)據(jù)的“深度挖掘”,也是提升學(xué)習(xí)效率的有效途徑。比如數(shù)據(jù)增強(qiáng)技術(shù)能通過對原始數(shù)據(jù)進(jìn)行智能化的變換和擴(kuò)充,使模型在訓(xùn)練過程中接觸到更多“虛擬”的樣本,進(jìn)而學(xué)到更多的知識。

如果能實(shí)現(xiàn)數(shù)據(jù)的高效學(xué)習(xí),那么此時(shí)Scaling law就不是唯一的指導(dǎo)原則了,不過目前學(xué)術(shù)界和產(chǎn)業(yè)界沒有很好的解決方案,所以我目前看這條路走起來估計(jì)不會很順暢。

03.利用大模型來生產(chǎn)合成數(shù)據(jù)

利用數(shù)據(jù)來訓(xùn)練大模型,然后讓大模型再產(chǎn)生數(shù)據(jù),人工審核后成為高質(zhì)量的數(shù)據(jù),最后喂給大模型進(jìn)行訓(xùn)練,好家伙,閉環(huán)了!

合成數(shù)據(jù)(Synthetic Data)是指通過數(shù)學(xué)模型、算法或隨機(jī)過程生成的數(shù)據(jù),這些數(shù)據(jù)在某些方面與真實(shí)數(shù)據(jù)相似,但并不是從真實(shí)環(huán)境中直接采集的。合成數(shù)據(jù)通常用于數(shù)據(jù)預(yù)處理、模型訓(xùn)練、數(shù)據(jù)集增強(qiáng)等場景。

它的優(yōu)勢在于:

  • 可控性:合成數(shù)據(jù)可以根據(jù)需求進(jìn)行定制,例如調(diào)整數(shù)據(jù)規(guī)模、數(shù)據(jù)分布、樣本數(shù)量等,使得數(shù)據(jù)更符合特定任務(wù)的要求。
  • 安全性:在某些敏感領(lǐng)域,如醫(yī)療、金融等,直接使用真實(shí)數(shù)據(jù)可能會涉及到隱私和安全問題。而合成數(shù)據(jù)可以避免這些問題,同時(shí)也能達(dá)到類似的效果。
  • 成本低:合成數(shù)據(jù)不需要花費(fèi)大量時(shí)間和資源進(jìn)行采集和數(shù)據(jù)標(biāo)注,因此成本相對較低。

所以目前利用大模型來生產(chǎn)合成數(shù)據(jù)是解決數(shù)據(jù)短缺的主要探索方向,而且可行性較高。比如包括Llama3,它也在訓(xùn)練數(shù)據(jù)集里加入了合成數(shù)據(jù)。還有包括Open AI的還沒發(fā)布的 Sora 模型,它的生成其實(shí)也是一個(gè)合成的思路。

不過我們也需要明白一點(diǎn):合成數(shù)據(jù)的生成雖然為解決數(shù)據(jù)稀缺提供了一種有效的思路,但在實(shí)際應(yīng)用中仍然面臨許多挑戰(zhàn)。舉個(gè)例子,與生成對人而言真實(shí)的數(shù)據(jù)相比,生成對AI模型而言真實(shí)的數(shù)據(jù)要難得多。假設(shè)你想把一個(gè)人的音頻片段“添加”到一個(gè)汽車/道路噪音的音頻片段中,使得音頻聽起來像是在嘈雜的汽車?yán)镎f話。你有1000小時(shí)的語音訓(xùn)練數(shù)據(jù),卻只有1小時(shí)的汽車噪音。如果反復(fù)使用相同的1小時(shí)汽車噪音,盡管聽這段音頻的人可能無法分辨出重復(fù)的噪音,但算法可能會“過擬合”這1小時(shí)的汽車噪音。這意味著算法在處理新的音頻片段時(shí),可能無法很好地泛化到不同的汽車噪音環(huán)境中。對于一些復(fù)雜場景(如惡劣天氣、長尾物體等),虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布可能存在顯著差異,導(dǎo)致虛擬數(shù)據(jù)在真實(shí)場景中的效果有限。

一個(gè)比較成功的例子是DALLE 3和Sora的做法,因?yàn)槟阋?xùn)練多模態(tài)模型,DALLE 3得有文本對應(yīng)的圖片,Sora得有文本對應(yīng)的視頻,必須得是成對數(shù)據(jù)。所以O(shè)pen AI的工程師把已經(jīng)存在的、人工標(biāo)好的“文本-圖片”或“文本-視頻”數(shù)據(jù)對里的文本部分用AI模型擴(kuò)寫,改得更詳細(xì)、更豐富一些,然后再用擴(kuò)寫后的“文本-圖片”/“文本-視頻”合成數(shù)據(jù)去訓(xùn)練模型。所以它們用的合成數(shù)據(jù)其實(shí)不是靠機(jī)器完全自由生成的,而是在已有人工數(shù)據(jù)的基礎(chǔ)上進(jìn)行了進(jìn)一步的改造,所以這算是一種“半合成數(shù)據(jù)”的做法。

我們不靠人工想要完全利用機(jī)器實(shí)現(xiàn)“全合成數(shù)據(jù)”,不受限制地生成所需的訓(xùn)練數(shù)據(jù),這點(diǎn)就相當(dāng)困難了。因?yàn)槿水a(chǎn)生的數(shù)據(jù)其實(shí)是有主題和自然風(fēng)格的分布的,機(jī)器還難以做到自由生成并完全符合人類數(shù)據(jù)的分布,不過要想讓Scaling Law繼續(xù)發(fā)揮作用,實(shí)現(xiàn)最終的AGI,那么“全合成數(shù)據(jù)”肯定是未來的方向。

本文由 @小布Bruce 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!