我們離AGI還有多遠(yuǎn)?

0 評(píng)論 1834 瀏覽 13 收藏 34 分鐘

我們離實(shí)現(xiàn)人工通用智能(AGI)究竟還有多遠(yuǎn)?這個(gè)問(wèn)題的答案,我們不妨從行業(yè)大咖的觀點(diǎn)來(lái)做進(jìn)一步的探討。一起來(lái)看看本文的梳理和分享。

一、引言

在探索人工智能的邊界時(shí),我們經(jīng)常面臨一個(gè)根本性的問(wèn)題:我們離實(shí)現(xiàn)人工通用智能(AGI)還有多遠(yuǎn)?這個(gè)問(wèn)題不僅觸及技術(shù)進(jìn)步的速度,也深刻反映了我們對(duì)智能本質(zhì)的理解與期待。AGI或全能型人工智能,指的是一種具備人類(lèi)智能全部能力的機(jī)器,能夠在任何認(rèn)知任務(wù)上達(dá)到或超越人類(lèi)的表現(xiàn)。從學(xué)術(shù)探討到科幻小說(shuō),AGI長(zhǎng)久以來(lái)被視為技術(shù)進(jìn)步的終極目標(biāo),它代表著人類(lèi)智慧的延伸與超越。

然而,盡管近年來(lái)人工智能領(lǐng)域取得了顯著的進(jìn)展,特別是在深度學(xué)習(xí)和大規(guī)模模型訓(xùn)練方面,我們對(duì)AGI的追求仍然充滿了挑戰(zhàn)與不確定性。

一方面,模型如Claude 3 Opus的出現(xiàn)展示了AI在處理復(fù)雜問(wèn)題和模擬人類(lèi)行為方面的驚人能力;另一方面,這些進(jìn)步也揭示了我們?cè)诶斫庵悄鼙举|(zhì)、模擬復(fù)雜認(rèn)知過(guò)程、以及在倫理和安全方面所面臨的深刻問(wèn)題。因此,當(dāng)我們問(wèn)自己“我們離AGI還有多遠(yuǎn)”時(shí),我們不僅在探詢(xún)技術(shù)的邊界,更是在反思人類(lèi)智慧的深度與廣度,以及我們?cè)敢庖栽鯓拥姆绞竭~向那個(gè)未知的未來(lái)。

本文從“深度學(xué)習(xí)三巨頭”的觀點(diǎn),AGI評(píng)測(cè)基準(zhǔn)和當(dāng)前大模型局限性等三個(gè)維度深度探討該問(wèn)題。

二、深度學(xué)習(xí)三巨頭的觀點(diǎn)

1. LeCun:當(dāng)前的AI還遠(yuǎn)未達(dá)到人類(lèi)智能

Yann LeCun(楊立坤),目前是Meta的副總裁兼首席AI科學(xué)家,同時(shí)也是紐約大學(xué)Courant數(shù)學(xué)科學(xué)研究所的教授。作為人工智能領(lǐng)域的領(lǐng)軍人物,LeCun對(duì)當(dāng)前人工智能的發(fā)展趨勢(shì)和未來(lái)方向有著獨(dú)到的見(jiàn)解。他的觀點(diǎn)主要圍繞如何使機(jī)器能夠像人類(lèi)和動(dòng)物那樣理解和與世界互動(dòng),強(qiáng)調(diào)“常識(shí)”推理的重要性以及基于“世界模型”的預(yù)測(cè)和計(jì)劃能力。

LeCun批評(píng)了當(dāng)前人工智能發(fā)展中主流的方法,尤其是依賴(lài)大型語(yǔ)言模型(如GPT-3)和強(qiáng)化學(xué)習(xí)的方法。他認(rèn)為,僅僅通過(guò)擴(kuò)大語(yǔ)言模型的規(guī)模,這些模型雖能處理文字和圖像,但缺乏對(duì)世界的直接理解或體驗(yàn),是無(wú)法達(dá)到人類(lèi)級(jí)別人工智能的。同樣地,他也認(rèn)為基于獎(jiǎng)勵(lì)的試錯(cuò)學(xué)習(xí)方法——強(qiáng)化學(xué)習(xí),因?yàn)樾枰罅繑?shù)據(jù),也不是通向泛化智能的可行路徑。

與此相對(duì),LeCun提出了一種自主智能的架構(gòu),包括一個(gè)能夠預(yù)測(cè)世界未來(lái)狀態(tài)的世界模型。這個(gè)模型將通過(guò)無(wú)監(jiān)督的方式從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),從而無(wú)需明確指示就能理解世界動(dòng)態(tài)。這個(gè)架構(gòu)由六個(gè)模塊組成,包括執(zhí)行控制的配置器、理解當(dāng)前狀態(tài)的感知模塊、預(yù)測(cè)的世界模型、決策的成本模塊、規(guī)劃行動(dòng)的行動(dòng)模塊,以及追蹤狀態(tài)和成本的短期記憶模塊。

LeCun的觀點(diǎn)是對(duì)AI社區(qū)探索當(dāng)前主導(dǎo)范式之外的新方向的一次呼吁,強(qiáng)調(diào)模型以有意義的方式理解和預(yù)測(cè)世界的重要性。他在開(kāi)發(fā)世界模型和自主智能架構(gòu)方面的工作可能為開(kāi)發(fā)能夠進(jìn)行推理、規(guī)劃和以更人性化的方式與世界互動(dòng)的更復(fù)雜的AI系統(tǒng)鋪平道路。

2. Hinton:人工智能將變得比我們更加智能

Geoffrey Hinton, 被譽(yù)為“深度學(xué)習(xí)之父”,近年來(lái)對(duì)人工智能的發(fā)展和潛在風(fēng)險(xiǎn)表達(dá)了一些引人深思的看法。他特別擔(dān)心,如果人工智能達(dá)到或超過(guò)人類(lèi)智能,它們可能會(huì)找到操縱甚至殺害人類(lèi)的方法。

Hinton警告說(shuō),我們可能接近這樣一個(gè)點(diǎn),那時(shí)人工智能將變得比我們更加智能,這讓他感到恐懼。他特別擔(dān)心,某些人可能會(huì)利用這些工具,如在選舉和戰(zhàn)爭(zhēng)中操縱結(jié)果。為了防范這些風(fēng)險(xiǎn),Hinton提出需要在技術(shù)行業(yè)領(lǐng)袖之間合作,以確定風(fēng)險(xiǎn)所在并采取措施。

Hinton擔(dān)心,隨著AI技術(shù)的快速發(fā)展,我們可能很難判斷什么是真實(shí)的?什么是虛擬的?他特別關(guān)注大型語(yǔ)言模型的發(fā)展,如GPT-4,它展現(xiàn)出了比人類(lèi)更高效的學(xué)習(xí)能力,這讓他認(rèn)為機(jī)器可能很快就會(huì)比人類(lèi)更加智能。他指出,盡管大型語(yǔ)言模型的連接數(shù)與人腦相比還是非常小的,但它們能夠展示出驚人的學(xué)習(xí)能力,尤其是在少量學(xué)習(xí)(few-shot learning)的情況下,這些模型能夠快速學(xué)習(xí)新任務(wù)。Hinton認(rèn)為,這挑戰(zhàn)了人們認(rèn)為人腦在學(xué)習(xí)上具有某種魔法般的優(yōu)勢(shì)的觀點(diǎn)。

他認(rèn)為如果不能控制AI,不法分子可能會(huì)利用它做壞事。他還擔(dān)憂,在短期內(nèi),互聯(lián)網(wǎng)可能會(huì)被假文本、照片和視頻淹沒(méi),長(zhǎng)期來(lái)看,這些技術(shù)甚至可能對(duì)人類(lèi)構(gòu)成威脅。Hinton在X(Twitter)上明確表示,他離開(kāi)Google的原因不是為了批評(píng)該公司,而是為了能夠毫無(wú)顧忌地討論人工智能的危險(xiǎn),而不必?fù)?dān)心這些觀點(diǎn)會(huì)對(duì)他所在的公司產(chǎn)生影響。

總的來(lái)說(shuō),Hinton的看法提醒我們,隨著人工智能技術(shù)的發(fā)展,我們需要深思熟慮地評(píng)估其潛在的積極和消極影響,并采取適當(dāng)?shù)念A(yù)防措施以確保技術(shù)的安全和負(fù)責(zé)任地使用。

3. Bengio:AI發(fā)展需要更加謹(jǐn)慎和有預(yù)見(jiàn)性的規(guī)劃和監(jiān)管

Yoshua Bengio是蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)系的教授,同時(shí)也是蒙特利爾學(xué)習(xí)算法研究所(MILA)的科學(xué)總監(jiān)。作為深度學(xué)習(xí)和人工智能領(lǐng)域的先驅(qū)之一,對(duì)當(dāng)前AI技術(shù)的快速發(fā)展及其潛在風(fēng)險(xiǎn)表達(dá)了深切的關(guān)注。

Bengio聯(lián)合數(shù)百名技術(shù)領(lǐng)導(dǎo)者、AI研究者、政策制定者等,簽署了一封公開(kāi)信,敦促所有AI實(shí)驗(yàn)室同意暫停開(kāi)發(fā)比GPT-4更強(qiáng)大的系統(tǒng)六個(gè)月。這一舉措旨在為私營(yíng)行業(yè)、政府和公眾提供時(shí)間來(lái)充分理解AI及其應(yīng)用,并圍繞它制定適當(dāng)?shù)囊?guī)制措施。Bengio及其他參與者強(qiáng)調(diào),這種快速的發(fā)展速度超出了我們理解、識(shí)別風(fēng)險(xiǎn)及緩解風(fēng)險(xiǎn)的能力。他們認(rèn)為,六個(gè)月的時(shí)間可以為創(chuàng)建圍繞AI的治理、了解和風(fēng)險(xiǎn)緩解努力提供機(jī)會(huì)。Bengio認(rèn)為很難準(zhǔn)確知道人工智能達(dá)到人類(lèi)智能水平還需要多少年或多少個(gè)十年。但目前的技術(shù)發(fā)展速度和資金投入加速了AI能力的提升,因此他呼吁需要緊急監(jiān)管來(lái)緩解AI發(fā)展帶來(lái)的最大風(fēng)險(xiǎn)。

在一次訪談中,Bengio討論了大型AI模型發(fā)展所帶來(lái)的風(fēng)險(xiǎn),尤其是關(guān)于民主的安全。他指出,我們已經(jīng)能夠操縱信息,使其看起來(lái)非常真實(shí),如深度偽造內(nèi)容,他建議應(yīng)該要求在AI生成的內(nèi)容上加上標(biāo)記或水印,以幫助觀眾區(qū)分哪些是AI生成的,哪些不是。他還強(qiáng)調(diào)了AI在創(chuàng)造假冒和有說(shuō)服力的內(nèi)容方面的能力,可能會(huì)使人們被AI算法所淹沒(méi),從而破壞了民主依賴(lài)的共同現(xiàn)實(shí)基礎(chǔ)。

Bengio對(duì)于AI的這些表態(tài)不僅展示了他對(duì)技術(shù)發(fā)展?jié)撛谪?fù)面影響的深刻理解,也體現(xiàn)了他對(duì)未來(lái)社會(huì)和技術(shù)治理的關(guān)注。他的觀點(diǎn)強(qiáng)調(diào)了在AI發(fā)展的道路上,需要更加謹(jǐn)慎和有預(yù)見(jiàn)性的規(guī)劃和監(jiān)管,以確保技術(shù)的進(jìn)步能夠造福而非損害人類(lèi)社會(huì)。

三、當(dāng)前主流大模型的評(píng)價(jià)基準(zhǔn)

1. AGI的評(píng)價(jià)方法

如何評(píng)估AGI的能力?這需要綜合一系列量化指標(biāo)和多種測(cè)試方法,以捕捉人工智能在不同層面表現(xiàn)。這些方法大致包括:知識(shí)水平和邏輯推理的知識(shí)測(cè)驗(yàn);專(zhuān)業(yè)領(lǐng)域內(nèi)應(yīng)用能力的專(zhuān)業(yè)技能測(cè)試;策略和學(xué)習(xí)能力的復(fù)雜游戲;通過(guò)模擬環(huán)境評(píng)估適應(yīng)性和問(wèn)題解決的虛擬仿真;藝術(shù)作品原創(chuàng)性和審美的藝術(shù)創(chuàng)作;創(chuàng)新解決方案的能力評(píng)估;自然語(yǔ)言處理的圖靈測(cè)試;情感和社交互動(dòng)的評(píng)價(jià);在多任務(wù)性能、學(xué)習(xí)遷移、復(fù)雜問(wèn)題解決、實(shí)時(shí)決策、道德困境應(yīng)對(duì)、社會(huì)規(guī)范遵循、綜合感知和交互式任務(wù)的能力。這些多方位的測(cè)試旨在全面評(píng)價(jià)AGI的復(fù)雜智能水平。

目前,AGI常用的評(píng)估工具基本上是參考人類(lèi)的專(zhuān)業(yè)考試和學(xué)術(shù)測(cè)評(píng)基準(zhǔn),而制作的專(zhuān)業(yè)化系列問(wèn)題集。這些測(cè)試工具和數(shù)據(jù)集包括但不限于:

1)MMLU(Massive Multitask Language Understanding)

MMLU是旨在通過(guò)評(píng)估模型在零樣本(zero-shot)和少樣本(few-shot)設(shè)置中的表現(xiàn)來(lái)衡量在預(yù)訓(xùn)練過(guò)程中獲得知識(shí)的能力。這種評(píng)估方式使得基準(zhǔn)測(cè)試更具挑戰(zhàn)性,更接近于我們?cè)u(píng)估人類(lèi)的方式。MMLU覆蓋了STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、人文學(xué)科、社會(huì)科學(xué)等57個(gè)學(xué)科領(lǐng)域,難度從基礎(chǔ)級(jí)別到高級(jí)專(zhuān)業(yè)級(jí)別不等,測(cè)試內(nèi)容包括世界知識(shí)和問(wèn)題解決能力。

2)MATH

MATH是一個(gè)專(zhuān)門(mén)設(shè)計(jì)來(lái)評(píng)估模型在數(shù)學(xué)問(wèn)題解決能力上的測(cè)試。這種測(cè)試挑戰(zhàn)模型在理解和解決各種數(shù)學(xué)問(wèn)題上的能力,包括但不限于代數(shù)、幾何、微積分和統(tǒng)計(jì)等領(lǐng)域。MATH測(cè)試通常涉及以下幾個(gè)關(guān)鍵方面:?jiǎn)栴}多樣性—包含不同類(lèi)型的數(shù)學(xué)問(wèn)題,涵蓋從基礎(chǔ)數(shù)學(xué)到高級(jí)數(shù)學(xué)的多個(gè)層面;推理能力—測(cè)試模型是否能夠邏輯推理和解決復(fù)雜的數(shù)學(xué)證明或計(jì)算問(wèn)題;準(zhǔn)確性—模型輸出的解決方案需要數(shù)學(xué)上的精確和正確;解釋性—除了提供正確答案外,評(píng)估模型是否能夠展示其解題步驟,即“解題思路”(Chain of Thought),有助于理解模型如何達(dá)到最終答案。

3)GSM8k(Grade School Math 8k)

GSM8k是一個(gè)專(zhuān)門(mén)為評(píng)估和訓(xùn)練人工智能模型在解決數(shù)學(xué)問(wèn)題方面的能力而設(shè)計(jì)的數(shù)據(jù)集。它包括大約8000個(gè)小學(xué)和初中水平的數(shù)學(xué)題目,這些題目設(shè)計(jì)來(lái)測(cè)試模型在進(jìn)行算術(shù)運(yùn)算、解析數(shù)學(xué)問(wèn)題語(yǔ)境、以及應(yīng)用基本數(shù)學(xué)理解和推理技能方面的表現(xiàn)。

4)HumanEval

HumanEval是一個(gè)由 OpenAI 設(shè)計(jì)的數(shù)據(jù)集,用于評(píng)估代碼生成模型的性能。它包括了一系列編程題目,這些題目通常包括問(wèn)題描述、一個(gè)函數(shù)簽名和一組單元測(cè)試。這個(gè)數(shù)據(jù)集的主要目的是測(cè)試模型生成代碼的能力,尤其是代碼是否能在實(shí)際編程任務(wù)中有效運(yùn)行。

5)GPQA(General Purpose Question Answering)

GPQA是紐約大學(xué)的研究者們構(gòu)建了一個(gè)包括生物學(xué)、物理學(xué)和化學(xué)等多學(xué)科領(lǐng)域的多項(xiàng)選擇題數(shù)據(jù)集,共包含448個(gè)問(wèn)題。該數(shù)據(jù)集在設(shè)計(jì)上旨在橋接專(zhuān)家與非專(zhuān)家的知識(shí)鴻溝,方法是由專(zhuān)家出題并確保答案的準(zhǔn)確性,同時(shí)讓非專(zhuān)家進(jìn)行嘗試,保障問(wèn)題對(duì)非專(zhuān)家具備一定的挑戰(zhàn)性。

這份數(shù)據(jù)集的問(wèn)題難度極高,即便是在相關(guān)學(xué)科領(lǐng)域已獲得或正在攻讀博士學(xué)位的專(zhuān)家,平均正確率也僅為65%。對(duì)于其他專(zhuān)業(yè)領(lǐng)域的非專(zhuān)家來(lái)說(shuō),這一比例更是降至34%。對(duì)比之下,像GPT-4這樣的先進(jìn)AI模型在GPQA上的表現(xiàn)也只達(dá)到了39%的正確率。該數(shù)據(jù)集因此成為測(cè)試和發(fā)展能夠提高人機(jī)協(xié)作監(jiān)督下高效AI輸出方法的重要工具。

6)MGSM(Multilingual Grade School Math)

Google 發(fā)布的這個(gè)數(shù)據(jù)集是一個(gè)多語(yǔ)言數(shù)學(xué)問(wèn)題解答能力的評(píng)估和訓(xùn)練基準(zhǔn)。它包括了從GSM8K(Grade School Math 8K)精選的250個(gè)數(shù)學(xué)問(wèn)題,這些問(wèn)題原本是用于測(cè)試小學(xué)水平的數(shù)學(xué)問(wèn)答能力,并需要多步推理?,F(xiàn)在,這些問(wèn)題已經(jīng)被人工注釋者翻譯成10種不同的語(yǔ)言,增加了它們的多樣性和可用性。GSM8K本身是一個(gè)包含8500個(gè)高質(zhì)量數(shù)學(xué)文字問(wèn)題的集合,這些問(wèn)題語(yǔ)言多樣且旨在支持基礎(chǔ)數(shù)學(xué)問(wèn)答任務(wù)。

這個(gè)被稱(chēng)為MGSM的數(shù)據(jù)集,特別適合于開(kāi)發(fā)和評(píng)估多語(yǔ)言問(wèn)答系統(tǒng),尤其對(duì)于教育技術(shù)領(lǐng)域具有重要意義。它不僅能夠促進(jìn)開(kāi)發(fā)能夠理解和解答多種語(yǔ)言中提出的數(shù)學(xué)問(wèn)題的AI系統(tǒng),而且為研究者們提供了一個(gè)平臺(tái),用于探索和提升多語(yǔ)言自然語(yǔ)言處理模型在數(shù)學(xué)問(wèn)題解答方面的性能。

7)DROP(Discrete Reasoning Over the content of Paragraphs)

DROP是由加州大學(xué)和北京大學(xué)等研究機(jī)構(gòu)共同開(kāi)發(fā)的英文閱讀理解基準(zhǔn)數(shù)據(jù)集。此數(shù)據(jù)集的設(shè)計(jì)目標(biāo)是推動(dòng)閱讀理解技術(shù)超越傳統(tǒng)的文本處理,更深入地分析文本段落。系統(tǒng)需要在理解段落內(nèi)容的基礎(chǔ)上,進(jìn)行如加法、計(jì)數(shù)和排序等離散推理操作,這些操作要求比之前的數(shù)據(jù)集更深層次的文本理解。

為了創(chuàng)建DROP數(shù)據(jù)集,研究者們采用了眾包方法,首先自動(dòng)選取Wikipedia中含有大量數(shù)字的敘事性段落,隨后利用Amazon Mechanical Turk平臺(tái)來(lái)收集問(wèn)題及其對(duì)應(yīng)的答案。在構(gòu)建問(wèn)題時(shí),研究者們使用了具有對(duì)抗性的基線系統(tǒng)BiDAF作為參考,激勵(lì)眾包工作者提出難以被基線系統(tǒng)回答的問(wèn)題。最終形成的數(shù)據(jù)集包含了96,567個(gè)問(wèn)題,覆蓋了Wikipedia上的眾多主題,尤其是體育比賽摘要和歷史段落,對(duì)閱讀理解技術(shù)的深入性和廣泛性提出了新的挑戰(zhàn)。

8)BIG-Bench Hard (Broad Impact General Benchmark Hard)

BIG-Bench是由Google、OpenAl等研究者共同開(kāi)發(fā),旨在通過(guò)一系列多樣化的任務(wù)來(lái)全面評(píng)估大語(yǔ)言模型的性能。BIG-Bench包含了超過(guò)200個(gè)任務(wù),這些任務(wù)涵蓋了文本理解、推理、邏輯推理、數(shù)學(xué)推理和常識(shí)推理等多個(gè)領(lǐng)域。任務(wù)類(lèi)型包括機(jī)器翻譯、文本分類(lèi)、序列標(biāo)注、抽取式摘要、信息檢索、表格解讀、數(shù)理推理、常識(shí)推理、多模態(tài)推理、規(guī)劃和數(shù)學(xué)問(wèn)題解答等。

而B(niǎo)BH則是在BIG-Bench數(shù)據(jù)集的一個(gè)子集,專(zhuān)注于23個(gè)最具有挑戰(zhàn)性的任務(wù),這些任務(wù)超出了當(dāng)前語(yǔ)言模型的能力范圍。BBH中的任務(wù)需要進(jìn)行多步驟推理。

9)MMMU(Massive Multi-discipline Multi-modal Understanding & Reasoning)

MMMU是一個(gè)為大學(xué)級(jí)多學(xué)科多模態(tài)理解和推理設(shè)計(jì)的綜合測(cè)試基準(zhǔn)。它的問(wèn)題來(lái)源于大學(xué)考試、測(cè)驗(yàn)和教科書(shū),涵蓋六個(gè)常見(jiàn)學(xué)科:藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)以及技術(shù)與工程。MMMU由11.5K個(gè)精心選擇的多模式問(wèn)題組成,涵蓋30個(gè)不同科目和183個(gè)子領(lǐng)域,從而達(dá)到廣度目標(biāo)。此外,MMMU中的許多問(wèn)題需要專(zhuān)家級(jí)的推理,例如應(yīng)用“傅立葉變換”或“平衡理論”來(lái)推導(dǎo)解,從而達(dá)到深度目標(biāo)。

MMMU還提出了當(dāng)前基準(zhǔn)測(cè)試中沒(méi)有的兩個(gè)獨(dú)特挑戰(zhàn)。首先,它涵蓋了各種圖像格式,從照片和繪畫(huà)等視覺(jué)場(chǎng)景到圖表和表格,測(cè)試了LMM的感知能力。其次,MMMU具有交錯(cuò)文本圖像輸入的特征。模型需要共同理解圖像和文本,這通常需要回憶深刻的主題知識(shí),并根據(jù)理解知識(shí)進(jìn)行復(fù)雜的推理以達(dá)成解決方案。

MMMU包含11.5K個(gè)多模式問(wèn)題,涵蓋六個(gè)廣泛的學(xué)科、30個(gè)科目和183個(gè)子領(lǐng)域,每個(gè)學(xué)科的MMMU樣本。這些問(wèn)題和圖像需要專(zhuān)家級(jí)的知識(shí)來(lái)理解和推理。

MMMU作為評(píng)估LMM(多模態(tài)大模型)能力的基準(zhǔn)的開(kāi)發(fā)標(biāo)志著邁向AGI之旅中的一個(gè)重要里程碑。MMMU不僅測(cè)試了當(dāng)前LMM在基本感知技能方面所能達(dá)到的極限,還評(píng)估了它們處理復(fù)雜推理和深入的特定主題知識(shí)的能力。這種方法直接有助于我們理解專(zhuān)家AGI的進(jìn)展,因?yàn)樗从沉瞬煌瑢?zhuān)業(yè)領(lǐng)域的熟練成年人所期望的專(zhuān)業(yè)知識(shí)和推理能力。

盡管MMMU具有全面性,但與任何基準(zhǔn)一樣,它也并非沒(méi)有局限性。人工測(cè)試過(guò)程雖然徹底,但可能存在偏見(jiàn)。同時(shí),對(duì)大學(xué)水平科目的關(guān)注可能也不是對(duì)AGI的充分測(cè)試和評(píng)估。然而MMMU會(huì)激勵(lì)A(yù)I社區(qū)建立更多,更全面的面向?qū)<彝ㄓ萌斯ぶ悄艿南乱淮嗄J交鶞?zhǔn)模型。

2. 主流大模型測(cè)試結(jié)果(Claude3、GPT-4、Gemini)

目前主流大模型的發(fā)布都會(huì)以一系列評(píng)估工具和數(shù)據(jù)集作為測(cè)試基準(zhǔn),并公開(kāi)有利于自己的測(cè)試成績(jī)。下圖是Anthropic公司發(fā)布的Claude3系列的最新測(cè)試報(bào)告。

在以上這份測(cè)試報(bào)告中,展示了包括Claude 3系列模型(Opus、Sonnet、Haiku),GPT系列模型(GPT-4、GPT-3.5),Gemini系列模型(1.0Ultra、1.5Pro、1.0Pro)在內(nèi)的多個(gè)人工智能大模型在不同測(cè)試基準(zhǔn)任務(wù)上的成績(jī)。

在MMLU測(cè)試中,Claude 3 Opus以86.8%的成績(jī)表現(xiàn)最佳,與GPT4在一個(gè)水平,其次是Gemini 1.0Ultra。在5-shot和0-shot的Chain of Thought (CoT)解題推理鏈中,由于GPT和Gemini系列沒(méi)有測(cè)試,無(wú)法比較。但Claude 3 Opus以88.2%的正確率顯示其在一般推理能力方面的強(qiáng)大。

在MATH能力方面,Claude 3 Opus在0-shot條件下得到61%的準(zhǔn)確率,超過(guò)其他所有模型。在經(jīng)過(guò)少量示例(4-shot)學(xué)習(xí)后,Opus的表現(xiàn)也是所有模型中最好的。

在小學(xué)和初中數(shù)學(xué)(GSM8K)測(cè)試中,Opus同樣位居榜首,準(zhǔn)確率達(dá)到95.0%,顯示其在數(shù)學(xué)問(wèn)題解決方面有卓越的能力。此外,Opus在多語(yǔ)言數(shù)學(xué)測(cè)試(MGSM)中也展示了其強(qiáng)大的多語(yǔ)言能力。

在Python編碼任務(wù)(HumanEval)中,Opus的成績(jī)?yōu)?4.9%,這表明了其在理解和生成代碼方面的能力。

在研究生水平的問(wèn)題和回答(GPQA)測(cè)試中,Opus的5-shot CoT得分是50.4%,明顯高于其他所有模型,表明其在高級(jí)推理能力方面的優(yōu)勢(shì)。

在多語(yǔ)言數(shù)學(xué)(MGSM)測(cè)試中,Opus的成績(jī)是90.7%,進(jìn)一步證實(shí)了其在多語(yǔ)言處理和數(shù)學(xué)問(wèn)題解決上的能力。

在閱讀理解和算術(shù)(DROP)測(cè)試中,Opus得分為83.1,再次領(lǐng)先。

最后,在混合評(píng)估的BIG-Bench-Hard測(cè)試中,Opus的表現(xiàn)同樣是最好的。

總體而言,測(cè)試結(jié)果顯示Claude 3系列中的Opus模型在各項(xiàng)任務(wù)上均表現(xiàn)優(yōu)異,尤其是在高級(jí)推理和數(shù)學(xué)問(wèn)題解決方面,其性能超越了GPT-3及Gemini系列。這些結(jié)果揭示了Opus在多方面任務(wù)的應(yīng)用潛力,尤其是在需要復(fù)雜推理和深度理解的場(chǎng)景中。

當(dāng)然,由于Claude 3系列的測(cè)試報(bào)告是在GPT-3及Gemini系列之后發(fā)布,同時(shí),也并非是第三方測(cè)試,而各商業(yè)大模型都會(huì)選擇有利于自己的評(píng)價(jià)方法和數(shù)據(jù)集,其測(cè)試公正性有待商榷。同時(shí),以人類(lèi)答題水平作為比對(duì)基準(zhǔn)的這種“小鎮(zhèn)做題家”式的測(cè)試,本質(zhì)上離AGI還有相當(dāng)大的距離。

3. 主流大模型MMMU測(cè)試結(jié)果

由于常規(guī)大模型在單模態(tài)和單一測(cè)試數(shù)據(jù)集的表現(xiàn)并不能充分表現(xiàn)其在AGI方面的真實(shí)水平。因此,IN.AI Research,滑鐵盧大學(xué),俄亥俄州立大學(xué),獨(dú)立大學(xué),卡內(nèi)基梅隆大學(xué),維多利亞大學(xué),普林斯頓大學(xué)等研究機(jī)構(gòu)聯(lián)合發(fā)布了MMMU測(cè)試數(shù)據(jù)集與主流多模態(tài)大模型的測(cè)試結(jié)果。

從該測(cè)試報(bào)告來(lái)看,即使是先進(jìn)的GPT-4V和Gemini Ultra商業(yè)大模型也只能分別達(dá)到56%和59%的準(zhǔn)確率,這表明大模型在大規(guī)模多學(xué)科多模式理解與推理上的還有很大的改進(jìn)空間。

四、目前大模型的局限與缺陷

1. 理解和推理的限制

大模型生成的回答可能看起來(lái)合理,但它并不真正“理解”內(nèi)容。它基于模式識(shí)別生成文本,這可能導(dǎo)致理解上的誤差或邏輯上的錯(cuò)誤,尤其是在處理復(fù)雜的推理或需要深入專(zhuān)業(yè)知識(shí)的主題時(shí)。而人類(lèi)在知識(shí)理解中更多的是靠文字、圖像、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等多感官系統(tǒng)相互映射、推理、驗(yàn)證和聯(lián)想,并非只依靠單模態(tài)的理解。

2. 數(shù)據(jù)偏差和不準(zhǔn)確性

大模型的回答質(zhì)量和準(zhǔn)確性完全依賴(lài)于其前期訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)存在偏見(jiàn)或錯(cuò)誤,其生成的內(nèi)容也可能反映這些偏見(jiàn)或包含錯(cuò)誤信息。雖然,人類(lèi)的思維也依靠自身成長(zhǎng)過(guò)程的信息處理和訓(xùn)練,但人類(lèi)思維訓(xùn)練的成果并非是靜態(tài)的知識(shí)積累,而是建立了一套動(dòng)態(tài)的思維和理解模式。這也是人類(lèi)可以快速準(zhǔn)確的處理新知識(shí),并能準(zhǔn)確糾正認(rèn)知錯(cuò)誤的關(guān)鍵。

3. 創(chuàng)造性和新穎性的限制

雖然大模型可以生成新穎的文本內(nèi)容,但它的“創(chuàng)造性”受限于其訓(xùn)練數(shù)據(jù)范圍內(nèi)的模式組合。其產(chǎn)生的“新穎性”更多是依靠回歸模型中的文字組合預(yù)測(cè),其并不能超出訓(xùn)練數(shù)據(jù)的語(yǔ)意范圍。這也是大模型生成的文章更有明顯的成文范式和普適性,會(huì)讓人初讀驚艷、細(xì)讀乏味。大模型的文字創(chuàng)造力更像百科全書(shū)的知識(shí)集合,而對(duì)專(zhuān)業(yè)領(lǐng)域的創(chuàng)造力由于訓(xùn)練數(shù)據(jù)的缺失,也無(wú)法實(shí)現(xiàn)更有成效的語(yǔ)言創(chuàng)造。

4. 情境和上下文的理解

盡管大模型能處理一定的上下文信息,但它在理解復(fù)雜或長(zhǎng)期的上下文方面表現(xiàn)不佳。它難以跟蹤長(zhǎng)對(duì)話中的線索或維持長(zhǎng)篇文章的連貫性。例如在長(zhǎng)對(duì)話中,大模型可能會(huì)逐漸失去對(duì)早期提到的信息的跟蹤。

這是因?yàn)榇竽P陀洃洐C(jī)制有限,不能像人類(lèi)那樣靈活地回顧和引用過(guò)去的討論內(nèi)容;在生成長(zhǎng)篇文章時(shí),保持主題一致性和邏輯連貫性可能是一個(gè)挑戰(zhàn)。大模型可能在文章較長(zhǎng)時(shí)開(kāi)始重復(fù)或偏離主題;對(duì)于需要深度推理或廣泛背景知識(shí)的復(fù)雜問(wèn)題,大模型可能無(wú)法完全理解所有的細(xì)節(jié)和潛在聯(lián)系,特別是在需要綜合多方面知識(shí)的情況下。

5. 無(wú)法自主學(xué)習(xí)和適應(yīng)

當(dāng)前的大模型并不能主動(dòng)學(xué)習(xí)或適應(yīng)新信息,它的知識(shí)僅限于訓(xùn)練數(shù)據(jù)截止時(shí)的狀態(tài)。這意味著大模型無(wú)法自行更新或改變已經(jīng)學(xué)習(xí)或訓(xùn)練完成的成果。如果出現(xiàn)新的事實(shí)、發(fā)現(xiàn)或文化變化,除非通過(guò)新的訓(xùn)練數(shù)據(jù)更新模型,否則無(wú)法反映這些變化。

這種設(shè)計(jì)的目的是能確保輸出的一致性和可預(yù)測(cè)性,同時(shí)防止模型從不可靠的數(shù)據(jù)源學(xué)習(xí)和輸出無(wú)法預(yù)測(cè)的信息。但正是這種設(shè)計(jì)的局限性限制了大模型向人類(lèi)一樣的學(xué)習(xí)和思考。

五、結(jié)論

目前,在科學(xué)界和產(chǎn)業(yè)界中,關(guān)于何時(shí)能實(shí)現(xiàn)人工通用智能(AGI)的預(yù)測(cè)存在顯著差異,這反映了不同人士對(duì)未來(lái)AI技術(shù)進(jìn)展的不同觀點(diǎn)和期望。

一些科技企業(yè)領(lǐng)袖和AI研究者對(duì)AGI的到來(lái)持樂(lè)觀態(tài)度。例如,DeepMind的創(chuàng)始人Demis Hassabis認(rèn)為,在未來(lái)十年內(nèi)實(shí)現(xiàn)AGI是有可能的。而OpenAI的首席執(zhí)行官Sam Altman,更是預(yù)測(cè)AGI可能在大約五年內(nèi)成為現(xiàn)實(shí)。多位AI研究者和思想家,包括Geoffrey Hinton和Ray Kurzweil,預(yù)測(cè)AGI將在未來(lái)幾十年內(nèi)到來(lái),具體時(shí)間從5年到20年不等。

在更廣泛的科學(xué)研究社區(qū)中,預(yù)測(cè)的時(shí)間則更為保守。一項(xiàng)由Muller和Bostrom進(jìn)行的調(diào)查顯示,參與者普遍認(rèn)為到2040年有50%的可能性實(shí)現(xiàn)AGI,到2075年則有90%的可能性。這項(xiàng)調(diào)查還表明,大多數(shù)專(zhuān)家預(yù)計(jì)在AGI實(shí)現(xiàn)后的30年內(nèi),超級(jí)智能(大大超過(guò)人類(lèi)智能的AI)的出現(xiàn)概率為75%。近期在Linux 基金會(huì)主辦的北美開(kāi)源峰會(huì)上Linux創(chuàng)始人Linus Torvalds則表達(dá)了對(duì)目前AI炒作的懷疑態(tài)度,并建議等待十年再評(píng)估AI的實(shí)際發(fā)展情況。

Yann LeCun認(rèn)為,目前依賴(lài)于大規(guī)模數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的人工智能模型,如GPT和其他大型語(yǔ)言模型,不太可能實(shí)現(xiàn)真正的普適人工智能。LeCun更傾向于開(kāi)發(fā)能夠理解和推理的AI系統(tǒng),類(lèi)似于人類(lèi)和動(dòng)物的方式。他提出了一種新的架構(gòu),即“聯(lián)合嵌入預(yù)測(cè)架構(gòu)”(JEPA),旨在通過(guò)自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練模型,使其能夠生成和理解高層次的抽象表示。

LeCun特別強(qiáng)調(diào)了通過(guò)訓(xùn)練AI系統(tǒng)理解世界的模型(世界模型),該模型能夠預(yù)測(cè)并作出決策,而不僅僅是響應(yīng)外部輸入。這種方法的目標(biāo)是創(chuàng)建一個(gè)能夠理解環(huán)境并據(jù)此行動(dòng)的AI,從而更接近人類(lèi)的思維方式。強(qiáng)化學(xué)習(xí)之父Richard Sutton教授更看好Yann LeCun的世界模型理念,并將其視為實(shí)現(xiàn)AGI的關(guān)鍵途徑。

而筆者認(rèn)為,依靠海量數(shù)據(jù)擬合回歸訓(xùn)練的AI大模型與人類(lèi)進(jìn)化形成的認(rèn)知推理有本質(zhì)上的差異。當(dāng)前的大模型是將海量的人類(lèi)歷史認(rèn)知成果,擬合為一套普適認(rèn)知模型。數(shù)據(jù)擬合過(guò)程必然忽略掉差異性,而更傾向于普適性和過(guò)度擬合。

“小鎮(zhèn)做題家”式的大模型競(jìng)賽并不能為人類(lèi)進(jìn)步提供實(shí)際幫助,而人類(lèi)的進(jìn)化與文明發(fā)展恰恰是依靠少量偶發(fā)認(rèn)知差異性實(shí)現(xiàn)的。第一只下樹(shù)和站立的古猿,第一個(gè)走出非洲、使用火、使用工具的古人類(lèi),和為人類(lèi)科技進(jìn)步前仆后繼獻(xiàn)出生命的里程碑人物,無(wú)不是人類(lèi)歷史長(zhǎng)河中的異類(lèi),如果通過(guò)擬合共性而忽視個(gè)性,大模型的知識(shí)推理必然陷入認(rèn)知陷阱。

因此,我們需要更加理性地看待AGI的發(fā)展,警惕泡沫化風(fēng)險(xiǎn),未來(lái)AGI發(fā)展應(yīng)該朝著數(shù)據(jù)分散、模型多元、推理協(xié)同、認(rèn)知共享的方向發(fā)展,保留認(rèn)知推理中的個(gè)性才能促進(jìn)AGI技術(shù)的健康和可持續(xù)發(fā)展。

參考文獻(xiàn)

  • Team G, Anil R, Borgeaud S, et al. Gemini: a family of highly capable multimodal models[J]. arXiv preprint arXiv:2312.11805, 2023.
  • Assran M, Duval Q, Misra I, et al. Self-supervised learning from images with a joint-embedding predictive architecture[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15619-15629.
  • Hinton G. How to represent part-whole hierarchies in a neural network[J]. Neural Computation, 2023, 35(3): 413-452.
  • Yue X, Ni Y, Zhang K, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi[J]. arXiv preprint arXiv:2311.16502, 2023.

專(zhuān)欄作家

黃銳,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師、資深產(chǎn)品經(jīng)理、多家大型互聯(lián)網(wǎng)公司顧問(wèn),金融機(jī)構(gòu)、高??妥芯繂T。主要關(guān)注新零售、工業(yè)互聯(lián)網(wǎng)、金融科技和區(qū)塊鏈行業(yè)應(yīng)用版塊,擅長(zhǎng)產(chǎn)品或系統(tǒng)整體性設(shè)計(jì)和規(guī)劃。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App