精品国产一区二区三区久久影院,亚洲精品揄拍自拍首页一,一本大道无码人妻精品专区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

我們離AGI還有多遠(yuǎn)？

黃銳

2024-05-01

0 評(píng)論 1834 瀏覽 13 收藏

34 分鐘

我們離實(shí)現(xiàn)人工通用智能（AGI）究竟還有多遠(yuǎn)？這個(gè)問(wèn)題的答案，我們不妨從行業(yè)大咖的觀點(diǎn)來(lái)做進(jìn)一步的探討。一起來(lái)看看本文的梳理和分享。

一、引言

在探索人工智能的邊界時(shí)，我們經(jīng)常面臨一個(gè)根本性的問(wèn)題：我們離實(shí)現(xiàn)人工通用智能（AGI）還有多遠(yuǎn)？這個(gè)問(wèn)題不僅觸及技術(shù)進(jìn)步的速度，也深刻反映了我們對(duì)智能本質(zhì)的理解與期待。AGI或全能型人工智能，指的是一種具備人類(lèi)智能全部能力的機(jī)器，能夠在任何認(rèn)知任務(wù)上達(dá)到或超越人類(lèi)的表現(xiàn)。從學(xué)術(shù)探討到科幻小說(shuō)，AGI長(zhǎng)久以來(lái)被視為技術(shù)進(jìn)步的終極目標(biāo)，它代表著人類(lèi)智慧的延伸與超越。

然而，盡管近年來(lái)人工智能領(lǐng)域取得了顯著的進(jìn)展，特別是在深度學(xué)習(xí)和大規(guī)模模型訓(xùn)練方面，我們對(duì)AGI的追求仍然充滿了挑戰(zhàn)與不確定性。

一方面，模型如Claude 3 Opus的出現(xiàn)展示了AI在處理復(fù)雜問(wèn)題和模擬人類(lèi)行為方面的驚人能力；另一方面，這些進(jìn)步也揭示了我們?cè)诶斫庵悄鼙举|(zhì)、模擬復(fù)雜認(rèn)知過(guò)程、以及在倫理和安全方面所面臨的深刻問(wèn)題。因此，當(dāng)我們問(wèn)自己“我們離AGI還有多遠(yuǎn)”時(shí)，我們不僅在探詢(xún)技術(shù)的邊界，更是在反思人類(lèi)智慧的深度與廣度，以及我們?cè)敢庖栽鯓拥姆绞竭~向那個(gè)未知的未來(lái)。

本文從“深度學(xué)習(xí)三巨頭”的觀點(diǎn)，AGI評(píng)測(cè)基準(zhǔn)和當(dāng)前大模型局限性等三個(gè)維度深度探討該問(wèn)題。

二、深度學(xué)習(xí)三巨頭的觀點(diǎn)

1. LeCun：當(dāng)前的AI還遠(yuǎn)未達(dá)到人類(lèi)智能

Yann LeCun（楊立坤），目前是Meta的副總裁兼首席AI科學(xué)家，同時(shí)也是紐約大學(xué)Courant數(shù)學(xué)科學(xué)研究所的教授。作為人工智能領(lǐng)域的領(lǐng)軍人物，LeCun對(duì)當(dāng)前人工智能的發(fā)展趨勢(shì)和未來(lái)方向有著獨(dú)到的見(jiàn)解。他的觀點(diǎn)主要圍繞如何使機(jī)器能夠像人類(lèi)和動(dòng)物那樣理解和與世界互動(dòng)，強(qiáng)調(diào)“常識(shí)”推理的重要性以及基于“世界模型”的預(yù)測(cè)和計(jì)劃能力。

LeCun批評(píng)了當(dāng)前人工智能發(fā)展中主流的方法，尤其是依賴(lài)大型語(yǔ)言模型（如GPT-3）和強(qiáng)化學(xué)習(xí)的方法。他認(rèn)為，僅僅通過(guò)擴(kuò)大語(yǔ)言模型的規(guī)模，這些模型雖能處理文字和圖像，但缺乏對(duì)世界的直接理解或體驗(yàn)，是無(wú)法達(dá)到人類(lèi)級(jí)別人工智能的。同樣地，他也認(rèn)為基于獎(jiǎng)勵(lì)的試錯(cuò)學(xué)習(xí)方法——強(qiáng)化學(xué)習(xí)，因?yàn)樾枰罅繑?shù)據(jù)，也不是通向泛化智能的可行路徑。

與此相對(duì)，LeCun提出了一種自主智能的架構(gòu)，包括一個(gè)能夠預(yù)測(cè)世界未來(lái)狀態(tài)的世界模型。這個(gè)模型將通過(guò)無(wú)監(jiān)督的方式從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)，從而無(wú)需明確指示就能理解世界動(dòng)態(tài)。這個(gè)架構(gòu)由六個(gè)模塊組成，包括執(zhí)行控制的配置器、理解當(dāng)前狀態(tài)的感知模塊、預(yù)測(cè)的世界模型、決策的成本模塊、規(guī)劃行動(dòng)的行動(dòng)模塊，以及追蹤狀態(tài)和成本的短期記憶模塊。

LeCun的觀點(diǎn)是對(duì)AI社區(qū)探索當(dāng)前主導(dǎo)范式之外的新方向的一次呼吁，強(qiáng)調(diào)模型以有意義的方式理解和預(yù)測(cè)世界的重要性。他在開(kāi)發(fā)世界模型和自主智能架構(gòu)方面的工作可能為開(kāi)發(fā)能夠進(jìn)行推理、規(guī)劃和以更人性化的方式與世界互動(dòng)的更復(fù)雜的AI系統(tǒng)鋪平道路。

2. Hinton：人工智能將變得比我們更加智能

Geoffrey Hinton, 被譽(yù)為“深度學(xué)習(xí)之父”，近年來(lái)對(duì)人工智能的發(fā)展和潛在風(fēng)險(xiǎn)表達(dá)了一些引人深思的看法。他特別擔(dān)心，如果人工智能達(dá)到或超過(guò)人類(lèi)智能，它們可能會(huì)找到操縱甚至殺害人類(lèi)的方法。

Hinton警告說(shuō)，我們可能接近這樣一個(gè)點(diǎn)，那時(shí)人工智能將變得比我們更加智能，這讓他感到恐懼。他特別擔(dān)心，某些人可能會(huì)利用這些工具，如在選舉和戰(zhàn)爭(zhēng)中操縱結(jié)果。為了防范這些風(fēng)險(xiǎn)，Hinton提出需要在技術(shù)行業(yè)領(lǐng)袖之間合作，以確定風(fēng)險(xiǎn)所在并采取措施。

Hinton擔(dān)心，隨著AI技術(shù)的快速發(fā)展，我們可能很難判斷什么是真實(shí)的？什么是虛擬的？他特別關(guān)注大型語(yǔ)言模型的發(fā)展，如GPT-4，它展現(xiàn)出了比人類(lèi)更高效的學(xué)習(xí)能力，這讓他認(rèn)為機(jī)器可能很快就會(huì)比人類(lèi)更加智能。他指出，盡管大型語(yǔ)言模型的連接數(shù)與人腦相比還是非常小的，但它們能夠展示出驚人的學(xué)習(xí)能力，尤其是在少量學(xué)習(xí)（few-shot learning）的情況下，這些模型能夠快速學(xué)習(xí)新任務(wù)。Hinton認(rèn)為，這挑戰(zhàn)了人們認(rèn)為人腦在學(xué)習(xí)上具有某種魔法般的優(yōu)勢(shì)的觀點(diǎn)。

他認(rèn)為如果不能控制AI，不法分子可能會(huì)利用它做壞事。他還擔(dān)憂，在短期內(nèi)，互聯(lián)網(wǎng)可能會(huì)被假文本、照片和視頻淹沒(méi)，長(zhǎng)期來(lái)看，這些技術(shù)甚至可能對(duì)人類(lèi)構(gòu)成威脅。Hinton在X（Twitter）上明確表示，他離開(kāi)Google的原因不是為了批評(píng)該公司，而是為了能夠毫無(wú)顧忌地討論人工智能的危險(xiǎn)，而不必?fù)?dān)心這些觀點(diǎn)會(huì)對(duì)他所在的公司產(chǎn)生影響。

總的來(lái)說(shuō)，Hinton的看法提醒我們，隨著人工智能技術(shù)的發(fā)展，我們需要深思熟慮地評(píng)估其潛在的積極和消極影響，并采取適當(dāng)?shù)念A(yù)防措施以確保技術(shù)的安全和負(fù)責(zé)任地使用。

3. Bengio：AI發(fā)展需要更加謹(jǐn)慎和有預(yù)見(jiàn)性的規(guī)劃和監(jiān)管

Yoshua Bengio是蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)系的教授，同時(shí)也是蒙特利爾學(xué)習(xí)算法研究所（MILA）的科學(xué)總監(jiān)。作為深度學(xué)習(xí)和人工智能領(lǐng)域的先驅(qū)之一，對(duì)當(dāng)前AI技術(shù)的快速發(fā)展及其潛在風(fēng)險(xiǎn)表達(dá)了深切的關(guān)注。

Bengio聯(lián)合數(shù)百名技術(shù)領(lǐng)導(dǎo)者、AI研究者、政策制定者等，簽署了一封公開(kāi)信，敦促所有AI實(shí)驗(yàn)室同意暫停開(kāi)發(fā)比GPT-4更強(qiáng)大的系統(tǒng)六個(gè)月。這一舉措旨在為私營(yíng)行業(yè)、政府和公眾提供時(shí)間來(lái)充分理解AI及其應(yīng)用，并圍繞它制定適當(dāng)?shù)囊?guī)制措施。Bengio及其他參與者強(qiáng)調(diào)，這種快速的發(fā)展速度超出了我們理解、識(shí)別風(fēng)險(xiǎn)及緩解風(fēng)險(xiǎn)的能力。他們認(rèn)為，六個(gè)月的時(shí)間可以為創(chuàng)建圍繞AI的治理、了解和風(fēng)險(xiǎn)緩解努力提供機(jī)會(huì)。Bengio認(rèn)為很難準(zhǔn)確知道人工智能達(dá)到人類(lèi)智能水平還需要多少年或多少個(gè)十年。但目前的技術(shù)發(fā)展速度和資金投入加速了AI能力的提升，因此他呼吁需要緊急監(jiān)管來(lái)緩解AI發(fā)展帶來(lái)的最大風(fēng)險(xiǎn)。

在一次訪談中，Bengio討論了大型AI模型發(fā)展所帶來(lái)的風(fēng)險(xiǎn)，尤其是關(guān)于民主的安全。他指出，我們已經(jīng)能夠操縱信息，使其看起來(lái)非常真實(shí)，如深度偽造內(nèi)容，他建議應(yīng)該要求在AI生成的內(nèi)容上加上標(biāo)記或水印，以幫助觀眾區(qū)分哪些是AI生成的，哪些不是。他還強(qiáng)調(diào)了AI在創(chuàng)造假冒和有說(shuō)服力的內(nèi)容方面的能力，可能會(huì)使人們被AI算法所淹沒(méi)，從而破壞了民主依賴(lài)的共同現(xiàn)實(shí)基礎(chǔ)。

Bengio對(duì)于AI的這些表態(tài)不僅展示了他對(duì)技術(shù)發(fā)展?jié)撛谪?fù)面影響的深刻理解，也體現(xiàn)了他對(duì)未來(lái)社會(huì)和技術(shù)治理的關(guān)注。他的觀點(diǎn)強(qiáng)調(diào)了在AI發(fā)展的道路上，需要更加謹(jǐn)慎和有預(yù)見(jiàn)性的規(guī)劃和監(jiān)管，以確保技術(shù)的進(jìn)步能夠造福而非損害人類(lèi)社會(huì)。

三、當(dāng)前主流大模型的評(píng)價(jià)基準(zhǔn)

1. AGI的評(píng)價(jià)方法

如何評(píng)估AGI的能力？這需要綜合一系列量化指標(biāo)和多種測(cè)試方法，以捕捉人工智能在不同層面表現(xiàn)。這些方法大致包括：知識(shí)水平和邏輯推理的知識(shí)測(cè)驗(yàn)；專(zhuān)業(yè)領(lǐng)域內(nèi)應(yīng)用能力的專(zhuān)業(yè)技能測(cè)試；策略和學(xué)習(xí)能力的復(fù)雜游戲；通過(guò)模擬環(huán)境評(píng)估適應(yīng)性和問(wèn)題解決的虛擬仿真；藝術(shù)作品原創(chuàng)性和審美的藝術(shù)創(chuàng)作；創(chuàng)新解決方案的能力評(píng)估；自然語(yǔ)言處理的圖靈測(cè)試；情感和社交互動(dòng)的評(píng)價(jià)；在多任務(wù)性能、學(xué)習(xí)遷移、復(fù)雜問(wèn)題解決、實(shí)時(shí)決策、道德困境應(yīng)對(duì)、社會(huì)規(guī)范遵循、綜合感知和交互式任務(wù)的能力。這些多方位的測(cè)試旨在全面評(píng)價(jià)AGI的復(fù)雜智能水平。

目前，AGI常用的評(píng)估工具基本上是參考人類(lèi)的專(zhuān)業(yè)考試和學(xué)術(shù)測(cè)評(píng)基準(zhǔn)，而制作的專(zhuān)業(yè)化系列問(wèn)題集。這些測(cè)試工具和數(shù)據(jù)集包括但不限于：

1）MMLU（Massive Multitask Language Understanding）

MMLU是旨在通過(guò)評(píng)估模型在零樣本（zero-shot）和少樣本（few-shot）設(shè)置中的表現(xiàn)來(lái)衡量在預(yù)訓(xùn)練過(guò)程中獲得知識(shí)的能力。這種評(píng)估方式使得基準(zhǔn)測(cè)試更具挑戰(zhàn)性，更接近于我們?cè)u(píng)估人類(lèi)的方式。MMLU覆蓋了STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）、人文學(xué)科、社會(huì)科學(xué)等57個(gè)學(xué)科領(lǐng)域，難度從基礎(chǔ)級(jí)別到高級(jí)專(zhuān)業(yè)級(jí)別不等，測(cè)試內(nèi)容包括世界知識(shí)和問(wèn)題解決能力。

2）MATH

MATH是一個(gè)專(zhuān)門(mén)設(shè)計(jì)來(lái)評(píng)估模型在數(shù)學(xué)問(wèn)題解決能力上的測(cè)試。這種測(cè)試挑戰(zhàn)模型在理解和解決各種數(shù)學(xué)問(wèn)題上的能力，包括但不限于代數(shù)、幾何、微積分和統(tǒng)計(jì)等領(lǐng)域。MATH測(cè)試通常涉及以下幾個(gè)關(guān)鍵方面：?jiǎn)栴}多樣性—包含不同類(lèi)型的數(shù)學(xué)問(wèn)題，涵蓋從基礎(chǔ)數(shù)學(xué)到高級(jí)數(shù)學(xué)的多個(gè)層面；推理能力—測(cè)試模型是否能夠邏輯推理和解決復(fù)雜的數(shù)學(xué)證明或計(jì)算問(wèn)題；準(zhǔn)確性—模型輸出的解決方案需要數(shù)學(xué)上的精確和正確；解釋性—除了提供正確答案外，評(píng)估模型是否能夠展示其解題步驟，即“解題思路”（Chain of Thought），有助于理解模型如何達(dá)到最終答案。

3）GSM8k（Grade School Math 8k）

GSM8k是一個(gè)專(zhuān)門(mén)為評(píng)估和訓(xùn)練人工智能模型在解決數(shù)學(xué)問(wèn)題方面的能力而設(shè)計(jì)的數(shù)據(jù)集。它包括大約8000個(gè)小學(xué)和初中水平的數(shù)學(xué)題目，這些題目設(shè)計(jì)來(lái)測(cè)試模型在進(jìn)行算術(shù)運(yùn)算、解析數(shù)學(xué)問(wèn)題語(yǔ)境、以及應(yīng)用基本數(shù)學(xué)理解和推理技能方面的表現(xiàn)。

4）HumanEval

HumanEval是一個(gè)由 OpenAI 設(shè)計(jì)的數(shù)據(jù)集，用于評(píng)估代碼生成模型的性能。它包括了一系列編程題目，這些題目通常包括問(wèn)題描述、一個(gè)函數(shù)簽名和一組單元測(cè)試。這個(gè)數(shù)據(jù)集的主要目的是測(cè)試模型生成代碼的能力，尤其是代碼是否能在實(shí)際編程任務(wù)中有效運(yùn)行。

5）GPQA（General Purpose Question Answering）

GPQA是紐約大學(xué)的研究者們構(gòu)建了一個(gè)包括生物學(xué)、物理學(xué)和化學(xué)等多學(xué)科領(lǐng)域的多項(xiàng)選擇題數(shù)據(jù)集，共包含448個(gè)問(wèn)題。該數(shù)據(jù)集在設(shè)計(jì)上旨在橋接專(zhuān)家與非專(zhuān)家的知識(shí)鴻溝，方法是由專(zhuān)家出題并確保答案的準(zhǔn)確性，同時(shí)讓非專(zhuān)家進(jìn)行嘗試，保障問(wèn)題對(duì)非專(zhuān)家具備一定的挑戰(zhàn)性。

這份數(shù)據(jù)集的問(wèn)題難度極高，即便是在相關(guān)學(xué)科領(lǐng)域已獲得或正在攻讀博士學(xué)位的專(zhuān)家，平均正確率也僅為65%。對(duì)于其他專(zhuān)業(yè)領(lǐng)域的非專(zhuān)家來(lái)說(shuō)，這一比例更是降至34%。對(duì)比之下，像GPT-4這樣的先進(jìn)AI模型在GPQA上的表現(xiàn)也只達(dá)到了39%的正確率。該數(shù)據(jù)集因此成為測(cè)試和發(fā)展能夠提高人機(jī)協(xié)作監(jiān)督下高效AI輸出方法的重要工具。

6）MGSM（Multilingual Grade School Math）

Google 發(fā)布的這個(gè)數(shù)據(jù)集是一個(gè)多語(yǔ)言數(shù)學(xué)問(wèn)題解答能力的評(píng)估和訓(xùn)練基準(zhǔn)。它包括了從GSM8K（Grade School Math 8K）精選的250個(gè)數(shù)學(xué)問(wèn)題，這些問(wèn)題原本是用于測(cè)試小學(xué)水平的數(shù)學(xué)問(wèn)答能力，并需要多步推理?，F(xiàn)在，這些問(wèn)題已經(jīng)被人工注釋者翻譯成10種不同的語(yǔ)言，增加了它們的多樣性和可用性。GSM8K本身是一個(gè)包含8500個(gè)高質(zhì)量數(shù)學(xué)文字問(wèn)題的集合，這些問(wèn)題語(yǔ)言多樣且旨在支持基礎(chǔ)數(shù)學(xué)問(wèn)答任務(wù)。

這個(gè)被稱(chēng)為MGSM的數(shù)據(jù)集，特別適合于開(kāi)發(fā)和評(píng)估多語(yǔ)言問(wèn)答系統(tǒng)，尤其對(duì)于教育技術(shù)領(lǐng)域具有重要意義。它不僅能夠促進(jìn)開(kāi)發(fā)能夠理解和解答多種語(yǔ)言中提出的數(shù)學(xué)問(wèn)題的AI系統(tǒng)，而且為研究者們提供了一個(gè)平臺(tái)，用于探索和提升多語(yǔ)言自然語(yǔ)言處理模型在數(shù)學(xué)問(wèn)題解答方面的性能。

7）DROP（Discrete Reasoning Over the content of Paragraphs）

DROP是由加州大學(xué)和北京大學(xué)等研究機(jī)構(gòu)共同開(kāi)發(fā)的英文閱讀理解基準(zhǔn)數(shù)據(jù)集。此數(shù)據(jù)集的設(shè)計(jì)目標(biāo)是推動(dòng)閱讀理解技術(shù)超越傳統(tǒng)的文本處理，更深入地分析文本段落。系統(tǒng)需要在理解段落內(nèi)容的基礎(chǔ)上，進(jìn)行如加法、計(jì)數(shù)和排序等離散推理操作，這些操作要求比之前的數(shù)據(jù)集更深層次的文本理解。

為了創(chuàng)建DROP數(shù)據(jù)集，研究者們采用了眾包方法，首先自動(dòng)選取Wikipedia中含有大量數(shù)字的敘事性段落，隨后利用Amazon Mechanical Turk平臺(tái)來(lái)收集問(wèn)題及其對(duì)應(yīng)的答案。在構(gòu)建問(wèn)題時(shí)，研究者們使用了具有對(duì)抗性的基線系統(tǒng)BiDAF作為參考，激勵(lì)眾包工作者提出難以被基線系統(tǒng)回答的問(wèn)題。最終形成的數(shù)據(jù)集包含了96,567個(gè)問(wèn)題，覆蓋了Wikipedia上的眾多主題，尤其是體育比賽摘要和歷史段落，對(duì)閱讀理解技術(shù)的深入性和廣泛性提出了新的挑戰(zhàn)。

8）BIG-Bench Hard (Broad Impact General Benchmark Hard)

BIG-Bench是由Google、OpenAl等研究者共同開(kāi)發(fā)，旨在通過(guò)一系列多樣化的任務(wù)來(lái)全面評(píng)估大語(yǔ)言模型的性能。BIG-Bench包含了超過(guò)200個(gè)任務(wù)，這些任務(wù)涵蓋了文本理解、推理、邏輯推理、數(shù)學(xué)推理和常識(shí)推理等多個(gè)領(lǐng)域。任務(wù)類(lèi)型包括機(jī)器翻譯、文本分類(lèi)、序列標(biāo)注、抽取式摘要、信息檢索、表格解讀、數(shù)理推理、常識(shí)推理、多模態(tài)推理、規(guī)劃和數(shù)學(xué)問(wèn)題解答等。

而B(niǎo)BH則是在BIG-Bench數(shù)據(jù)集的一個(gè)子集，專(zhuān)注于23個(gè)最具有挑戰(zhàn)性的任務(wù)，這些任務(wù)超出了當(dāng)前語(yǔ)言模型的能力范圍。BBH中的任務(wù)需要進(jìn)行多步驟推理。

9）MMMU（Massive Multi-discipline Multi-modal Understanding & Reasoning）

MMMU是一個(gè)為大學(xué)級(jí)多學(xué)科多模態(tài)理解和推理設(shè)計(jì)的綜合測(cè)試基準(zhǔn)。它的問(wèn)題來(lái)源于大學(xué)考試、測(cè)驗(yàn)和教科書(shū)，涵蓋六個(gè)常見(jiàn)學(xué)科：藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)以及技術(shù)與工程。MMMU由11.5K個(gè)精心選擇的多模式問(wèn)題組成，涵蓋30個(gè)不同科目和183個(gè)子領(lǐng)域，從而達(dá)到廣度目標(biāo)。此外，MMMU中的許多問(wèn)題需要專(zhuān)家級(jí)的推理，例如應(yīng)用“傅立葉變換”或“平衡理論”來(lái)推導(dǎo)解，從而達(dá)到深度目標(biāo)。

MMMU還提出了當(dāng)前基準(zhǔn)測(cè)試中沒(méi)有的兩個(gè)獨(dú)特挑戰(zhàn)。首先，它涵蓋了各種圖像格式，從照片和繪畫(huà)等視覺(jué)場(chǎng)景到圖表和表格，測(cè)試了LMM的感知能力。其次，MMMU具有交錯(cuò)文本圖像輸入的特征。模型需要共同理解圖像和文本，這通常需要回憶深刻的主題知識(shí)，并根據(jù)理解知識(shí)進(jìn)行復(fù)雜的推理以達(dá)成解決方案。

MMMU包含11.5K個(gè)多模式問(wèn)題，涵蓋六個(gè)廣泛的學(xué)科、30個(gè)科目和183個(gè)子領(lǐng)域，每個(gè)學(xué)科的MMMU樣本。這些問(wèn)題和圖像需要專(zhuān)家級(jí)的知識(shí)來(lái)理解和推理。

MMMU作為評(píng)估LMM（多模態(tài)大模型）能力的基準(zhǔn)的開(kāi)發(fā)標(biāo)志著邁向AGI之旅中的一個(gè)重要里程碑。MMMU不僅測(cè)試了當(dāng)前LMM在基本感知技能方面所能達(dá)到的極限，還評(píng)估了它們處理復(fù)雜推理和深入的特定主題知識(shí)的能力。這種方法直接有助于我們理解專(zhuān)家AGI的進(jìn)展，因?yàn)樗从沉瞬煌瑢?zhuān)業(yè)領(lǐng)域的熟練成年人所期望的專(zhuān)業(yè)知識(shí)和推理能力。

盡管MMMU具有全面性，但與任何基準(zhǔn)一樣，它也并非沒(méi)有局限性。人工測(cè)試過(guò)程雖然徹底，但可能存在偏見(jiàn)。同時(shí)，對(duì)大學(xué)水平科目的關(guān)注可能也不是對(duì)AGI的充分測(cè)試和評(píng)估。然而MMMU會(huì)激勵(lì)A(yù)I社區(qū)建立更多，更全面的面向?qū)＜彝ㄓ萌斯ぶ悄艿南乱淮嗄Ｊ交鶞?zhǔn)模型。

2. 主流大模型測(cè)試結(jié)果（Claude3、GPT-4、Gemini）

目前主流大模型的發(fā)布都會(huì)以一系列評(píng)估工具和數(shù)據(jù)集作為測(cè)試基準(zhǔn)，并公開(kāi)有利于自己的測(cè)試成績(jī)。下圖是Anthropic公司發(fā)布的Claude3系列的最新測(cè)試報(bào)告。

在以上這份測(cè)試報(bào)告中，展示了包括Claude 3系列模型（Opus、Sonnet、Haiku），GPT系列模型（GPT-4、GPT-3.5）,Gemini系列模型（1.0Ultra、1.5Pro、1.0Pro）在內(nèi)的多個(gè)人工智能大模型在不同測(cè)試基準(zhǔn)任務(wù)上的成績(jī)。

在MMLU測(cè)試中，Claude 3 Opus以86.8%的成績(jī)表現(xiàn)最佳，與GPT4在一個(gè)水平，其次是Gemini 1.0Ultra。在5-shot和0-shot的Chain of Thought (CoT)解題推理鏈中，由于GPT和Gemini系列沒(méi)有測(cè)試，無(wú)法比較。但Claude 3 Opus以88.2%的正確率顯示其在一般推理能力方面的強(qiáng)大。

在MATH能力方面，Claude 3 Opus在0-shot條件下得到61%的準(zhǔn)確率，超過(guò)其他所有模型。在經(jīng)過(guò)少量示例（4-shot）學(xué)習(xí)后，Opus的表現(xiàn)也是所有模型中最好的。

在小學(xué)和初中數(shù)學(xué)（GSM8K）測(cè)試中，Opus同樣位居榜首，準(zhǔn)確率達(dá)到95.0%，顯示其在數(shù)學(xué)問(wèn)題解決方面有卓越的能力。此外，Opus在多語(yǔ)言數(shù)學(xué)測(cè)試（MGSM）中也展示了其強(qiáng)大的多語(yǔ)言能力。

在Python編碼任務(wù)（HumanEval）中，Opus的成績(jī)?yōu)?4.9%，這表明了其在理解和生成代碼方面的能力。

在研究生水平的問(wèn)題和回答（GPQA）測(cè)試中，Opus的5-shot CoT得分是50.4%，明顯高于其他所有模型，表明其在高級(jí)推理能力方面的優(yōu)勢(shì)。

在多語(yǔ)言數(shù)學(xué)（MGSM）測(cè)試中，Opus的成績(jī)是90.7%，進(jìn)一步證實(shí)了其在多語(yǔ)言處理和數(shù)學(xué)問(wèn)題解決上的能力。

在閱讀理解和算術(shù)（DROP）測(cè)試中，Opus得分為83.1，再次領(lǐng)先。

最后，在混合評(píng)估的BIG-Bench-Hard測(cè)試中，Opus的表現(xiàn)同樣是最好的。

總體而言，測(cè)試結(jié)果顯示Claude 3系列中的Opus模型在各項(xiàng)任務(wù)上均表現(xiàn)優(yōu)異，尤其是在高級(jí)推理和數(shù)學(xué)問(wèn)題解決方面，其性能超越了GPT-3及Gemini系列。這些結(jié)果揭示了Opus在多方面任務(wù)的應(yīng)用潛力，尤其是在需要復(fù)雜推理和深度理解的場(chǎng)景中。

當(dāng)然，由于Claude 3系列的測(cè)試報(bào)告是在GPT-3及Gemini系列之后發(fā)布，同時(shí)，也并非是第三方測(cè)試，而各商業(yè)大模型都會(huì)選擇有利于自己的評(píng)價(jià)方法和數(shù)據(jù)集，其測(cè)試公正性有待商榷。同時(shí)，以人類(lèi)答題水平作為比對(duì)基準(zhǔn)的這種“小鎮(zhèn)做題家”式的測(cè)試，本質(zhì)上離AGI還有相當(dāng)大的距離。

3. 主流大模型MMMU測(cè)試結(jié)果

由于常規(guī)大模型在單模態(tài)和單一測(cè)試數(shù)據(jù)集的表現(xiàn)并不能充分表現(xiàn)其在AGI方面的真實(shí)水平。因此，IN.AI Research，滑鐵盧大學(xué)，俄亥俄州立大學(xué)，獨(dú)立大學(xué)，卡內(nèi)基梅隆大學(xué)，維多利亞大學(xué)，普林斯頓大學(xué)等研究機(jī)構(gòu)聯(lián)合發(fā)布了MMMU測(cè)試數(shù)據(jù)集與主流多模態(tài)大模型的測(cè)試結(jié)果。

從該測(cè)試報(bào)告來(lái)看，即使是先進(jìn)的GPT-4V和Gemini Ultra商業(yè)大模型也只能分別達(dá)到56%和59%的準(zhǔn)確率，這表明大模型在大規(guī)模多學(xué)科多模式理解與推理上的還有很大的改進(jìn)空間。

四、目前大模型的局限與缺陷

1. 理解和推理的限制

大模型生成的回答可能看起來(lái)合理，但它并不真正“理解”內(nèi)容。它基于模式識(shí)別生成文本，這可能導(dǎo)致理解上的誤差或邏輯上的錯(cuò)誤，尤其是在處理復(fù)雜的推理或需要深入專(zhuān)業(yè)知識(shí)的主題時(shí)。而人類(lèi)在知識(shí)理解中更多的是靠文字、圖像、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等多感官系統(tǒng)相互映射、推理、驗(yàn)證和聯(lián)想，并非只依靠單模態(tài)的理解。

2. 數(shù)據(jù)偏差和不準(zhǔn)確性

大模型的回答質(zhì)量和準(zhǔn)確性完全依賴(lài)于其前期訓(xùn)練數(shù)據(jù)，如果訓(xùn)練數(shù)據(jù)存在偏見(jiàn)或錯(cuò)誤，其生成的內(nèi)容也可能反映這些偏見(jiàn)或包含錯(cuò)誤信息。雖然，人類(lèi)的思維也依靠自身成長(zhǎng)過(guò)程的信息處理和訓(xùn)練，但人類(lèi)思維訓(xùn)練的成果并非是靜態(tài)的知識(shí)積累，而是建立了一套動(dòng)態(tài)的思維和理解模式。這也是人類(lèi)可以快速準(zhǔn)確的處理新知識(shí)，并能準(zhǔn)確糾正認(rèn)知錯(cuò)誤的關(guān)鍵。

3. 創(chuàng)造性和新穎性的限制

雖然大模型可以生成新穎的文本內(nèi)容，但它的“創(chuàng)造性”受限于其訓(xùn)練數(shù)據(jù)范圍內(nèi)的模式組合。其產(chǎn)生的“新穎性”更多是依靠回歸模型中的文字組合預(yù)測(cè)，其并不能超出訓(xùn)練數(shù)據(jù)的語(yǔ)意范圍。這也是大模型生成的文章更有明顯的成文范式和普適性，會(huì)讓人初讀驚艷、細(xì)讀乏味。大模型的文字創(chuàng)造力更像百科全書(shū)的知識(shí)集合，而對(duì)專(zhuān)業(yè)領(lǐng)域的創(chuàng)造力由于訓(xùn)練數(shù)據(jù)的缺失，也無(wú)法實(shí)現(xiàn)更有成效的語(yǔ)言創(chuàng)造。

4. 情境和上下文的理解

盡管大模型能處理一定的上下文信息，但它在理解復(fù)雜或長(zhǎng)期的上下文方面表現(xiàn)不佳。它難以跟蹤長(zhǎng)對(duì)話中的線索或維持長(zhǎng)篇文章的連貫性。例如在長(zhǎng)對(duì)話中，大模型可能會(huì)逐漸失去對(duì)早期提到的信息的跟蹤。

這是因?yàn)榇竽Ｐ陀洃洐C(jī)制有限，不能像人類(lèi)那樣靈活地回顧和引用過(guò)去的討論內(nèi)容；在生成長(zhǎng)篇文章時(shí)，保持主題一致性和邏輯連貫性可能是一個(gè)挑戰(zhàn)。大模型可能在文章較長(zhǎng)時(shí)開(kāi)始重復(fù)或偏離主題；對(duì)于需要深度推理或廣泛背景知識(shí)的復(fù)雜問(wèn)題，大模型可能無(wú)法完全理解所有的細(xì)節(jié)和潛在聯(lián)系，特別是在需要綜合多方面知識(shí)的情況下。

5. 無(wú)法自主學(xué)習(xí)和適應(yīng)

當(dāng)前的大模型并不能主動(dòng)學(xué)習(xí)或適應(yīng)新信息，它的知識(shí)僅限于訓(xùn)練數(shù)據(jù)截止時(shí)的狀態(tài)。這意味著大模型無(wú)法自行更新或改變已經(jīng)學(xué)習(xí)或訓(xùn)練完成的成果。如果出現(xiàn)新的事實(shí)、發(fā)現(xiàn)或文化變化，除非通過(guò)新的訓(xùn)練數(shù)據(jù)更新模型，否則無(wú)法反映這些變化。

這種設(shè)計(jì)的目的是能確保輸出的一致性和可預(yù)測(cè)性，同時(shí)防止模型從不可靠的數(shù)據(jù)源學(xué)習(xí)和輸出無(wú)法預(yù)測(cè)的信息。但正是這種設(shè)計(jì)的局限性限制了大模型向人類(lèi)一樣的學(xué)習(xí)和思考。

五、結(jié)論

目前，在科學(xué)界和產(chǎn)業(yè)界中，關(guān)于何時(shí)能實(shí)現(xiàn)人工通用智能（AGI）的預(yù)測(cè)存在顯著差異，這反映了不同人士對(duì)未來(lái)AI技術(shù)進(jìn)展的不同觀點(diǎn)和期望。

一些科技企業(yè)領(lǐng)袖和AI研究者對(duì)AGI的到來(lái)持樂(lè)觀態(tài)度。例如，DeepMind的創(chuàng)始人Demis Hassabis認(rèn)為，在未來(lái)十年內(nèi)實(shí)現(xiàn)AGI是有可能的。而OpenAI的首席執(zhí)行官Sam Altman，更是預(yù)測(cè)AGI可能在大約五年內(nèi)成為現(xiàn)實(shí)。多位AI研究者和思想家，包括Geoffrey Hinton和Ray Kurzweil，預(yù)測(cè)AGI將在未來(lái)幾十年內(nèi)到來(lái)，具體時(shí)間從5年到20年不等。

在更廣泛的科學(xué)研究社區(qū)中，預(yù)測(cè)的時(shí)間則更為保守。一項(xiàng)由Muller和Bostrom進(jìn)行的調(diào)查顯示，參與者普遍認(rèn)為到2040年有50%的可能性實(shí)現(xiàn)AGI，到2075年則有90%的可能性。這項(xiàng)調(diào)查還表明，大多數(shù)專(zhuān)家預(yù)計(jì)在AGI實(shí)現(xiàn)后的30年內(nèi)，超級(jí)智能（大大超過(guò)人類(lèi)智能的AI）的出現(xiàn)概率為75%。近期在Linux 基金會(huì)主辦的北美開(kāi)源峰會(huì)上Linux創(chuàng)始人Linus Torvalds則表達(dá)了對(duì)目前AI炒作的懷疑態(tài)度，并建議等待十年再評(píng)估AI的實(shí)際發(fā)展情況。

Yann LeCun認(rèn)為，目前依賴(lài)于大規(guī)模數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的人工智能模型，如GPT和其他大型語(yǔ)言模型，不太可能實(shí)現(xiàn)真正的普適人工智能。LeCun更傾向于開(kāi)發(fā)能夠理解和推理的AI系統(tǒng)，類(lèi)似于人類(lèi)和動(dòng)物的方式。他提出了一種新的架構(gòu)，即“聯(lián)合嵌入預(yù)測(cè)架構(gòu)”（JEPA），旨在通過(guò)自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練模型，使其能夠生成和理解高層次的抽象表示。

LeCun特別強(qiáng)調(diào)了通過(guò)訓(xùn)練AI系統(tǒng)理解世界的模型（世界模型），該模型能夠預(yù)測(cè)并作出決策，而不僅僅是響應(yīng)外部輸入。這種方法的目標(biāo)是創(chuàng)建一個(gè)能夠理解環(huán)境并據(jù)此行動(dòng)的AI，從而更接近人類(lèi)的思維方式。強(qiáng)化學(xué)習(xí)之父Richard Sutton教授更看好Yann LeCun的世界模型理念，并將其視為實(shí)現(xiàn)AGI的關(guān)鍵途徑。

而筆者認(rèn)為，依靠海量數(shù)據(jù)擬合回歸訓(xùn)練的AI大模型與人類(lèi)進(jìn)化形成的認(rèn)知推理有本質(zhì)上的差異。當(dāng)前的大模型是將海量的人類(lèi)歷史認(rèn)知成果，擬合為一套普適認(rèn)知模型。數(shù)據(jù)擬合過(guò)程必然忽略掉差異性，而更傾向于普適性和過(guò)度擬合。

“小鎮(zhèn)做題家”式的大模型競(jìng)賽并不能為人類(lèi)進(jìn)步提供實(shí)際幫助，而人類(lèi)的進(jìn)化與文明發(fā)展恰恰是依靠少量偶發(fā)認(rèn)知差異性實(shí)現(xiàn)的。第一只下樹(shù)和站立的古猿，第一個(gè)走出非洲、使用火、使用工具的古人類(lèi)，和為人類(lèi)科技進(jìn)步前仆后繼獻(xiàn)出生命的里程碑人物，無(wú)不是人類(lèi)歷史長(zhǎng)河中的異類(lèi)，如果通過(guò)擬合共性而忽視個(gè)性，大模型的知識(shí)推理必然陷入認(rèn)知陷阱。

因此，我們需要更加理性地看待AGI的發(fā)展，警惕泡沫化風(fēng)險(xiǎn)，未來(lái)AGI發(fā)展應(yīng)該朝著數(shù)據(jù)分散、模型多元、推理協(xié)同、認(rèn)知共享的方向發(fā)展，保留認(rèn)知推理中的個(gè)性才能促進(jìn)AGI技術(shù)的健康和可持續(xù)發(fā)展。

參考文獻(xiàn)

Team G, Anil R, Borgeaud S, et al. Gemini: a family of highly capable multimodal models[J]. arXiv preprint arXiv:2312.11805, 2023.
Assran M, Duval Q, Misra I, et al. Self-supervised learning from images with a joint-embedding predictive architecture[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15619-15629.
Hinton G. How to represent part-whole hierarchies in a neural network[J]. Neural Computation, 2023, 35(3): 413-452.
Yue X, Ni Y, Zhang K, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi[J]. arXiv preprint arXiv:2311.16502, 2023.

專(zhuān)欄作家

黃銳，人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師、資深產(chǎn)品經(jīng)理、多家大型互聯(lián)網(wǎng)公司顧問(wèn)，金融機(jī)構(gòu)、高?？妥芯繂T。主要關(guān)注新零售、工業(yè)互聯(lián)網(wǎng)、金融科技和區(qū)塊鏈行業(yè)應(yīng)用版塊，擅長(zhǎng)產(chǎn)品或系統(tǒng)整體性設(shè)計(jì)和規(guī)劃。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App