2028年第一個AGI將到來?谷歌DeepMind提6條AGI標準,定義5大AGI等級

0 評論 3610 瀏覽 2 收藏 28 分鐘

人類什么時候可能開發出第一個AGI?關于這個問題,DeepMind創始人Shane Legg帶領的研究團隊發表了一篇關于AGI時間表的論文,論文中給出了AGI的路線圖和時間表。一起來看看本文的分享吧。

人類距離第一個AGI的出現已經越來越近了!

DeepMind聯合創始人,首席AGI科學家Shane Legg在不久前的訪談中認為,2028年,人類有50%的概率開發出第一個AGI。

而就在今天,他帶領的DeepMind研究團隊在Arxiv上公布了一篇論文,直接放出了AGI的路線圖和時間表。

論文地址:https://arxiv.org/abs/2311.02462

雖然論文主題感覺很大很空,但是網友認為文章很好的定義了AGI,避免了以后各種雞同鴨講的討論。

研究團隊認為,從性能強度和通用性兩個維度,可以將人類和AI的關系劃分為5個階段,而現在大語言模型的出現,正屬于第一個通用AI的階段:AGI雛形。

以OpenAI的ChatGPT,谷歌Bard,Meta的Llama為代表的大模型,已經在通用性上展示出了AGI的潛力。

因為大語言模型已經能完成范圍相當廣的各類任務,而且表現出了像學習新技能這樣的「元認知」能力。

而如果單從AI的性能維度上看,「窄AI(Narrow AI)」類型的AI已經達到了完全超越人類認知的水平。

以AlphaFold,AlphaZero為代表的專業領域AI,在特定領域已經能發現人類智力無法發現的新事物了。研究團隊將其稱為「超人類窄AI」。

而和人類相比,在某個領域達到99%的人類的水平,比如在棋類競技中能夠戰勝人類頂尖大師的「深藍」和AlphaGo,就屬于這一類。研究團隊將它們稱為「大師級窄AI」。

而在某些領域,AI能達到90%的人類水平,比如文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。研究團隊將其稱為「專家級窄AI」。

在特定領域,能達到普通人的平均水平,比如Siri,谷歌助手這類普通智能助理。研究團隊將其稱為「普通窄AI」。

而在這四個窄AI已經覆蓋的能力維度上,通用AI都還沒有出現對應的實例。

而進一步,因為目前還沒有出現真正意義上的AGI,對于AGI的定義,人類還沒有達到統一的認知。

所以論文中還提供了定義AGI的6個準則:

  1. 關注能力而非過程。AGI定義應該關注一個系統能達到的效果,而不是實現這些效果的內在機制。
  2. 關注通用性和性能。AGI定義應同時考量通用性和性能這兩個維度。
  3. 關注認知和元認知任務。AGI的定義應關注認知任務,以及元認知能力如學習新技能。不需要作為前提要求。
  4. 關注潛能而非部署。理論上證明系統能完成某類任務就可認為它具備AGI潛能,不需要一定要實際部署。
  5. 關注真實場景。用于AGI測評的任務應考慮真實場景的適用性,而不僅是容易量化的指標。
  6. 關注通向AGI的路徑,而非單一目標。AGI定義應采用分級方式,考慮不同水平的路徑,而不僅是最終目標。

在論文的最后一個部分,作者還提出了對于未來可能出現的AGI的測評與風險評估問題。

在作者看來,需要考慮人類與AGI的互動模式,僅看模型能力來評估AGI是非常片面的。

具體來說,AGI的能力不同于AGI的自主性。隨著AGI能力的增強,會解鎖更高級的人機互動模式,但不意味著就必須給予AGI最大的自主性。

在這個技術之上,作者提出了6種人機互動模式:無AI、AI工具、AI顧問、AI協作者、AI專家、AI智能體。

不同的人機互動模式需要不同的AGI能力作為前提,比如AI智能體可能需要AI能力達到專家或者超人類AI級別,才能更好地完成這個互動模式處理的任務。

人機互動模式本身會引入不同類型的風險。例如AI智能體具有最高的自主性,但同時也引入了最大風險。

因此,AGI的風險評估需要同時考慮模型能力和人機互動模式。合理的互動模式選擇有助于AGI系統的負責任部署。

人機互動研究需要與模型能力提升保持同步,以支持對AGI系統的安全且有效的利用。

一、AGI,黎明還是黃昏?

從1955年達特茅斯人工智能會議開始 ,人類就朝著實現「真正的智能」這顆北極星曲折前進,途中也經過了不同的道路。

AGI的概念與對人工智能進步的預測有關,它正在朝著更大的普遍性發展,接近并超越人類的普遍性。

此外,AGI通常與「涌現」一詞交織在一起,有能力實現開發人員未明確預期的功能。這種能力使新型互動或新行業成為可能。

AGI可能產生重大的經濟影響——我們是否達到了廣泛勞動力替代的必要標準?

AGI還可能帶來與經濟優勢有關的其他方面的影響。

同樣,我們也應該通過評估AGI的水平來預防她帶來的風險。

正如一些人推測的那樣,AGI系統可能能夠欺騙和操縱、積累資源、推進目標、代理行為,并遞歸地自我改進,最終在廣泛的領域中取代人類。

所以,對于人工智能研究界來說,明確反思我們所說的「AGI」的含義,并量化人工智能系統的性能、通用性和自主性等屬性至關重要。

我們必須理解自己在AGI道路上所處的位置。

二、AGI案例分析

首先,我們應當考慮如何正確定義AGI,也許可以從一些案例中獲得啟發。

案例1:圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實踐的最知名的嘗試。圖靈的「模仿游戲」被認為是一種將機器是否可以思考的問題操作化的方法。

鑒于現代LLM通過了圖靈測試的一些框架,很明顯,這個標準不足以作為評估AGI的基準。

我們同意圖靈的觀點,機器是否可以「思考」確實是一個有趣的哲學和科學問題,

但機器能做什么的問題顯然對于評估影響更重要,也更易于衡量。因此,AGI應該根據能力而不是過程來定義。

案例2:與人腦的類比「通用人工智能」一詞的最初使用是在1997年馬克·古布魯德撰寫的一篇關于軍事技術的文章中,該文章將AGI定義為「在復雜性和速度上與人腦相媲美或超過人腦的人工智能系統」。

雖然現代ML系統背后的神經網絡架構松散地受到人腦的啟發,但基于transformer的架構的成功表明,嚴格的基于大腦的過程和基準對于AGI來說并不是必要的。

案例3:學習任務的能力。在《技術奇點》中,沙納漢認為,AGI是「人工智能」,它不是專門用于執行特定任務的,而是可以學習執行與人類一樣廣泛的任務。該框架的一個重要特性是它強調將元認知任務(學習)納入實現AGI的要求中的價值。

案例4:具有經濟價值的工作。OpenAI的章程將AGI定義為「高度自主的系統,在最具經濟價值的工作中表現優于人類」。

這個定義側重于與底層機制無關的性能,并且提供了潛在的衡量標準,即經濟價值。

但問題在于,有許多與智力相關的任務可能沒有明確的經濟價值(例如,藝術創造力或情商)。

而且,我們很可能擁有在技術上能夠執行經濟上重要任務的系統,但由于各種原因(法律、道德、社會等)而沒有意識到這種經濟價值。

案例5:馬庫斯認為AGI是「任何智能的簡寫,具有與(或超越)人類智能相當的足智多謀和可靠性」。

他通過提出五項具體任務(理解一部電影、理解一本小說、在任意廚房做飯、編寫一個無錯誤的10000行程序以及將自然語言數學證明轉換為符號形式)來實施他的定義。

案例6:Agüera y Arcas和Norvig認為最先進的LLM已經是AGI,而通用性是AGI的關鍵屬性。

由于語言模型可以討論廣泛的主題、執行廣泛的任務、處理多模態輸入和輸出, 以多種語言操作,并從零樣本或少樣本示例中「學習」,它們已經達到了足夠的通用性。

三、AGI六大準則

通過對以上幾個案例的思考,作者為AGI的定義制定了以下六個標準:

第一條:關注能力,而不是流程。大多數定義關注的是AGI可以完成什么,而不是它完成任務的機制。

這對于識別不一定是實現AGI的先決條件的特征非常重要。

因為,實現AGI并不意味著系統以類似人類的方式思考或理解;也并不意味著系統具有意識或感知等。

第二條:注重通用性和性能。上述所有定義都在不同程度上強調普遍性,另外,性能也是AGI的關鍵組成部分。

第三條:專注于認知和元認知任務。

人工智能系統的物理能力似乎落后于非物理能力。作者認為,執行物理任務的能力增加了系統的通用性,但不應被視為實現AGI的必要先決條件。

另一方面,元認知能力(例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力)是系統實現通用性的關鍵先決條件。

第四條:關注潛力,而不是部署。因為要求部署作為衡量AGI的條件會帶來非技術障礙,例如法律和社會考慮,以及潛在的道德和安全問題。

第五條:注重生態效度。這里強調選擇與人們重視的現實世界(即生態有效)任務相一致的任務的重要性(廣義地解釋價值,不僅作為經濟價值,還包括社會價值、藝術價值等)。

最后一條:專注于AGI的路徑,而不是單個端點。作者將AGI的每個級別與一組明確的指標相關聯,并且每個級別引入已識別風險,以及由此產生的人機交互范式的變化。

四、AGI水平定義

作者給出如下表格,清晰地提出了一種分類或者說評估方法,規定了達到給定評級所需的大多數任務的最低性能。

為便于理解,這里將下表中的后五類翻譯為:入門、普通、專家、大師和超人級別。

比如,在大多數認知任務中,有能力的AGI必須至少達到熟練成年人的平均水平,但在任務子集上可能具有專家、大師甚至超人的表現。

舉個例子,截至2023年9月撰寫本文時,前沿語言模型(例如,ChatGPT、Bard、Llama2等)在某些任務(例如,短文寫作、簡單編碼)中表現出「普通」的性能水平,但對于大多數任務(例如, 數學能力,涉及事實性的任務)來說,僅表現出「入門」的性能水平。

因此,總體而言,當前的前沿語言模型將被視為1級通用AI,當更廣泛的任務的性能水平提高時,就可以達到2級通用AI的門檻。

另外需要注意的是,在特定認知領域獲得更強技能的順序可能會對人工智能安全產生嚴重影響。

例如,在獲得強大的道德推理技能之前獲得強大的化學工程知識可能是一個危險的組合。

雖然該分類法根據系統的性能對系統進行評級,但能夠達到一定性能水平的系統在部署時可能不匹配此級別。

以DALL·E 2為例,因為DALL·E 2產生的圖像質量比大多數人能夠繪制的更好,所以可以評估為「專家」級別的性能。然而該系統存在故障模式,使其無法獲得「大師」的稱號。所以可以將其估計為分類法中的3級窄AI(「專家級窄AI」)。

在上面的表格中,作者引入了一個矩陣式調平系統,該系統側重于性能和通用性,這是AGI的兩個核心維度。

就綜合性能和通用性而言,矩陣中的最高級別是ASI(人工超級智能)。而「超人」的表現意味著100% 優于人類。

例如,這里假設AlphaFold是5級窄AI (「超人級窄AI」),因為它執行的單項任務(從氨基酸序列預測蛋白質的3D結構)高于世界頂級科學家的水平。

該定義意味著5級通用AI (ASI) 系統將能夠以人類無法比擬的水平完成廣泛的任務。

五、AGI測試

在作者的方案中,人工智能系統必須掌握多大比例的此類任務才能達到給定的通用性水平?是否有一些任務(如元認知任務)必須始終執行才能達到某些通用性級別的標準?

要實現AGI定義的可操作性,就必須回答這些問題,并開發出具體的多樣化和具有挑戰性的任務。

鑒于這一過程的巨大復雜性,以及納入廣泛視角(包括跨組織和多學科觀點)的重要性,作者在本文中并未提出一個基準。

相反,作者致力于澄清基準應嘗試衡量的本體。作者還討論了AGI基準應具備的屬性。

AGI基準將包括一套廣泛的認知和元認知任務(根據原則3),測量包括(但不限于)語言智能、數學和邏輯推理、空間推理、人際和人內社交智能、學習新技能的能力和創造力在內的各種特性。

基準可能包括心理學、神經科學、認知科學和教育學中的智能理論所提出的心理測量類別測試。

但是,必須首先評估這些 「傳統 」測試是否適合用于計算系統基準測試,因為在這種情況下,許多測試可能缺乏生態和構造有效性。

基準性能的一個未決問題是,是否允許使用工具(包括可能由人工智能驅動的工具)作為人類性能的輔助工具。

這一選擇最終可能取決于任務,并應在基準選擇中考慮生態有效性(原則5)。

例如,在確定自動駕駛汽車是否足夠安全時,與一個沒有任何現代人工智能輔助安全工具的人進行比較,并不是最有參考價值的比較。

因為相關的反事實涉及到一些駕駛輔助技術,作者可能更傾向于與該基線進行比較。

或交互式任務,這些任務可能需要定性評估。作者猜測,后幾類復雜的開放式任務雖然難以確定基準,但其生態有效性將優于傳統的人工智能指標,或優于經過調整的傳統人類智能指標。

AGI所能完成的全部任務是不可能一一列舉的。因此,人工智能基準應該是一個活的基準。因此,這種基準應包括一個生成和確定新任務的框架。

要確定某物在特定水平上不是一個AGI,只需找出人們通??梢酝瓿傻到y無法充分執行的5項任務即可。

在特定性能級別(「雛形」、「普通」等)上通過大部分設想的AGI基準測試的系統,包括測試人員添加的新任務,可以被假定為具有相關的通用性級別(即,盡管在理論上AGI仍有可能無法通過測試,但在某些時候,未通過測試的情況會變得非常專業或非典型,以至于實際上無關緊要)。

制定AGI基準將是一個具有挑戰性的迭代過程。盡管如此,它仍是人工智能研究領域的一個北斗星級別的目標。

對復雜概念的衡量可能并不完美,但衡量的行為有助于我們清晰地定義目標,并提供一個衡量進展的指標。

六、關于AGI風險的討論

關于人工智能的討論通常包括對風險的討論。

采用分層的方法來定義人工智能,可以更細致地討論性能和通用性的不同組合如何與不同類型的人工智能風險相關聯。

當我們沿著人工智能的能力水平前進時,會引入新的風險,包括誤用風險、調整風險和結構風險。

例如,「專家級人工智能 」水平很可能涉及與經濟混亂和工作崗位轉移相關的結構性風險,因為越來越多的行業達到了機器智能替代人類勞動力的門檻。另一方面,達到 「專家級AGI 」可能會減輕 「AGI雛形 」和 「普通級AGI 」帶來的一些風險,如任務執行錯誤的風險。

在 「大師級人工智能 」和 「專家級人工智能」級別中,最有可能出現許多與x風險有關的問題(例如,人工智能可以在各種任務中超越人類操作員,但可能會欺騙人類操作員以實現錯誤的目標,如錯誤對齊思想實驗)。

如果不同級別之間的進展速度超過了監管或外交的速度(例如,第一個實現人工智能的國家可能會擁有巨大的地緣政治/軍事優勢,從而產生復雜的結構性風險),那么國際關系不穩定等系統性風險可能會成為一個令人擔憂的問題。

「專家型人工智能」(如 「新興人工智能」、「勝任型人工智能 」和所有 「狹義 」人工智能類別),風險可能更多來自人類行為(如人工智能誤用風險,無論是意外、偶然還是惡意)。

對與每個級別相關的風險概況進行更全面的分析,是制定AGI分類法的關鍵一步,可以為安全/倫理研究和政策制定提供指導。

1. 能力和自主性

雖然能力為人工智能風險提供了先決條件,但人工智能系統(包括AGI系統)不會也不會在真空中運行。

相反,人工智能系統是與特定界面一起部署的,用于在特定場景中完成特定任務。

這些背景屬性(界面、任務、場景、最終用戶)對風險狀況有重大影響。AGI能力本身并不能決定風險方面的命運,而必須與背景細節結合起來考慮。

例如,考慮AGI系統用戶界面的承受能力。能力的不斷提高會釋放出新的交互范式,但并不能決定這些范式。

相反,系統設計者和終端用戶將確定一種人與人工智能的交互模式,這種模式將平衡包括安全性在內的各種考慮因素。作者建議用表2中描述的六個自主水平來描述人機交互范式。

這些自主水平與AGI水平相關。更高水平的自主性可通過AGI能力的提升而 「解鎖」。

圍繞人與人工智能的互動做出深思熟慮的選擇,對于安全、負責任地部署前沿人工智能模型至關重要。

要使特定的交互范式變得理想,可能需要某些方面的通用性。

例如,只有當人工智能系統在某些元認知能力(學會何時向人類尋求幫助、心智理論建模、社會情感技能)方面也表現出很強的性能時,自主性等級3、4和5(「合作者」、「專家 」和 「智能體」)才可能發揮良好的作用。

作者對第五級自主性(「作為智能體的人工智能」)的定義中隱含的意思是,這種完全自主的人工智能可以在沒有人類持續監督的情況下以一致的方式行動,但也知道何時向人類咨詢。

通過更好的任務規范、彌合流程鴻溝和產出評估來支持人類與人工智能協調的界面,是確保人機交互領域跟上與人工智能系統互動的挑戰和機遇的重要研究領域。

2. 作為風險評估框架的人機交互范式

上表2說明了AGI級別、自主級別和風險之間的相互作用。

模型性能和通用性的進步提供了更多的交互范式選擇(包括潛在的完全自主的人工智能)。

這些交互范式反過來又引入了新的風險類別。

與單獨考慮模型能力相比,模型能力和交互設計的相互作用將使風險評估和負責任的部署決策更加細致入微。

表2還提供了作者提出的六個自主級別中每個級別的具體示例。

對于每個自主水平,作者都指出了 「解鎖 」該交互范式的相應性能和通用性水平(即該范式有可能或有可能成功部署和采用的AGI水平)。

作者對 「解鎖 」水平的預測往往要求狹義人工智能系統的性能水平高于通用人工智能系統。

例如,作者認為,無論是專家級狹義人工智能還是新興人工智能,都有可能將人工智能用作顧問。

這種差異反映了這樣一個事實,即對于通用系統來說,能力發展很可能是不均衡的。

例如,一級通用人工智能(「AGI雛形」)很可能在某些子任務集上達到二級甚至三級性能。

通用人工智能能力的這種不均衡性可能會使其在執行與其特定優勢相符的特定任務時獲得更高的自主水平。

在人類使用的背景下考慮 AGI 系統,可以讓我們思考模型的進步與人類-AI 交互范式的進步之間的相互作用。

模型的進步與人與人工智能交互范式的進步之間的相互作用。模型研究的作用可以看作是幫助系統的能力沿著通往AGI的道路不斷進步,提高其性能和通用性。

這樣,人工智能系統的能力將與人類能力的重疊部分越來越大。相反,人與人工智能交互研究的作用可以被視為確保新的人工智能系統能夠為人類所用并對人類有用,從而使人工智能系統成功地擴展人類的能力。

參考資料:

https://huggingface./papers/2311.02462

編輯:潤,alan

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!