Gary Marcus:生成式AI泡沫將退,神經符號AI才是未來

2 評論 3730 瀏覽 6 收藏 24 分鐘

人工智能學者Gary Marcus近日發文稱,生成式AI可能因可靠性問題無法解決而在12個月內退去泡沫。他認為,神經符號學方法是超越LLMS局限、邁向自主AI的途徑之一,而谷歌的兩款系統驗證了可行性。

近日,人類神經科學和人工智能交叉領域的學者Gary Marcus發文,對生成式人工智能的未來做出了大膽預測:在接下來的12個月內,當前圍繞生成式人工智能的泡沫將會破裂。他認為,“生成式人工智能最根本的缺陷在于其可靠性問題”,系統仍會產生幻覺進而生成虛假信息。

Marcus近年因在神經科學和人工智能交叉領域的研究而聞名,也是“呼吁暫停研究比GPT-4更強大的AI系統訓練6個月”公開信的簽名學者之一。一直以來,Marcus都認為當前的大語言模型(LLMs)是“近似于語言使用而非語言理解”。

這位既是AI學者又有AI創業經驗的專家,將支撐生成式AI背后的大語言模型(LLMs)比作“乘法表”——GPT們能熟記表內乘法并給出正確答案,但對表外乘法的答案得靠碰運氣,更多時候因不具備自我驗證能力而給出錯誤答案。

在他看來,為了避免幻覺導致的錯誤信息,研發LLMs的公司不得不造更大的模型,塞更多的數據,但這沒有解決從根本上解決LLMs無法對自己的工作進行健全性檢查的問題。

由于有認知心理學、神經學與人工智能交叉領域的學術背景,Marcus一直倡導神經符號學人工智能——一種將神經網絡技術與邏輯學、計算機編程以及傳統人工智能中普遍應用的符號方法融入AI研究的理論,他認為這一方法是自主AI的路徑之一。

而Marcus認為,神經符號學AI因學術權威打壓、資本擔憂創新風險而無法成為AI研發的主流。不過,令Marcus欣慰的是,Google DeepMind的兩套AI系統AlphaProof和 AlphaGeometry2正驗證了神經符號學AI的可行性。在他看來,Google的方向更接近AGI的路徑。

以下是Gary Marcus《AlphaProof、AlphaGeometry、ChatGPT,為什么人工智能的未來是神經符號學?》全文編譯:

引言

生成式人工智能(Generative AI)以其標志性的聊天機器人ChatGPT為代表,已經在全球范圍內引發了廣泛的關注和想象,然而,這種熱潮可能即將退去,但不會完全消散。

曾經,“生成式AI最終將證明是無效”的觀點被視為邊緣意見,備受輕視。但如今,這一觀點已經轉變為廣泛接受的預期,每天都有新的評論在主流媒體上發表,呼應著這一看法。我堅信,在接下來的一年內,我們將目睹生成式AI泡沫的破裂,原因眾多:

  • 當前的技術方法似乎已抵達一個發展的瓶頸期
  • 缺乏那種能夠徹底改變游戲規則的殺手級應用
  • 系統仍然會產生幻覺,即在沒有確鑿依據的情況下生成虛假信息
  • 依然存在一些低級錯誤,反映出技術的不成熟
  • 沒有一家公司或技術能夠建立起持久的競爭優勢,即所謂的”護城河”

人們開始逐漸意識到上述問題。

當生成式人工智能的泡沫逐漸破裂,一些人可能會因其高估和過度炒作而感到慶幸,而另一些人則可能對其衰退感到悲哀。我本人則持有一種矛盾的情感:雖然我認為生成式AI的光環被過分夸大,但我同樣憂慮,它的衰退可能會觸發一場類似20世紀80年代中期的“AI寒冬”,那時的“專家系統”經歷了快速的崛起與跌落。

盡管如此,我確信這場即將到來的崩潰不會標志著人工智能的終極消亡。畢竟,人工智能領域牽涉到的利益關系太過深遠。

生成式AI的衰退或許會在一段沉寂之后迎來復興的曙光,它可能不再像過去一年那樣備受追捧,但新的技術革新將應運而生,它們將更為高效,能夠彌補生成式AI的不足之處。

生成式人工智能最根本的缺陷在于其可靠性問題,鑒于其固有性質,我認為這個問題永遠無法解決。在考慮生成式人工智能之后可能出現的情況之前,我們需要了解生成式人工智能的固有性質。

因此,本文將分為兩部分:第一部分是對生成式AI及其局限的直觀闡釋;第二部分則探討了可能克服這些局限的解決之道,特別是圍繞Google DeepMind近期的一項令人矚目的新成果——這是今年為數不多讓我感到振奮的AI進展之一。

一、大語言模型為何有效又為何失???

盡管我們能夠編寫大型語言模型(LLMs)的代碼,卻沒有人能夠完全理解它們的內部機制,或是預測它們在任何特定時刻的行為。部分原因在于,它們的輸出極大地依賴于其訓練數據的細節。然而,即便如此,我們仍能培養出一種基本的直覺,即便這種直覺略顯粗糙。

在某種程度上,我們可以將生成式AI比作一個查找表,就像大家熟悉的乘法表。乘法表對于其內部包含的條目非常有用,但對于表外的情況則無能為力。例如,如果你的乘法表只覆蓋到12乘以12,那么當你需要計算13乘以14時,你會發現自己束手無策,因為答案并不存在于表中。

系統性研究發現,LLMs在處理數學問題時也表現出類似的局限性,它們在處理較小的乘法問題(如四位數乘以四位數)時表現得更為出色,而在處理更大的問題(如六位數乘以六位數)時則力不從心。此外,它們在處理曾經訓練過的問題時比處理未訓練過的問題更為得心應手。

LLMs雖不是簡單的查找表——它們能夠進行一定程度的泛化——但它們與查找表的相似性足以幫助我們建立起直觀的理解。經驗一再告訴我們,LLMs在處理它們曾經遇到過的問題時,比處理新問題更為有效。當新問題在關鍵和微妙層面與舊問題不同時,它們會表現得尤其糟糕。

在眾多GPT模型的”失敗”案例中,統計學家兼機器學習專家Colin Fraser提供的許多例子最具啟發性,他喜歡用細微的變化來考驗最新模型的極限。以下是一個典型的例子:

仔細觀察不難意識到ChatGPT給出的答案明顯違背了常識,“醫生是男人的另一位父母——他的母親”完全錯誤,因為前文提到男人的母親已經去世。

為什么ChatGPT會把事情搞得這么糟?

原因在于ChatGPT系統依賴于訓練集中的傳統謎題(其查找表功能的輸入)來生成答案,但它未能深入理解問題的本質。舉例來說,ChatGPT可能曾接受過這樣的訓練案例:

一位父親和他的兒子遭遇車禍。父親當場死亡,兒子被送往最近的醫院。醫生進來大喊:“我不能給這個男孩做手術?!?/p>

“為什么不呢?”護士問。

“因為他是我的兒子,”醫生回答。

在ChatGPT錯誤引用的這個經典案例中,醫生確實是患者的母親。然而,作為一個單純的文本預測器,ChatGPT根本無法識別它記憶的答案(“孩子的母親”)在Fraser的復述中沒有意義。它沒有真正地推理(LLMs本質上并不具備這樣的能力),而是檢索了一個類似但有細微差別的問題答案,結果是錯誤的。

Fraser還探討了經典的“帶狼、山羊和卷心菜過河”的謎題,同樣的現象也會出現。經典版本如下:

一個農夫想要過一條河,并帶著一只狼、一只山羊和一顆卷心菜。

有一艘可以容納他自己的船,外加一只狼、一只山羊或一棵卷心菜。

如果狼和山羊單獨在岸邊,狼會吃掉山羊。如果山羊和卷心菜單獨在岸邊,山羊會吃掉卷心菜。

農夫怎樣才能讓狼、山羊和白菜過河呢?

這需要精心的計劃和多個步驟。

然而,當Fraser提出一個幽默的變體時,ChatGPT給出的答案在文本上類似于經典謎題的解答,但在這種情況下卻完全不適用。它提出的解決方案不僅極其低效,而且缺乏常識。

每當Fraser或其他人(比如我自己)在社交媒體上分享這樣的案例時,總會有愛好者提出自己的變體,使用不同的提示和LLMs。但結果總是一樣,一些系統能夠正確處理某些變體,但很少有系統能夠做到始終可靠??偟膩碚f,這些系統是不可靠的,這也是財富500強公司在最初的炒作后對LLMs失去了信心的原因之一。

我研究神經網絡已有30多年(這是我論文的一部分),并且從2019年開始研究LLMs。我強烈的直覺是,LLMs根本就不可能可靠地發揮作用,至少不會像去年許多人所希望的那樣以一般形式發揮作用。也許最深層次的問題是,LLMs實際上無法對自己的工作進行健全性檢查。

LLMs本質上只是下一個詞的預測器——或者,正如我曾經說過的,“超級自動完成”——沒有內在的方式來驗證它們的預測是否正確。缺乏這種檢查導致它們在算術上犯錯、犯愚蠢的錯誤、編造事實、誹謗他人等等,在從GPT-2、GPT-3到GPT-4再到最新的SearchGPT,每一個模型都是如此。用一句可能源自12-step社區的名言來說:“瘋狂的定義是一遍又一遍地做同樣的事情,并期望不同的結果?!?/p>

因此,LLMs中的任何“推理”或“計劃”都是偶然的,如果特定情況的細節足夠接近訓練集中的內容,那么它是可行的,但如果不是就會非常脆弱。正如馬克·吐溫所說,“幾乎正確的詞和正確的詞之間的區別真的很大”,這就像 “螢火蟲和閃電之間的區別”。

真正可靠的人工智能方法和偶爾通過類比存儲的示例起作用的方法之間,區別也同樣巨大。

幻覺、推理上的愚蠢錯誤以及我所說的“理解失調”,在我看來是LLMs不可避免的副產品。在某些時候,我們必須做得更好。

二、神經符號學人工智能指明了方向

鑒于大型語言模型(LLMs)不可避免地會產生幻覺,并且在本質上無法對自己的輸出進行合理性檢驗,我們實際上面臨兩種選擇:要么放棄這些模型,要么將它們融入更龐大的系統中,作為這些系統的一部分來實現更高級的推理和規劃。

這類似于成年人和年長兒童使用乘法表輔助解決乘法問題,而不是依賴它作為唯一的解決方案。

在我的整個職業生涯中,無論是在認知科學的背景下,還是專注于人工智能的研究,我都提倡采用混合方法——神經符號學AI。這種方法融合了當前流行的神經網絡技術(其設計靈感大致來源于1960年代的神經科學發現)與邏輯、計算機編程以及傳統人工智能中普遍應用的符號方法。

我們的目標是匯聚兩種方法的優勢:利用神經網絡在處理熟悉示例時的快速直覺能力(類似于丹尼爾·卡尼曼所說的系統I),同時結合顯式的符號系統,運用形式邏輯和其他推理工具進行深入分析(類似于卡尼曼的系統II)。

這正是我在2001年出版的《代數思維》一書中的核心議題。該書副標題所表達的是嘗試將連接主義(即神經網絡)與操縱符號的認知科學相結合。

然而,科學界的權力結構和學術社會學已經讓AI領域遭受了不小的損失。

在AI界,兩位極具影響力的人物(在我看來也是最具誤導性的人物) Geoffrey Hinton和Yann LeCun,多年來一直反對這種潛在的方法,并通過無休止的人身攻擊來抵制不同的聲音,盡管原因各不相同,但從未得到充分解釋。

LeCun最近對神經符號學方法表達了悲觀態度,他表示:“至少可以說,我對神經符號學方法非常懷疑。你不能使邏輯推理與基于梯度的學習兼容,因為它是離散的,不可微的?!保ㄔ谖铱磥?,這表明想象力不足,我們將在下文中討論這個問題)

Hinton則認為將符號與神經網絡結合,就像是將過時的燃氣發動機無端地附加在更先進的電動機上。他們的質疑和嘲諷在學術界引起了共鳴。Hinton還認為,符號(很大程度上是由他的曾曾祖父喬治·布爾開發的)就像燃素一樣,是一個巨大的科學錯誤。

OpenAI在很大程度上追隨了Hinton和LeCun的理念,將主要精力投入到“擴展”LLMs上,即讓模型規模越來越大,數據量越來越豐富,并盡量避免使用符號和符號規則,即便在不可避免時也將其隱藏起來。

大多數其他的大型企業和投資者也采取了相似的策略,他們更傾向于追求那些立竿見影的短期成果,而不是冒險投資于那些可能真正顛覆現有領域的創新思想。

正如Phil Libin在今天的短信中向我指出的,“AI的進步需要算法上的創新,而不僅僅是規模的擴大。為何這會引起爭議?因為算法創新是不可預測的,是民主化的?,F在的金錢主宰著一切,它急功近利,專橫跋扈。作為一個投資者,我更愿意投資一萬億美元去建造芯片工廠(并在過程中獲得一些收益),也不愿意在未來的發明上冒險?!?/p>

這種以短期投資為主的氛圍極大地限制了對真正新奇和創新思維的追求。

因此,我們發現自己陷入了一個局面,幾乎所有的主要技術公司都在制造本質上相同的產品——基于大量數據的龐大LLMs,得到的成果也幾乎如出一轍(一系列GPT-4級別的模型,它們之間幾乎沒有區別,都在與幻覺和愚蠢的錯誤作斗爭),而對其他任何事物的投資卻微乎其微。

好消息是,在這股潮流中,Google DeepMind(以下簡稱GDM)從未如此教條并以冒險精神脫穎而出,值得稱贊。不同于其他公司固守傳統,GDM始終保持著探索未知的勇氣。

讓我印象深刻的是GDM近期在國際數學奧林匹克競賽中取得的進展。他們不僅榮獲銀牌,更是以卓越成績超越了大多數人類的能力。

這一成就的背后是GDM開發的兩個先進系統:專注于定理證明的AlphaProof,以及專注于幾何問題、更新版的AlphaGeometry2。這兩個系統都是神經符號學AI的典范,它們將神經網絡的直覺力與符號推理的嚴謹性完美結合。

正如GDM明確指出,AlphaGeometry是一個結合了神經語言模型和符號推理引擎的神經符號學系統,它們協同工作,為復雜的幾何定理尋找證明。這種設計類似于人類思維中的“快速思考”與“慢速思考”,一個系統提供快速直觀的想法,另一個則進行深思熟慮、理性的分析。

今年早些時候,GDM 明確指出了AlphaGeometry的神經符號本質:AlphaGeometry是一個結合了神經語言模型和符號推理引擎的神經符號學系統,它們協同工作,為復雜的幾何定理尋找證明。這種設計類似于人類思維中的“快速思考”與“慢速思考”,一個系統提供快速直觀的想法,另一個則進行深思熟慮、理性的分析。

在描繪原始 AlphaGeometry 的圖中(新系統尚未提供,但它們看起來基本相似),你可以非常直接地在中間框中看到其“直觀”語言模型(LLM)與審議符號引擎之間的交互。

而在新的系統中,GDM進一步強化了這種交互,采用了基于Gemini、經過大量合成數據訓練的語言模型,并引入了AlphaProof這一新系統,它同樣采用了神經符號學結構,將語言模型的輸入用于在Lean證明助手系統中搜索和驗證形式證明。

盡管我對這兩個系統充滿敬意,但它們也存在一個明顯的缺陷:它們依賴于人類編碼者將奧林匹克的輸入句子翻譯成數學形式。這表明,如果沒有人類編碼者的參與,我們還不能實現真正的自主AI。

這讓我回想起我曾寫過的Doug Lenat的復雜符號系統,他在《人工智能的下一個十年》中展示了如何用符號系統解讀《羅密歐與朱麗葉》。盡管符號推理表現出色,但背后依然需要人類的翻譯工作。

盡管存在爭議,GDM的最新成就卻是對概念驗證的一次有力展示!它證明了神經網絡與符號系統的結合不僅可行,而且能夠取得顯著成果,這與Hinton和LeCun的懷疑態度形成了鮮明對比。

谷歌DeepMind已經勇敢地邁出了這一步,盡管還有許多其他研究者也在這一領域取得了進展,但GDM的成果無疑是其中最引人注目的。

Doug Lenat,以其開創性的常識知識庫Cyc而聞名,是人工智能領域真正的思想巨人。他對推理的微妙性和挑戰有著深刻的理解,遠超許多當代AI研究者。去年夏天,我有幸與Doug合作,完成了他生前最后一篇論文,題為《從生成式人工智能到可信賴人工智能:LLMs可能從Cyc學到什么》。

在這篇論文中,我們探討了神經符號學人工智能的潛力,并在文末提出了五種將符號系統集成的方法。AlphaProof和AlphaGeometry2正是我們討論的第一種方法的體現,它們利用類似于Cyc這樣的正式系統來審查由LLMs生成的解決方案。

我們還提出了使用像Cyc這樣的符號系統作為真理的源泉,引導LLMs朝著正確性發展。事實上,這種方法已經在為AlphaProof和AlphaGeometry2生成合成數據時得到了應用,雖然不是直接使用Cyc,但采用了在關鍵方面與Cyc類似的系統。

盡管如此,神經符號學方法的發展空間仍然巨大。正如我在其他場合所強調的,神經符號學本身并非萬能鑰匙或靈丹妙藥。我們還需要更多的基礎建設,包括知識基礎設施的構建,以及從文本和視頻等輸入中派生出認知模型的方法。但這些步驟對于我們走向更遙遠的旅程是必不可少的。

歸根結底,期望AI在沒有符號操作的“系統II”機制下實現通用人工智能(AGI),無異于期待熊能解決量子力學問題。沒有神經符號人工智能,我們無法找到通往AGI的道路。我很高興看到Google DeepMind已經朝著這個方向邁出了堅實的步伐。

編譯:木沐,編輯:文刀

本文由人人都是產品經理作者【元宇宙日爆】,微信公眾號:【元宇宙日爆】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 盡管面臨學術和資本阻力,但Google DeepMind的成就為神經符號學AI的發展提供了希望。

    來自廣東 回復
  2. 生成式AI擁有高速的反應時間與處理數據的能力,只是在實際運行的時候還需要考慮適配度的問題

    來自北京 回復