DeepMind的新研究:人類最后的自留地失守了?

0 評論 2518 瀏覽 1 收藏 12 分鐘

從周圍環(huán)境中獲取生活經(jīng)驗(yàn)的本事,某種意義上可以說是人類在AI面前的最后一塊自留地,但現(xiàn)在,這塊自留地似乎也有可能要失守了,最近,DeepMind的研究成果發(fā)現(xiàn),一個從未使用過任何預(yù)先收集的人類數(shù)據(jù)的智能體,可以從零開始學(xué)習(xí)周遭的模擬環(huán)境,并習(xí)得人類行為。

AI對人類世界的學(xué)習(xí)能力,到目前為止仍然停留在語言層面。

喂給大模型語料——最初是維基百科和Reddit,后來擴(kuò)展到音頻、視覺圖像甚至雷達(dá)和熱圖像——后者廣義上說是換了種表達(dá)方式的語言。也因此有生成式AI的創(chuàng)業(yè)者認(rèn)為,一個極度聰明的大語言模型就是那個通往AGI最終答案,多模態(tài)的研究道路只是目前對前者的底氣不足。

我們對未知生命族群的想象力以此為限(如果硅基生命也算的話)。當(dāng)談起外星生命,沖進(jìn)腦子里的第一個想法是外星語言,《三體》里三體人的第一次亮相也是關(guān)于語言。這是人類文明的操作系統(tǒng),推己及人,語言也會是其他文明的操作系統(tǒng)?!度祟惡喪贰返淖髡哂韧郀枴ず绽诮衲?月公開表達(dá)了他對生成式AI的擔(dān)憂,掌握了人類語言的AI,已經(jīng)有能力黑進(jìn)人類的整個文明背后。

但AI對人類語言資源的占領(lǐng),也是人類目前對AI威脅性的想象極限。換句話說,無法抽象成語言被表達(dá)和記錄的東西,AI學(xué)不會。而世界處處是秀才遇到兵的故事,讀萬卷書不如行萬里路,從周圍環(huán)境中獲取生活經(jīng)驗(yàn)的本事,是人類面對AI的靈魂拷問時最后的自留地。

直到DeepMind帶著一篇新的論文出來,說這塊最后的自留地咱說不定也守不住了。

DeepMind高級研究工程師,平時還顧著張羅一些非洲AI技術(shù)社群的Avishkar Bhoopchand,和在各種游戲公司做了5年然后去了DeepMind的Bethanie Brownfield領(lǐng)銜的一支18人研究團(tuán)隊(duì),最近在《自然》雜志上發(fā)表了一篇新的研究成果。

簡單來說,他們在一個3D模擬環(huán)境中,用神經(jīng)網(wǎng)絡(luò)結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練出了一個智能體,這個智能體從未使用過任何預(yù)先收集的人類數(shù)據(jù),但從零開始學(xué)習(xí)周遭的模擬環(huán)境,習(xí)得了人類行為。

在這場實(shí)驗(yàn)里,AI和“Culture(文化)”這個概念聯(lián)系在一起,這好像是第一次。

廣義上,談及人類的“智力”,可以簡單理解成有效獲取新知識、技能和行為的能力。更實(shí)際點(diǎn)說,也就是如何在適當(dāng)?shù)那榫持型ㄟ^一系列行動以達(dá)成目標(biāo)的能力。比如:

  • 如何動用公式和輔助線解一道幾何題。
  • 如何把小紅書上看到的一個菜譜變成晚飯餐桌上的一道菜。
  • 如何開一家賺錢的公司。

都是智力的體現(xiàn)。

這篇論文里提到的例子更簡單些——如何在一場游覽活動中跟住導(dǎo)游,或者如何跟同事介紹一臺打印機(jī)怎樣用。

事實(shí)上,我們具備的很多技能都不是一板一眼學(xué)來的——比如如何教同事用一臺打印機(jī),反而人類的智力特別依賴于我們從其他人那里高效獲取知識的能力。這種知識被統(tǒng)稱為文化,而從一個個體傳遞知識到另一個個體的過程被稱為文化傳播(cultural transmission)。

文化傳播是一種社會行為,它依賴整個群體實(shí)時以高保真度和高回憶率從彼此那里獲取和使用信息,這最終導(dǎo)致了技能、工具和知識的積累和精煉,以及最終形成文明,在個體甚至代際間高度穩(wěn)定發(fā)生的知識轉(zhuǎn)移。而這整個過程并不是從一套經(jīng)過設(shè)計(jì)的書籍或視頻課開始的。

當(dāng)AI研究者在擔(dān)心喂給大模型的語料會在5年后枯竭,這首先建立在AI存在一個巨大的能力盲區(qū)的基礎(chǔ)上,也就是直接從環(huán)境中將發(fā)散信息抽象化的能力。

DeepMind在智能體的訓(xùn)練中引入了GoalCycle3D——一個在 Unity 中構(gòu)建的3D物理模擬任務(wù)空間??催@張圖片可以知道,這個空間存在崎嶇的地形和各種障礙物,而在障礙物和復(fù)雜地形之間有著各種顏色的球形目標(biāo),按特定循環(huán)順序經(jīng)過目標(biāo)球體會獲得積極獎勵。

圖源:Nature

DeepMind在這個空間中設(shè)置了具有“上帝視角”,如何行動能夠拿到獎勵的紅色方智能體,藍(lán)色方智能體則是毫無游戲經(jīng)驗(yàn)的“被訓(xùn)練方”。

拿到高分獎勵即被視為一種“文化”。一個完全沒有游戲背景的智能體所具有的文化傳播(CT)值為0,一個完全依賴專家的智能體CT值設(shè)為0.75。一個在紅色方在場時完美跟隨,并在紅色方離開后仍能繼續(xù)獲得高分的智能體的,CT值為1。

實(shí)驗(yàn)的結(jié)果是,在一個隨機(jī)生成的虛構(gòu)世界中,藍(lán)色方智能體依靠強(qiáng)化學(xué)習(xí)完成對這種”得高分“文化的習(xí)得和超越,而這經(jīng)歷了4個不同的訓(xùn)練階段。

第一階段,藍(lán)色方開始熟悉任務(wù),學(xué)習(xí)表示、運(yùn)動和探索,但在得分上沒有太大改善。

第二階段,藍(lán)色方體有了足夠的經(jīng)驗(yàn)和失敗嘗試,學(xué)會了它的第一個技能:跟隨紅色方。它的CT值最終到達(dá)了0.75,表明了一種純粹的跟隨。

第三階段,藍(lán)色方記住了紅色方在場時的有獎勵循環(huán),并在紅色方不在場時能夠繼續(xù)解決任務(wù)。

最終的第四階段,藍(lán)色方能夠獨(dú)立于紅色方智能體的引導(dǎo),以自己的路線來取得更高分?jǐn)?shù)。這表現(xiàn)在訓(xùn)練文化傳播度量回落至0——也就是藍(lán)色方不跟著紅色方走了——但同時得分繼續(xù)增加。更準(zhǔn)確地說,藍(lán)色方智能體在這個階段顯示出了一種“實(shí)驗(yàn)”行為,甚至開始使用假設(shè)檢驗(yàn)來推斷正確的循環(huán),而不是參考機(jī)器人,也因此,藍(lán)色方最終超越了紅色方,更有效地得到了循環(huán)獎勵。

這個以模仿學(xué)習(xí)開始,然后借助深度強(qiáng)化學(xué)習(xí)來繼續(xù)進(jìn)行自我優(yōu)化甚至找到超越被模仿著的更優(yōu)解的實(shí)驗(yàn),表明AI智能體能夠通過觀察別的智能體的行為來學(xué)習(xí)并模仿這些行為。而這種從零樣本開始,實(shí)時、高保真地獲取和利用信息的能力,也非常接近人類跨代積累和精煉知識的方式。

這項(xiàng)研究被視為向人工通用智能(AGI)邁進(jìn)的一大步,而如此重要的一步,DeepMind又是在一場游戲里完成的。

DeepMind曾經(jīng)在另一種游戲中用零樣本的方式完成過一次顛覆,只不過那次它顛覆的就是自己。而那個游戲——對,就是圍棋。

2016年3月12日,李世石投子認(rèn)負(fù)。這意味著人類在圍棋這項(xiàng)人類自己創(chuàng)造的計(jì)算游戲中一敗涂地,而甚至沒有坐在對面的AlphaGO,在幾個月的時間里完成了16萬局棋譜的訓(xùn)練。

然后AlphaGO被擊敗了。

擊敗AlphaGO的是AlphaGO Zero——一個從沒有看過任何棋譜,僅從圍棋的基本規(guī)則開始一步步自學(xué)而成的AI棋手。那個紀(jì)念擊敗李世石的AlphaGO版本被稱作AlphaGO Lee,AlphaGO Zero以100:0的戰(zhàn)績完全擊敗了AlphaGO Lee,而前者那時候僅僅訓(xùn)練了3天。

那時的AlphaGO Zero如同現(xiàn)在藍(lán)色方智能體在GoalCycle3D里所呈現(xiàn)的一樣,沒有無監(jiān)督學(xué)習(xí),沒有使用任何人類經(jīng)驗(yàn),最終跟上并且擊敗了自己的前輩。

在2016年以實(shí)習(xí)生身份進(jìn)入DeepMind的Richard Everett,也是這篇論文的18人之一。玩電子游戲時人類玩家和看似智能的電腦控制玩家之間的互動讓他著迷,也最終引導(dǎo)他進(jìn)入了人工智能領(lǐng)域。這個關(guān)于“AI學(xué)習(xí)文化傳播“的項(xiàng)目是他在DeepMind最喜歡的項(xiàng)目之一。

“在世界上最大的糖果店里做個孩子”,Richard Everett這樣描述他在DeepMind的工作感覺。而這篇論文的研究,要?dú)w功于來自藝術(shù)家、設(shè)計(jì)師、倫理學(xué)家、項(xiàng)目經(jīng)理、QA測試人員以及科學(xué)家、軟件工程師、研究工程師之間超過兩年的密切合作。

AlphaGO Zero的成功讓DeepMind在AGI研究中繼續(xù)堅(jiān)持著深度強(qiáng)化學(xué)習(xí)的技術(shù)路線,這才有了GoalCycle3D里所呈現(xiàn)的一切?,F(xiàn)在這場通往AGI的大型游戲?qū)嶒?yàn)仍在繼續(xù)。X平臺上,Google DeepMind主頁下最新鮮的一條推文是:

“歡迎Gemini?!?/p>

論文地址:

https://www.nature.com/articles/s41467-023-42875-2

作者:油醋

來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!