深度|紅杉美國對話英偉達科學(xué)家 Jim Fan:十年內(nèi)人形機器人將超越人類的敏捷性和可靠性,所有可移動的東西終將實現(xiàn)自主化

0 評論 3141 瀏覽 1 收藏 51 分鐘

在人工智能的不斷進步中,人形機器人的發(fā)展前景成為了科技界熱議的話題。英偉達高級研究科學(xué)家Jim Fan與紅杉美國投資人的對話,為我們揭示了這一領(lǐng)域的未來趨勢。從虛擬世界的模擬訓(xùn)練到現(xiàn)實世界的應(yīng)用,人形機器人的敏捷性和可靠性有望在未來十年內(nèi)超越人類。本文將帶您深入了解這一激動人心的領(lǐng)域,探討人形機器人如何改變我們的生活和工作。

近日,英偉達高級研究科學(xué)家 Jim Fan 與紅杉美國投資人展開了一場關(guān)于具身智能、機器人技術(shù)以及虛擬世界領(lǐng)域的前沿思考。

Jim Fan 展示了英偉達在構(gòu)建智能機器人方面的長期愿景,并討論了推動這項技術(shù)的核心挑戰(zhàn)和突破機會。

Jim 指出,英偉達正在押注具身智能和人形機器人技術(shù)的發(fā)展。他認為,未來十年內(nèi),人形機器人將達到甚至超越人類的敏捷性和可靠性。他們的目標是為日常生活開發(fā)可以承擔(dān)家庭瑣事(如洗衣)的機器人,從而極大地提升生活質(zhì)量和經(jīng)濟價值。

他特別強調(diào)了虛擬世界與物理世界的交叉影響。虛擬世界提供了一個強大的“世界模擬器”,讓研究者能夠通過模擬數(shù)據(jù)和領(lǐng)域隨機化技術(shù)加速機器人在現(xiàn)實中的應(yīng)用。

他提出,通過在虛擬環(huán)境中訓(xùn)練,智能體可以無縫泛化到物理世界,達到“零次微調(diào)”的轉(zhuǎn)移效果。

Jim 認為,視頻生成是未來 AI 的重要方向,因為它能夠以數(shù)據(jù)驅(qū)動的方式模擬世界,為 AI 模型提供真實的物理和渲染數(shù)據(jù)。他同時對 AI 模型的推理能力(特別是編程能力)充滿期待,認為在未來十年內(nèi),AI 智能體將在自動編程和加速軟件開發(fā)方面取得重大進展。

此外,Jim 還特別提到研究中的“品味”,即確定值得解決的問題比尋找解決方案更難且更重要。

他提到了自己在李飛飛等導(dǎo)師的指導(dǎo)下,培養(yǎng)了識別哪些問題能夠產(chǎn)生最大影響的能力,并認為具身智能是未來 AI 智能體的重要方向。他也建議 AI 創(chuàng)業(yè)者保持對最新文獻和工具的敏銳洞察,尋找能夠長遠發(fā)展的領(lǐng)域。

Jim 引用了英偉達 CEO 黃仁勛的話 —— 所有能夠移動的東西最終都會實現(xiàn)自主化。他認為,隨著硬件技術(shù)和制造成本的下降,未來機器人將像 iPhone 一樣普及。英偉達正著手構(gòu)建一個從硬件到軟件的完整技術(shù)棧,以支持智能機器人的發(fā)展。

以下為這次對談的全部內(nèi)容,enjoy~

Sonya Huang

今天我們邀請到了 Nvidia 的高級研究科學(xué)家Jim Fan。Jim領(lǐng)導(dǎo) Nvidia 的具身智能(Embodied AI )智能體研究工作,涉及物理世界中的機器人技術(shù)和虛擬世界中的游戲智能體。

Jim 的團隊負責(zé)了Project Groot項目,你可能在今年的 GTC 大會上看到過和Jensen同臺展示的視頻中出現(xiàn)的人形機器人。

今天我們很高興能和Jim討論關(guān)于機器人技術(shù)的一切問題。為什么選擇現(xiàn)在?為什么是人形機器人?以及如何實現(xiàn)機器人領(lǐng)域的 GPT-3 時刻?

非常激動能夠和大家分享關(guān)于機器人技術(shù)和具身智能的各種內(nèi)容。在我們深入討論之前,您的個人故事非常有趣。

你是 OpenAI 的第一位實習(xí)生,能不能給我們講一下你的個人經(jīng)歷,以及你是如何走到今天這一步的?

Jim Fan

當(dāng)然,我很愿意和大家分享這些故事。2016 年夏天,我的一些朋友告訴我,城里有一家新的初創(chuàng)公司讓我去看看。

我當(dāng)時心想:“嗯,我沒什么別的事情可做,因為我已經(jīng)被錄取為博士生了。” 那個夏天我很空閑,所以我決定加入這家初創(chuàng)公司,而那家公司就是 OpenAI 。

在我加入 OpenAI 的那段時間,我們已經(jīng)在討論  AGI  了,而我的實習(xí)導(dǎo)師是 Andrej Karpathy 和 Iliya Sotskever。

我們一起討論并展開了一個項目,叫做“World of Bits”。這個項目的想法非常簡單,我們希望建立一個 AI 智能體,它能夠讀取電腦屏幕上的像素信息,然后控制鍵盤和鼠標。如果你仔細想想,這種界面是最通用的。

我們在電腦上做的所有事情,比如回復(fù)郵件、玩游戲或瀏覽網(wǎng)頁,都可以通過這個界面完成,將屏幕像素映射到鍵盤和鼠標的控制。

這其實是我在 OpenAI 的第一次 AGI 嘗試,也是我 AI 智能體旅程的第一個篇章。

Stephanie Zhan

我記得“World of Bits”這個項目,我不知道你也參與其中,真是太有趣了。

Jim Fan

是的,那是一個非常有趣的項目,它也是 OpenAI Universe 平臺的一部分,這是一個將所有應(yīng)用程序和游戲整合到這個框架中的更大計劃。

Stephanie Zhan

你覺得當(dāng)時有哪些突破?另外,你認為當(dāng)時在智能體領(lǐng)域面臨的主要挑戰(zhàn)是什么?

Jim Fan

是的,當(dāng)時我們主要使用的方法是強化學(xué)習(xí)。在 2016 年,還沒有  LLM  或 Transformer 模型。

強化學(xué)習(xí)在特定任務(wù)上確實有效,但它不具備廣泛的泛化能力。比如我們無法給智能體任何一種指令,要求它完成各種通過鍵盤和鼠標操作的任務(wù)。當(dāng)時,它在我們設(shè)計的特定任務(wù)上有效,但沒有真正實現(xiàn)泛化。

這促使我進入了下一個階段,我去了斯坦福大學(xué)。我開始在斯坦福跟隨 Favilly 教授攻讀博士學(xué)位,主要研究計算機視覺和具身智能(Embodied AI )。

在 2016 年到 2021 年我在斯坦福期間,我見證了斯坦福視覺實驗室的轉(zhuǎn)變,從 Favilly 教授帶領(lǐng)的靜態(tài)計算機視覺,如識別圖像和視頻,轉(zhuǎn)變?yōu)榫呱碛嬎銠C視覺,即智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動。

這個環(huán)境可以是虛擬的(在模擬中),也可以是物理世界中的。所以這是我的博士階段,主要是從靜態(tài)視覺過渡到具身智能的研究。

在我博士畢業(yè)后,我加入了 Nvidia ,并一直工作到現(xiàn)在。我將博士論文中的研究內(nèi)容帶到了 Nvidia ,并繼續(xù)從事具身智能的研究工作,直到今天。

Sonya Huang

你目前負責(zé) Nvidia 的具身智能計劃,可以簡單介紹一下這個項目的含義,以及你們希望實現(xiàn)的目標嗎?

Jim Fan

當(dāng)然。目前我共同領(lǐng)導(dǎo)的團隊叫做 GER,代表具身智能體研究(Generalist Embodied Agent Research)。簡單來說,我們團隊的工作可以總結(jié)為三個字:“生成行動”。

因為我們構(gòu)建具身智能智能體,而這些智能體會在不同的世界中采取行動。如果這些行動是在虛擬世界中進行的,那就是游戲 AI 和模擬;如果是在物理世界中進行的,那就是機器人技術(shù)。

事實上,今年 3 月的 GTC 大會上,Jensen 在他的主題演講中展示了一個叫做 Project Groot 的項目,這是 Nvidia 在構(gòu)建人形機器人基礎(chǔ)模型上的一項重要努力,而這正是 GER 團隊目前的重點工作。我們希望為人形機器人乃至更廣泛的領(lǐng)域構(gòu)建 AI 大腦。

Stephanie Zhan

你認為 Nvidia 在構(gòu)建這些技術(shù)上有什么競爭優(yōu)勢?

Jim Fan

這是個很好的問題。首先,毫無疑問的是計算資源。所有這些基礎(chǔ)模型都需要大量的計算資源來擴展。我們相信“Scaling Law”,類似于 LLM Scaling Law,但具身智能和機器人技術(shù)的 Scaling Law 尚待研究,所以我們正在這方面做出努力。

Nvidia 的第二個優(yōu)勢是模擬技術(shù)。Nvidia 在成為一家 AI 公司之前,是一家圖形公司,所以我們在構(gòu)建模擬(如物理模擬、渲染)和GPU實時加速方面擁有多年的專業(yè)知識。因此,在構(gòu)建機器人技術(shù)時,我們大量使用模擬技術(shù)。

Stephanie Zhan

模擬策略非常有趣。你認為為什么大多數(shù)行業(yè)仍然非常專注于現(xiàn)實世界的數(shù)據(jù),而采用相反的策略呢?

Jim Fan

是的,我認為我們需要各種數(shù)據(jù)。僅僅依靠模擬或現(xiàn)實世界的數(shù)據(jù)是不夠的。因此在GER(具身智能體研究團隊)中,我們將數(shù)據(jù)策略大致分為三個部分:

第一是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),比如網(wǎng)上的標簽和視頻。

第二是模擬數(shù)據(jù),我們使用 Nvidia 的模擬工具生成大量的合成數(shù)據(jù)。

第三是實際機器人數(shù)據(jù),我們通過在機器人平臺上操作機器人,收集并記錄這些數(shù)據(jù)。

我相信一個成功的機器人策略需要有效地利用這三種數(shù)據(jù),混合它們并提供統(tǒng)一的解決方案。

Sonya Huang

你剛才提到的數(shù)據(jù)是實現(xiàn)機器人基礎(chǔ)模型工作的關(guān)鍵瓶頸,你能不能多談?wù)勀銓@個觀點的信念,以及需要什么樣的優(yōu)秀數(shù)據(jù)來突破這個問題?

Jim Fan

好的,我認為我剛才提到的三種不同類型的數(shù)據(jù)各有優(yōu)缺點。首先是互聯(lián)網(wǎng)數(shù)據(jù),它們是最具多樣性的,包含了大量的常識性先驗知識。

比如大多數(shù)網(wǎng)上的視頻都是以人為中心的,因為我們喜歡自拍,喜歡記錄彼此進行各種活動,也有很多教學(xué)視頻。

我們可以利用這些數(shù)據(jù)來學(xué)習(xí)人類如何與物體交互,以及物體在不同情況下的行為,這為機器人基礎(chǔ)模型提供了常識性先驗知識。

但是,互聯(lián)網(wǎng)數(shù)據(jù)沒有行動信號,我們無法從互聯(lián)網(wǎng)上下載機器人的運動控制信號。

這就引出了第二種數(shù)據(jù)策略,即使用模擬。在模擬中,你可以擁有所有的動作,并且可以觀察這些動作在特定環(huán)境中的結(jié)果。

模擬的優(yōu)勢在于它基本上是無限的數(shù)據(jù),數(shù)據(jù)量隨計算資源的增加而擴展。投入越多的GPU,產(chǎn)生的數(shù)據(jù)就越多,而且數(shù)據(jù)是實時的。如果僅在真實機器人上收集數(shù)據(jù),那么你會受到每天 24 小時的限制。

而通過GPU加速的模擬器,我們可以將實際時間加速到 1 萬倍以上。在同樣的工作時間內(nèi),我們能夠以更高的速度收集數(shù)據(jù)。

但模擬的弱點是無論圖形管道多么好,模擬與現(xiàn)實總會有差距。物理規(guī)律和視覺效果都與現(xiàn)實世界有所不同,且內(nèi)容的多樣性不如我們在現(xiàn)實世界中遇到的情景。

最后是實際機器人數(shù)據(jù),這些數(shù)據(jù)沒有模擬與現(xiàn)實的差距,因為它們是在真實機器人上收集的,但收集成本要高得多,因為需要雇人操作機器人。

而且它們依然受限于現(xiàn)實世界的時間,每天只有 24 小時,還需要人類來收集這些數(shù)據(jù),成本非常高。

因此,我們認為這三種類型的數(shù)據(jù)各有優(yōu)勢,成功的策略是結(jié)合它們的優(yōu)勢,消除它們的劣勢。

Sonya Huang

那些在 Jensen 演講臺上的可愛機器人真是一個精彩的時刻。如果你有一個五年或十年的夢想,你認為你的團隊會實現(xiàn)什么?

Jim Fan

這純粹是推測,但我希望我們能在接下來的兩到三年內(nèi)看到機器人基礎(chǔ)模型的研究突破,這就是我們所謂的機器人領(lǐng)域的 GPT-3 時刻。

之后就不確定了,因為要讓機器人進入人們的日常生活,不僅僅是技術(shù)問題。機器人需要價格合理,并且能夠量產(chǎn)。我們還需要確保硬件的安全性以及隱私和法規(guī)方面的考慮。

這些問題可能需要更長的時間才能使機器人進入大眾市場,所以這比較難以預(yù)測。但我希望研究突破能夠在未來兩三年內(nèi)到來。

Stephanie Zhan

你認為 AI 機器人領(lǐng)域的 GPT-3 時刻會是什么樣子的?

Jim Fan

這是個好問題。我喜歡將機器人技術(shù)分為兩個系統(tǒng):系統(tǒng)一和系統(tǒng)二,這個概念來自《思考,快與慢》這本書。

系統(tǒng)一是低級的運動控制,它是無意識且快速的。例如,當(dāng)我拿起這杯水時,我不會真的思考每毫秒如何移動手指。這就是系統(tǒng)一。

而系統(tǒng)二則是緩慢且深思熟慮的,它更像是推理和規(guī)劃,使用的是我們的有意識思維。我認為 GPT-3 時刻將出現(xiàn)在系統(tǒng)一上。

我最喜歡的例子是“打開”這個動詞。想象一下“打開”這個詞的復(fù)雜性。打開門與打開窗戶不同,打開瓶子或手機的方式也不同。

但對人類來說,理解“打開”在與不同物體交互時意味著不同的動作并沒有任何問題。但

是到目前為止,我們還沒有看到一個機器人模型能夠在低級別運動控制上對這些動詞進行泛化。

我希望能看到一個模型能夠理解這些動詞的抽象含義,并能夠在各種對人類有意義的場景中進行泛化。我們還沒有看到這種情況,但我對未來兩三年內(nèi)出現(xiàn)這個時刻持樂觀態(tài)度。

Sonya Huang

關(guān)于“系統(tǒng)二”思維呢?你認為我們?nèi)绾尾拍軐崿F(xiàn)這個目標?你認為在 LLM 領(lǐng)域的推理工作也會與機器人領(lǐng)域相關(guān)嗎?

Jim Fan

是的,絕對相關(guān)。我認為在“系統(tǒng)二”方面,我們已經(jīng)看到了一些非常強大的模型,它們可以進行推理、規(guī)劃,甚至編程。

這些正是我們今天看到的 LLM 和前沿模型。但將“系統(tǒng)二”模型與“系統(tǒng)一”整合起來,本身就是一個研究挑戰(zhàn)。

所以問題是,針對機器人基礎(chǔ)模型,我們是否應(yīng)該有一個單一的大模型,還是采用某種級聯(lián)方法,保持“系統(tǒng)一”和“系統(tǒng)二”模型的獨立性,并讓它們通過某種方式進行溝通?這仍然是一個懸而未決的問題,它們各有優(yōu)缺點。

如果是第一個想法,模型會更簡潔,只有一個模型,一個 API 來維護。但這也更難控制,因為它們的控制頻率不同。

“系統(tǒng)二”模型的控制頻率較低,比如每秒一次決策(1Hz),而“系統(tǒng)一”則需要更高的控制頻率,比如每秒 1000 次決策(1000Hz),像我握住這杯水的微小運動就是每秒數(shù)千次的決策。這種不同頻率的控制難以通過單一模型實現(xiàn)。

所以,可能級聯(lián)的方法會更好。但問題是,系統(tǒng)一和系統(tǒng)二之間如何溝通?它們通過文本交流還是通過某種潛在變量?目前還不清楚,我認為這是一個非常令人興奮的新研究方向。

Sonya Huang

你覺得我們能夠通過擴展和 Transformer 技術(shù)突破“系統(tǒng)一”思維嗎?還是說要祈禱好運、看事態(tài)發(fā)展?

Jim Fan

我當(dāng)然希望我之前描述的數(shù)據(jù)策略能幫助我們實現(xiàn)這一目標。因為我覺得我們還沒有完全發(fā)揮出 Transformer 的潛力。

從本質(zhì)上講, Transformer 是通過輸入和輸出 token 來工作的。最終, token 的質(zhì)量決定了這些大型 Transformer 模型的質(zhì)量。

對于機器人來說,正如我提到的,數(shù)據(jù)策略非常復(fù)雜。我們既有互聯(lián)網(wǎng)數(shù)據(jù),也需要模擬數(shù)據(jù)和真實機器人數(shù)據(jù)。

一旦我們能夠擴展數(shù)據(jù)管道,并獲得高質(zhì)量的動作數(shù)據(jù),我們就可以將這些數(shù)據(jù) token 化,并將其輸入 Transformer 進行壓縮。所以我覺得 Transformer 的潛力還未完全發(fā)揮出來。

一旦我們解決了數(shù)據(jù)策略問題,我們可能會看到一些隨著數(shù)據(jù)和模型規(guī)模擴展而出現(xiàn)的涌現(xiàn)現(xiàn)象。我稱之為具身智能的“Scaling Law”,這才剛剛開始。

Stephanie Zhan

我對此非常樂觀。很好奇的是,當(dāng)我們到達那個突破點時,你個人最期待看到的是什么?你認為哪個行業(yè)、應(yīng)用或用例會完全改變今天的機器人世界?

Jim Fan

是的。實際上,我們選擇人形機器人作為主要研究方向有幾個原因。一個原因是,世界是圍繞人體形態(tài)設(shè)計的,所有的餐館、工廠、醫(yī)院以及我們的設(shè)備和工具都是為人類及其手形設(shè)計的。

因此,原則上,一個足夠先進的人形機器人硬件應(yīng)該能夠完成任何一個普通人類可以完成的任務(wù)。

雖然當(dāng)前的人形機器人硬件還沒有達到那個水平,但我相信在未來兩到三年內(nèi),人形機器人硬件生態(tài)系統(tǒng)將會成熟。

屆時,我們將擁有可負擔(dān)得起的人形機器人硬件,問題將變成如何為這些人形機器人提供 AI 大腦。

一旦我們擁有了能夠接受任何語言指令并完成任何人類能做的任務(wù)的通用基礎(chǔ)模型,我們就可以釋放大量經(jīng)濟價值。比如我們可以在家庭中擁有機器人,幫助我們做家務(wù)、洗衣、洗碗、做飯,或者照顧老人。

我們還可以在餐館、醫(yī)院、工廠中使用它們,幫助完成各種人類的工作。我希望這能在未來十年內(nèi)實現(xiàn)。

不過正如我之前提到的,這不僅僅是技術(shù)問題,還涉及許多技術(shù)之外的問題,我對此充滿期待。

Sonya Huang

你們選擇專注于人形機器人還有其他原因嗎?

Jim Fan

是的。還有一些更實際的原因,比如訓(xùn)練管道方面。關(guān)于人類的數(shù)據(jù)在網(wǎng)上有很多,視頻中的內(nèi)容大多是以人為中心的,人類在執(zhí)行日常任務(wù)或娛樂活動。

人形機器人的外形最接近人類的形態(tài),這意味著我們用這些數(shù)據(jù)訓(xùn)練的模型可以更容易地遷移到人形機器人形態(tài),而不是其他形態(tài)。

比如說,關(guān)于機器人手臂和夾爪的視頻有多少?很少見吧。但我們能看到很多關(guān)于人類用五指手工作的視頻。

因此,訓(xùn)練人形機器人可能更容易。一旦我們擁有了這些基礎(chǔ)模型,我們可以進一步專門化它們,應(yīng)用到機器人手臂等更具體的機器人形態(tài)上。這就是為什么我們首先追求全面的解決方案。

Stephanie Zhan

你們目前只專注于人形機器人嗎,還是也會涉及機器人手臂或機器狗?

Jim Fan

Project Groot 目前主要專注于人形機器人。但我們構(gòu)建的管道,包括模擬工具和真實機器人工具,足夠通用,將來也可以適應(yīng)其他平臺。因此,我們正在構(gòu)建這些工具,以便廣泛適用。

Sonya Huang

你多次提到“通用”這個詞。我認為機器人領(lǐng)域的一些人認為通用方法行不通,必須針對特定領(lǐng)域和環(huán)境。為什么你們選擇了通用的方法?我們節(jié)目里經(jīng)常提到Richard Sutton的“苦澀教訓(xùn)”。你認為這在機器人領(lǐng)域也適用嗎?

Jim Fan

絕對適用。我想首先談?wù)勎覀冊谧匀徽Z言處理( NLP )領(lǐng)域看到的成功案例。在ChaggbT和 GPT-3 出現(xiàn)之前, NLP 領(lǐng)域有很多專門針對不同應(yīng)用的模型和管道,比如翻譯、編程、數(shù)學(xué)運算和創(chuàng)意寫作,它們都使用了不同的模型和訓(xùn)練管道。但ChaggbT出現(xiàn)后,將所有這些應(yīng)用統(tǒng)一到了一個單一的模型中。

我們稱這些為“通才”模型。而一旦有了通才模型,我們就可以通過提示、精煉等方式將它們專用于具體任務(wù),形成“專才”模型。

根據(jù)歷史趨勢,幾乎總是專才通才模型比原始的專才模型要強大得多,而且維護起來更簡單,因為只有一個 API ,它輸入文本,輸出文本。因此,我認為我們可以遵循 NLP 領(lǐng)域的成功路徑,這在機器人領(lǐng)域也將如此。

到 2024 年,大多數(shù)機器人應(yīng)用仍處于專才階段,即針對特定任務(wù)、特定硬件、特定數(shù)據(jù)管道的專門模型。

但 Project Groot 的目標是構(gòu)建一個通用的基礎(chǔ)模型,首先用于人形機器人,然后推廣到各種機器人形態(tài)或具身形式。這就是我們追求的通才時刻。

一旦我們有了通才模型,我們可以對其進行定制,使其適用于具體的機器人任務(wù)。而這些將成為專才通才模型的體現(xiàn)。

但在擁有通才模型之前,這一切還不會發(fā)生。因此,從短期來看,追求專才模型會更容易,因為你只需專注于非常狹窄的任務(wù)領(lǐng)域。

但我們在 Nvidia 相信未來屬于通才模型,盡管它需要更長的開發(fā)時間,也有更多的研究難題要解決,但這是我們首先追求的目標。

Stephanie Zhan

Nvidia 構(gòu)建 Project Groot 的另一個有趣之處在于,正如你之前提到的, Nvidia 既擁有芯片也擁有模型。你認為 Nvidia 可以做些什么來在自家芯片上優(yōu)化Groot模型?

Jim Fan

是的,在今年 3 月的 GTC 大會上,Jensen還發(fā)布了下一代邊緣計算芯片,稱為Jensen Source芯片,它實際上是與Project Groot一起發(fā)布的。

我們的想法是,向客戶提供一個從芯片級別(Jensen Source系列芯片)到基礎(chǔ)模型(Project Groot),再到模擬工具和沿途開發(fā)的其他實用工具的完整技術(shù)棧。這將成為一個面向人形機器人以及智能機器人的計算平臺。

我想引用 Jensen 的一句名言,這是我最喜歡的之一:“所有能夠移動的東西最終都會實現(xiàn)自主化?!蔽乙蚕嘈胚@一點。

雖然現(xiàn)在還沒有實現(xiàn),但我們可以預(yù)見,在未來十年或更長時間內(nèi),如果我們相信將來會有和 iPhone 一樣多的智能機器人,我們最好從今天開始建設(shè)。

Sonya Huang

太棒了!你們的研究目前是否有特別值得強調(diào)的成果?有什么讓你對你們的方法充滿信心或樂觀的嗎?

Jim Fan

是的,我們可以談?wù)勔恍┲暗墓ぷ?。其中我非常滿意的一項工作叫做URAC。我們在這個項目中做了一個演示,訓(xùn)練一個五指機器人手進行轉(zhuǎn)筆的動作。

對我個人來說,這特別幽默,因為我已經(jīng)放棄了轉(zhuǎn)筆這個技能。所以我自己做不到,但機器人手卻可以。而我們用來訓(xùn)練它的方法是,我們使用 LLM 來編寫代碼,控制由 Nvidia 構(gòu)建的模擬 API ,稱為 i6M  API 。LLM 輸出代碼來定義獎勵函數(shù)。

獎勵函數(shù)基本上就是我們希望機器人完成的理想行為的規(guī)范。如果機器人走在正確的軌道上,它就會獲得獎勵;如果做錯了事,就會受到懲罰。

通常,獎勵函數(shù)是由一個非常了解 API 的機器人專家設(shè)計的,這是一個需要高度專業(yè)知識的工作,而且過程非常繁瑣和手動。

我們開發(fā)了一種算法,使用 LLM 來自動化獎勵函數(shù)的設(shè)計,讓機器人能夠完成復(fù)雜的任務(wù),比如轉(zhuǎn)筆。

這是一種通用技術(shù),我們計劃將其擴展到不僅僅是轉(zhuǎn)筆,它應(yīng)該能夠為各種任務(wù)設(shè)計獎勵函數(shù),甚至可以通過 Nvidia 的模擬 API 生成新的任務(wù)。這為我們的進一步發(fā)展提供了廣闊的空間。

Sonya Huang

我記得五年前有一些研究團隊在解決魔方問題,用機器人手來完成,當(dāng)時感覺機器人領(lǐng)域經(jīng)歷了一個“幻滅期”。而在過去一年左右,這個領(lǐng)域似乎又熱起來了。

你認為為什么現(xiàn)在是機器人領(lǐng)域的“時機”?有什么不同的地方嗎?我們聽說 OpenAI 也在重新進入機器人領(lǐng)域,大家都在加大努力。你覺得有什么變化嗎?

Jim Fan

是的,我認為現(xiàn)在有幾個關(guān)鍵因素與之前不同。首先是機器人硬件。從去年年底開始,我們看到了機器人硬件生態(tài)系統(tǒng)的激增。

像特斯拉在開發(fā) Optimus,波士頓動力(Boston Dynamics)等,還有很多初創(chuàng)公司。我們看到硬件越來越強大,具有更好的靈活手和全身可靠性。第二個因素是價格下降。

我們看到人形機器人的制造成本顯著下降。比如 2001 年,NASA 開發(fā)了一個人形機器人,叫做 Robonaut,如果我沒記錯的話,每個機器人成本超過 150 萬美元。

最近一些公司能夠?qū)⑷δ苋诵螜C器人的價格定在大約 3 萬美元左右,大致相當(dāng)于一輛車的價格。

而且隨著產(chǎn)品的成熟,它的價格通常會趨向于原材料成本。對于人形機器人,原材料成本通常只有汽車的4%左右。

所以未來幾年,我們可能會看到成本急劇下降。這使得這些硬件越來越負擔(dān)得起,這是人形機器人再次獲得動能的第二個因素。

第三個因素是在基礎(chǔ)模型方面。我們看到 LLM (如GPT、Claude、Llama等)在解決推理和規(guī)劃問題方面表現(xiàn)得非常出色。這些模型能夠很好地泛化,能夠編寫代碼。

我們提到的 URAC 項目正是利用了這些語言模型的編程能力來開發(fā)新的機器人解決方案。還有多模態(tài)模型的興起,提升了計算機視覺和感知能力。

我認為這些成功也鼓勵我們追求機器人基礎(chǔ)模型,因為我們可以利用這些前沿模型的泛化能力,并在其上添加動作層,生成最終驅(qū)動人形機器人的動作 token 。

Stephanie Zhan

我完全理解這一切。你提到的很多研究進展,許多是你自己在Centauril等項目中做出的貢獻,再加上 Nvidia 的工具(如IZX等)極大地加速了該領(lǐng)域的進展,尤其是在傳感和更便宜的傳感設(shè)備等方面。所以我覺得現(xiàn)在是從事這個領(lǐng)域工作的非常激動人心的時刻。

Jim Fan

是的,我同意。

Sonya Huang

我記得你最初的研究更多是在虛擬世界領(lǐng)域。你能不能談?wù)勈鞘裁醋屇銓?Minecraft 和機器人產(chǎn)生了興趣?在你看來,它們是否是相關(guān)的?是什么讓你對虛擬世界產(chǎn)生了興趣?

Jim Fan

這是個好問題。對我來說,我的個人使命是解決具身智能問題,而虛擬世界中的具身智能智能體就是像游戲和模擬中的那些智能體。因此我對游戲也有非常特別的情感。我自己也很喜歡玩游戲。

Stephanie Zhan

你玩什么游戲?

Jim Fan

我玩 Minecraft ,我試過,但我并不是一個非常好的玩家。所以我希望我的 AI 能彌補我糟糕的游戲技巧。我之前參與了幾個游戲項目。第一個是叫做Mind Dojo的項目,我們在 Minecraft 游戲中開發(fā)了一種通用智能體平臺。

對于不熟悉的觀眾來說, Minecraft 是一個開放的體素世界,你可以在其中做任何你想做的事情。你可以制作各種工具,冒險,它是一個開放式游戲,沒有特定的得分目標,也沒有固定的劇情。

我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù),有人玩 Minecraft 的視頻,也有解釋游戲機制的wiki頁面,這些是多模態(tài)文檔,還有像 Reddit 的 Minecraft 子論壇,那里有很多人用自然語言討論游戲。

我們收集了這些多模態(tài)數(shù)據(jù)集,訓(xùn)練模型來玩 Minecraft 。這個項目叫做 Mind Dojo。后來第二個項目叫做  Voyager 。這個想法是在 GPT-4 發(fā)布后產(chǎn)生的,因為它是當(dāng)時最好的編程模型。

于是我們想,如果我們將編程作為行動呢?基于這個想法,我們開發(fā)了  Voyager  智能體,它通過編寫代碼與 Minecraft 世界互動。

我們使用一個 API 將 3D 的 Minecraft 世界轉(zhuǎn)換為文本表示,然后讓智能體使用行動 API 編寫代碼。就像人類開發(fā)者一樣,智能體并不總是能在第一次寫出正確的代碼。

所以我們給它一個自我反思循環(huán),如果它在 Minecraft 世界中遇到錯誤或做錯了事,它會收到反饋并修正它的程序。一旦它寫出了正確的程序,我們稱之為技能,它會將其保存到一個技能庫中。

以后當(dāng)智能體遇到類似的情況時,它不需要再次經(jīng)歷試錯過程,可以直接從技能庫中調(diào)用技能。

你可以將這個技能庫視為一個代碼庫,它是由 Voyager 自己互動地構(gòu)建的,完全沒有人類干預(yù)。整個代碼庫都是 Voyager 自己開發(fā)的。

這是第二個機制,技能庫。第三個機制是我們稱之為自動課程生成。智能體知道它知道什么,也知道它不知道什么。

因此它能夠提出下一個任務(wù),這個任務(wù)既不會太難也不會太簡單,然后它能夠沿著這條路徑發(fā)現(xiàn)各種技能、工具,并在 Minecraft 的廣闊世界中旅行。

因為它旅行得很多,所以我們稱之為 Voyager 。所以這就是我們團隊最早構(gòu)建具身智能體與虛擬世界交互的嘗試之一。

Sonya Huang

談?wù)勀銊偛盘岬降恼n程生成機制,我覺得這非常有趣,因為這似乎是推理和 LLM 世界中尚未完全解決的問題之一。

如何讓這些模型自我意識到下一步該做什么以提高自己?你能否再詳細談?wù)勀銈冊谡n程生成和推理方面的構(gòu)建?

Jim Fan

當(dāng)然。我認為這些前沿模型展示了一種非常有趣的涌現(xiàn)特性,它們能夠反思自己的行為,并且它們似乎知道自己掌握了什么、還不知道什么,能夠據(jù)此提出任務(wù)。

在 Voyager 中,我們給智能體設(shè)定了一個高層指令,那就是盡可能多地發(fā)現(xiàn)新的物品。

我們只給了這個一句話的目標,沒給出任何關(guān)于先發(fā)現(xiàn)哪些物品、先解鎖哪些工具的指令。

智能體通過編碼、提示和技能庫自己發(fā)現(xiàn)了這些。這種系統(tǒng)的工作方式非常驚人,我認為這是一種在擁有強大推理引擎后自然涌現(xiàn)的特性。

Sonya Huang

你認為為什么這么多的虛擬世界研究都集中在虛擬世界?我相信不僅僅是因為許多深度學(xué)習(xí)研究人員喜歡玩電子游戲,雖然這可能也有點幫助。你覺得在虛擬世界中解決問題與物理世界中的問題有什么聯(lián)系?兩者如何相互影響?

Jim Fan

是的,我一直認為游戲和機器人之間有很多相似的原則。對于具身智能體來說,它們的輸入是感知信息,比如視頻流和一些感官輸入,輸出則是行動。

在游戲中,這可能是鍵盤和鼠標的動作,而在機器人中則是低級別的運動控制。所以從 API 的角度看,這兩者是相似的。

這些智能體需要探索世界,某種程度上需要自己收集數(shù)據(jù),這就是我們所謂的強化學(xué)習(xí)和自我探索,而這一原則在物理智能體和虛擬智能體中都是共享的。但不同之處在于,機器人技術(shù)更難,因為你需要跨越模擬與現(xiàn)實的差距。

在模擬中,物理和渲染永遠無法完美,所以將模擬中學(xué)到的東西轉(zhuǎn)移到現(xiàn)實世界是一大挑戰(zhàn),這是一個開放的研究問題。

因此,機器人技術(shù)有一個“模擬與現(xiàn)實差距”問題,而游戲則沒有。你是在同一個環(huán)境中訓(xùn)練和測試。因此,這是它們之間的區(qū)別之一。

去年我提出了一個概念,叫做基礎(chǔ)智能體(Foundation Agent),我相信最終我們會擁有一個可以同時應(yīng)用于虛擬和物理智能體的模型。

基礎(chǔ)智能體將能夠在三個方面實現(xiàn)泛化:第一是它能夠執(zhí)行的技能,第二是它能夠控制的具身形態(tài),第三是它能夠掌握的世界,無論是虛擬世界還是現(xiàn)實世界。這就是我們GER團隊想要追求的終極愿景,基礎(chǔ)智能體。

Stephanie Zhan

談到虛擬世界和游戲領(lǐng)域,你已經(jīng)在開放環(huán)境中解鎖了一些推理和涌現(xiàn)行為。在游戲世界里,你個人的夢想是什么?你希望 AI 智能體在游戲領(lǐng)域帶來怎樣的創(chuàng)新?

Jim Fan

是的,我對兩個方面特別興奮。首先是游戲中的智能體?,F(xiàn)在的 NPC (非玩家角色)有固定的腳本,都是手動編寫的。但如果我們有真正“活著”的 NPC 呢?

他們能夠記住你之前告訴他們的事情,并且可以在游戲世界中采取行動,改變游戲的敘事和故事發(fā)展。這是我們還沒有見到的,但我覺得這里有巨大的潛力。

這樣一來,每個人玩同一個游戲都會有不同的體驗,甚至一個人兩次玩同一個游戲,故事也不一樣,這樣每個游戲都有無限的重玩價值。

第二個方面是游戲世界本身的生成。我們已經(jīng)看到了許多工具在做這方面的部分工作,比如從文本生成 3D 資產(chǎn),或者從文本生成視頻的模型,還有能夠生成故事情節(jié)的語言模型。

如果我們把這些工具結(jié)合起來,那么游戲世界可以在你玩的時候即時生成,并與你互動。這將是非常令人驚嘆的,也是一個真正開放式的體驗。

Stephanie Zhan

特別有趣。關(guān)于智能體的愿景,你覺得需要 GPT-4 級別的能力嗎?還是像 Llama 8B 這樣的模型就能實現(xiàn)?

Jim Fan

我認為智能體需要具備幾個關(guān)鍵能力。首先,它需要能夠進行有趣的對話,擁有一致的個性,具備長期記憶,還要能夠在世界中采取行動。

就這些方面而言,目前的 Llama 模型已經(jīng)相當(dāng)不錯,但還不足以產(chǎn)生非常多樣化和引人入勝的行為。因此,我認為在這方面仍有差距。另一個問題是推理成本。

如果我們想將這些智能體部署給游戲玩家,要么需要非常低的云托管成本,要么能夠在本地設(shè)備上運行,否則在成本上是不可擴展的。所以這是另一個需要優(yōu)化的因素。

Sonya Huang

你覺得在虛擬世界中的所有工作,是否是為了服務(wù)于物理世界的目標?還是說虛擬世界本身就是一個足夠有價值的領(lǐng)域?你如何在物理世界和虛擬世界之間平衡你的工作優(yōu)先級?

Jim Fan

我認為虛擬世界和物理世界最終只是在同一個軸上的不同現(xiàn)實。舉個例子,有一種技術(shù)叫做領(lǐng)域隨機化,它的工作原理是你在模擬中訓(xùn)練機器人,但同時在 1 萬個不同的模擬中并行訓(xùn)練,每個模擬的物理參數(shù)都不同,比如重力、摩擦力、重量等。這實際上是 1 萬個不同的世界。

如果我們有一個智能體能夠掌握所有這 1 萬個不同的現(xiàn)實配置,那么我們現(xiàn)實的物理世界就只是第 1 萬零一個模擬。在這種情況下,我們能夠從虛擬世界直接泛化到現(xiàn)實世界。

這實際上正是我們在 Eureka 后續(xù)工作中所做的。我們使用各種隨機化的模擬訓(xùn)練智能體,然后無需進一步微調(diào),就能夠?qū)⑵渲苯愚D(zhuǎn)移到現(xiàn)實世界。

我相信這種方法是有效的。如果我們有各種虛擬世界(包括游戲世界),并且有一個智能體能夠在所有這些世界中掌握各種技能,那么現(xiàn)實世界只是更大分布中的一部分。

Stephanie Zhan

你能不能跟大家分享一下 Dr. Eureka 項目?

Jim Fan

當(dāng)然。在 Dr. Eureka 項目中,我們基于 Eureka 的成果,依然使用 LLM 作為機器人開發(fā)者。LLM 會編寫代碼,代碼用于指定模擬參數(shù),比如領(lǐng)域隨機化參數(shù)。

經(jīng)過幾次迭代后,我們在模擬中訓(xùn)練的策略能夠泛化到現(xiàn)實世界。我們展示的一個具體例子是,我們讓一個機器人狗在瑜伽球上行走,它不僅能夠保持平衡,還能向前行走。

有一個非常有趣的評論,有人讓自己的真狗去嘗試這個任務(wù),結(jié)果發(fā)現(xiàn)它的狗真的能做到這一點。所以在某種程度上,我們的神經(jīng)網(wǎng)絡(luò)超越了“真狗”的表現(xiàn)。

Sonya Huang

我敢肯定我的狗是做不到的,哈哈。

Jim Fan

是的,人工狗智能(ADI),這是下一本冒險書的主題。

Sonya Huang

在虛擬世界領(lǐng)域,最近出現(xiàn)了很多令人難以置信的 3D 和視頻生成模型,許多都是基于 Transformer 的。你覺得我們是否已經(jīng)達到了那個可以憑借這些架構(gòu)實現(xiàn)理想目標的階段?或者你認為在模型架構(gòu)方面仍然需要一些突破?

Jim Fan

是的,我認為在機器人基礎(chǔ)模型方面,我們還沒有充分發(fā)揮 Transformer 架構(gòu)的極限。當(dāng)前更大的瓶頸是數(shù)據(jù)問題。

正如我之前提到的,我們無法從互聯(lián)網(wǎng)上下載機器人控制的數(shù)據(jù)。我們必須在模擬中或通過真實機器人收集這些數(shù)據(jù)。

一旦我們有了成熟的數(shù)據(jù)管道,我們就可以將這些數(shù)據(jù) token 化,然后將它們送入 Transformer 進行壓縮,就像 Transformer 預(yù)測 Wikipedia 上的下一個詞一樣。

我們?nèi)栽隍炞C這些假設(shè),但我認為 Transformer 的極限還未被充分探索。目前也有很多替代 Transformer 架構(gòu)的研究,我對此非常感興趣。

最近有一種叫做測試時訓(xùn)練(test-time training)的架構(gòu),還有一些其他的替代方案,它們提出了一些非常有前景的想法。雖然這些替代架構(gòu)還沒有達到最前沿模型的表現(xiàn),但我期待看到更多 Transformer 的替代方案出現(xiàn)。

Stephanie Zhan

有沒有什么特別吸引你注意的模型,為什么?

Jim Fan

是的,我提到了“member”工作和“測試時訓(xùn)練”模型,這些模型在不同時間點表現(xiàn)得更有效率。與 Transformer 模型需要處理所有過去的 token 不同,這些模型有更高效的內(nèi)在機制,所以我覺得它們很有前途。不過,我們需要將它們擴展到前沿模型的規(guī)模,才能真正看到它們與 Transformer 的正面對比。

Stephanie Zhan

具身智能領(lǐng)域之外,你對 AI 最感興趣的是什么?

Jim Fan

我對視頻生成特別興奮,因為我認為視頻生成是一種世界模擬器。我們可以從數(shù)據(jù)中學(xué)習(xí)物理和渲染。我們已經(jīng)看到了像 OpenAI 的 Sora 這樣的模型,后來有很多新模型跟上了 Sora,所以這是一個正在進行的研究話題。

Sonya Huang

世界模擬器能帶給我們什么?

Jim Fan

我認為它能為我們帶來一個數(shù)據(jù)驅(qū)動的模擬環(huán)境,在其中我們可以訓(xùn)練具身智能,那將會非常了不起。

Stephanie Zhan

從長期來看,你對 AI 最感興趣的是什么?十年或更久以后?

Jim Fan

有幾個方面。首先是推理方面,我對能夠編程的模型非常感興趣。我認為編程是一個非?;A(chǔ)的推理任務(wù),同時具有巨大的經(jīng)濟價值。也許十年后,我們會有達到人類水平的編程智能體,這將大大加速開發(fā)進程,使用這些大模型本身。第二個方面當(dāng)然是機器人技術(shù)。

我認為十年后,我們將擁有像人類一樣可靠和敏捷的人形機器人,甚至可能超越人類。我希望到那時,Project Groot會取得成功,我們能夠擁有幫助我們?nèi)粘I畹娜诵螜C器人。

我只是希望機器人能幫我洗衣服。這是我的夢想。

Sonya Huang

你覺得哪一年機器人會幫我們洗衣服?

Jim Fan

越快越好,我已經(jīng)等不及了。

Sonya Huang

在 AI 領(lǐng)域,誰最啟發(fā)你?你曾有機會與許多偉大的 AI 人物共事,最早可以追溯到你的實習(xí)時期?,F(xiàn)在誰對你影響最大?

Jim Fan

我在 AI 領(lǐng)域有太多的英雄。首先,我非常敬佩我的博士導(dǎo)師 Fei-Fei Li。她教會了我如何培養(yǎng)良好的研究品味。

有時候,問題不是如何解決,而是要確定哪些問題值得解決。實際上,“什么問題”比“如何解決問題”要難得多。

在博士期間,我在她的指導(dǎo)下轉(zhuǎn)向了具身智能研究,現(xiàn)在回想起來,這是正確的方向。我相信 AI 智能體的未來將是具身的,不論是用于機器人還是虛擬世界。

我也很敬佩 Andrej Karpathy,他是一位偉大的教育家,他寫代碼就像寫詩一樣,我非常仰慕他。還有 Jensen Huang,我對他的敬佩之情溢于言表。他不僅關(guān)心 AI 研究,還非常了解模型的技術(shù)細節(jié),這讓我非常佩服。

Stephanie Zhan

談到擁有良好的研究品味,你對那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人有何建議?他們該如何找到正確的問題去解決?

Jim Fan

我認為有一些研究論文現(xiàn)在變得越來越容易理解,里面有一些非常好的想法,而且越來越實用,而不僅僅是理論性的機器學(xué)習(xí)。因此,我建議大家保持對最新文獻的關(guān)注,同時嘗試其他人開發(fā)的開源工具。比如在 Nvidia ,我們開發(fā)了模擬器工具,任何人都可以訪問并下載,可以在模擬環(huán)境中試驗機器人,親自實踐是非常重要的。

Stephanie Zhan

說到 Jensen 作為一個偶像,你認為那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人能從他身上學(xué)到哪些實用的建議?

Jim Fan

我認為是找到正確的方向去努力。例如, Nvidia 押注于人形機器人,因為我們相信這是未來。還有具身智能,如果我們相信十年后世界上會有和 iPhone 一樣多的智能機器人,那么我們最好今天就開始努力。

VC 今年以來對 AI 初創(chuàng)公司投資達 641 億美元,接近 2021 年峰值,但全球 AI 年收入總額也才數(shù)百億美元

本文由人人都是產(chǎn)品經(jīng)理作者【有新Newin】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!