李飛飛最新 a16z 對(duì)話
李飛飛和其他AI領(lǐng)域的專家在a16z的對(duì)話中探討了AI的歷史、現(xiàn)狀和未來,特別強(qiáng)調(diào)了空間智能的重要性,并且還預(yù)測(cè)了AI技術(shù)將在未來帶來的變革性新應(yīng)用。
近日,李飛飛與 a16z 合伙人 Martin Casado 以及研究者 Justin Johnson 展開討論了 AI 領(lǐng)域的歷史、現(xiàn)狀以及未來發(fā)展方向,話題涵蓋了 AI 技術(shù)的各個(gè)層面,特別是生成式 AI 和空間智能的未來潛力。
李飛飛強(qiáng)調(diào),生成式 AI 在她的研究生階段就已經(jīng)存在,但早期技術(shù)還不成熟。隨著深度學(xué)習(xí)和計(jì)算能力的飛躍,生成式 AI 在最近幾年取得了令人矚目的進(jìn)展,成為 AI 領(lǐng)域的核心突破之一。
她還介紹了最新創(chuàng)業(yè)項(xiàng)目 World Labs,專注于“空間智能”,即機(jī)器在 3D 和 4D 空間中的理解和互動(dòng)能力。
她指出,空間智能不僅適用于虛擬世界的生成,還可以融合現(xiàn)實(shí)世界,廣泛應(yīng)用于增強(qiáng)現(xiàn)實(shí)(AR)、虛擬現(xiàn)實(shí)(VR)和機(jī)器人領(lǐng)域,而 AI 技術(shù)的進(jìn)步將為我們帶來無法想象的新應(yīng)用場(chǎng)景,包括虛擬世界生成、增強(qiáng)現(xiàn)實(shí)和與物理世界的交互。
以下為這次對(duì)話主要內(nèi)容,enjoy~
Martin Casado
在過去的兩年里,我們看到了一波涌現(xiàn)的消費(fèi)級(jí) AI 公司和技術(shù),這個(gè)過程非常瘋狂。而你們已經(jīng)在這個(gè)領(lǐng)域工作了幾十年。所以我們可能聊一下,你們?cè)谶@個(gè)過程中做出的關(guān)鍵貢獻(xiàn)以及洞見。
Feifei Li
這是一個(gè)非常激動(dòng)人心的時(shí)刻,回顧一下, AI 正處于一個(gè)令人興奮的時(shí)刻。我個(gè)人已經(jīng)從事這個(gè)領(lǐng)域超過二十年,我們走出了上一次的 AI 寒冬,見證了現(xiàn)代 AI 的誕生。隨后我們看到深度學(xué)習(xí)的興起,它向我們展示了各種可能性,比如下棋。
然后,我們開始看到技術(shù)的深入發(fā)展以及行業(yè)對(duì)早期可能性的應(yīng)用,比如語言模型?,F(xiàn)在,我認(rèn)為我們正處在一次“寒武紀(jì)大爆發(fā)”中。
在某種意義上來說,現(xiàn)在除了文本,我們還看到像素、視頻、音頻等都開始與 AI 應(yīng)用和模型結(jié)合,所以這是一個(gè)非常令人興奮的時(shí)刻。
Martin Casado
我認(rèn)識(shí)你們倆很久了,很多人也認(rèn)識(shí)你們,因?yàn)槟銈冊(cè)谶@個(gè)領(lǐng)域非常突出。但并不是所有人都了解你們?cè)?AI 領(lǐng)域的起步,所以或許我們可以簡(jiǎn)單介紹一下你們的背景,幫助觀眾建立基礎(chǔ)認(rèn)知。
Justin Johnson
好的,我最初接觸 AI 是在本科快結(jié)束時(shí)。我在加州理工學(xué)院(Caltech)學(xué)習(xí)數(shù)學(xué)和計(jì)算機(jī)科學(xué),那段時(shí)間非常棒。在那期間,有一篇非常有名的論文發(fā)布了,那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“貓論文”,這是我第一次接觸深度學(xué)習(xí)的概念。
這種技術(shù)讓我感到驚艷,那是我第一次遇到這種配方:強(qiáng)大的通用學(xué)習(xí)算法、巨大的計(jì)算資源和大量的數(shù)據(jù)結(jié)合在一起時(shí),會(huì)發(fā)生一些神奇的事情。
我大約在 2011 年、 2012 年左右接觸到這個(gè)想法,當(dāng)時(shí)我就覺得這將是我未來要做的事情。
顯然,要做這些工作必須去讀研究生,于是我發(fā)現(xiàn) Feifei 在斯坦福,她當(dāng)時(shí)是世界上少數(shù)幾位深入研究這一領(lǐng)域的人之一。
當(dāng)時(shí)是從事深度學(xué)習(xí)和計(jì)算機(jī)視覺的絕佳時(shí)機(jī),因?yàn)檫@是技術(shù)從萌芽期走向成熟并廣泛應(yīng)用的時(shí)刻。
那段時(shí)間,我們看到了語言建模的開端,也看到了區(qū)分性計(jì)算機(jī)視覺的起步——
你可以通過圖片理解其中的內(nèi)容。這段時(shí)間還出現(xiàn)了我們今天稱之為生成式 AI 的早期發(fā)展,生成圖像、生成文本等算法核心部分也是在我讀博期間由學(xué)術(shù)界解決的。
當(dāng)時(shí)每天早上醒來,我都會(huì)打開 arXiv 查看最新的研究成果,就像拆圣誕禮物一樣,幾乎每天都有新的發(fā)現(xiàn)。
過去兩年里,世界其他人也開始意識(shí)到,每天通過 AI 技術(shù)有新的“圣誕禮物”收到。但對(duì)我們這些從事這個(gè)領(lǐng)域十多年的人來說,這種體驗(yàn)早就有了。
Feifei Li
顯然,我比Justin要年長(zhǎng)得多。我是從物理學(xué)進(jìn)入 AI 領(lǐng)域的,因?yàn)槲业谋究票尘笆俏锢韺W(xué)。物理學(xué)是一門教你思考大膽問題的學(xué)科,比如世界上未解之謎。
在物理學(xué)中,這些問題可能與原子世界、宇宙相關(guān),但這種訓(xùn)練讓我產(chǎn)生了對(duì)另一個(gè)問題的興趣——智能。因此,我在加州理工學(xué)院做了 AI 和計(jì)算神經(jīng)科學(xué)的博士研究。Justin和我雖然沒有在加州理工學(xué)院重疊過,但我們共享相同的母校。
Justin Johnson
還有相同的導(dǎo)師?
Feifei Li
是的,你的本科導(dǎo)師也是我的博士導(dǎo)師,Pietro Perona。在我讀博期間, AI 在公眾視野里正處于寒冬,但在我眼中并非如此。
這更像是春天前的冬眠期,機(jī)器學(xué)習(xí)和生成模型正在蓄積力量。我認(rèn)為我是機(jī)器學(xué)習(xí)領(lǐng)域的“本地人”,而 Justin 的那一代是深度學(xué)習(xí)的“原住民”。
機(jī)器學(xué)習(xí)是深度學(xué)習(xí)的前身,我們當(dāng)時(shí)實(shí)驗(yàn)了各種模型。
但在我博士結(jié)束時(shí)以及擔(dān)任助理教授期間,我的學(xué)生和我實(shí)驗(yàn)室意識(shí)到,有一個(gè)被忽視的 AI 元素在驅(qū)動(dòng)著泛化能力,這個(gè)領(lǐng)域當(dāng)時(shí)并未深入思考,那就是數(shù)據(jù)。我們當(dāng)時(shí)專注于貝葉斯模型等復(fù)雜模型,而忽略了讓數(shù)據(jù)驅(qū)動(dòng)模型的重要性。
這是我們押注 ImageNet 的原因之一。當(dāng)時(shí)所有領(lǐng)域的數(shù)據(jù)集規(guī)模都很小,計(jì)算機(jī)視覺和自然語言處理的標(biāo)準(zhǔn)數(shù)據(jù)集都是幾千或幾萬條數(shù)據(jù),但我們意識(shí)到需要提升到互聯(lián)網(wǎng)規(guī)模。
幸運(yùn)的是,互聯(lián)網(wǎng)時(shí)代也正在崛起,我們乘上了這股浪潮,也正是在這個(gè)時(shí)候我來到了斯坦福。
Martin Casado
這些時(shí)代就像我們經(jīng)常談?wù)摰哪切?,比?ImageNet 顯然是推動(dòng)或至少是讓計(jì)算機(jī)視覺在生成式 AI 領(lǐng)域中流行并具備可行性的重要時(shí)代。
我們通常會(huì)提到兩個(gè)關(guān)鍵的突破:一個(gè)是 Transformer 的論文,即“注意力機(jī)制”(attention),另一個(gè)是較少談到的“穩(wěn)定擴(kuò)散”(stable diffusion)。
用這種方式來理解這兩個(gè)來自學(xué)術(shù)界(尤其是谷歌)的算法突破是否合理?或者說這更是一個(gè)有意為之的過程?亦或是還有其他一些不常被提及的重大突破也推動(dòng)了我們走到今天?
Justin Johnson
是的,我認(rèn)為最大的突破在于計(jì)算能力。我知道 AI 的故事往往也是計(jì)算能力的故事,但即便人們經(jīng)常提到它,我認(rèn)為它的影響還是被低估了。
過去十年我們?cè)谟?jì)算能力上看到的增長(zhǎng)是驚人的。被認(rèn)為是深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域突破性時(shí)刻的第一篇論文是 AlexNet,這是一篇 2012 年的論文,深度神經(jīng)網(wǎng)絡(luò)在 ImageNet 挑戰(zhàn)賽中表現(xiàn)出色,遠(yuǎn)超其他當(dāng)時(shí)的算法。
在研究生期間你可能會(huì)接觸到的那些算法,和 AlexNet 相比相形見絀。AlexNet 是一個(gè)擁有 6000 萬個(gè)參數(shù)的深度神經(jīng)網(wǎng)絡(luò),它在兩張 GTX 580 顯卡上訓(xùn)練了六天,GTX 580 是當(dāng)時(shí)最強(qiáng)大的消費(fèi)級(jí)顯卡,發(fā)布于 2010 年。
我昨晚查了一些數(shù)據(jù),想把這些放在一個(gè)更大的背景中看待。英偉達(dá)最新的顯卡是 GB200,你們猜一下 GTX 580 和 GB200 之間的計(jì)算能力差距有多大?
數(shù)量在幾千左右,所以我昨晚算了一下數(shù)據(jù)。像是那兩周的訓(xùn)練,那六天是在兩塊GTX 580上運(yùn)行的,如果擴(kuò)展一下,大概可以在一塊GB200上運(yùn)行不到五分鐘。
這樣想的話,真的有個(gè)很好的論點(diǎn)—— 2012 年 AlexNet 在 ImageNet 挑戰(zhàn)賽上的論文真的是一個(gè)非常經(jīng)典的模型,那就是卷積神經(jīng)網(wǎng)絡(luò)模型。
而實(shí)際上,這個(gè)概念早在 1980 年代就已經(jīng)出現(xiàn)了,我還記得作為研究生學(xué)習(xí)的第一篇論文,內(nèi)容也差不多,有六七層的網(wǎng)絡(luò)結(jié)構(gòu)。AlexNet 和卷積神經(jīng)網(wǎng)絡(luò)模型的唯一區(qū)別幾乎就是 GPU ——使用了兩個(gè) GPU 和海量的數(shù)據(jù)。
所以我本來要說的是,大多數(shù)人現(xiàn)在都熟悉所謂的“痛苦的教訓(xùn)”(bitter lesson),這個(gè)教訓(xùn)說的是,如果你開發(fā)一個(gè)算法,只要確保你能利用現(xiàn)有的計(jì)算資源,因?yàn)檫@些資源會(huì)逐漸變得可用。于是你只需要一個(gè)能夠不斷進(jìn)步的系統(tǒng)。
另一方面,似乎還有另一個(gè)同樣有說服力的觀點(diǎn),那就是新的數(shù)據(jù)源實(shí)際上解鎖了深度學(xué)習(xí)。ImageNet 就是一個(gè)很好的例子。雖然很多人認(rèn)為自注意力機(jī)制對(duì) Transformer 模型很重要,但他們也會(huì)說這是利用人工標(biāo)注數(shù)據(jù)的一種方式。
因?yàn)槿祟悶榫渥咏Y(jié)構(gòu)提供了標(biāo)注,如果你看看 CLIP 模型,它實(shí)際上是通過互聯(lián)網(wǎng)讓人類使用alt標(biāo)簽來標(biāo)記圖片。
因此,這實(shí)際上是一個(gè)關(guān)于數(shù)據(jù)的故事,而不是關(guān)于計(jì)算的故事。那么答案是兩者兼有,還是更偏向某一方呢?我認(rèn)為是兩者兼有,但你也提到了另一個(gè)非常關(guān)鍵的點(diǎn)。
Martin Casado
我覺得在算法領(lǐng)域中,實(shí)際上有兩個(gè)明顯不同的時(shí)代。ImageNet 時(shí)代是監(jiān)督學(xué)習(xí)的時(shí)代。在這個(gè)時(shí)代,我們有很多數(shù)據(jù),但我們不知道如何僅憑數(shù)據(jù)本身來訓(xùn)練。
ImageNet 和其他同時(shí)期的數(shù)據(jù)集的預(yù)期是,我們會(huì)有大量的圖像,但我們需要人類對(duì)每張圖像進(jìn)行標(biāo)注。而我們訓(xùn)練的所有數(shù)據(jù),都是由人類標(biāo)注員逐一查看并標(biāo)注的。
而算法的重大突破在于,我們現(xiàn)在知道如何在不依賴人類標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。對(duì)于一個(gè)沒有 AI 背景的普通人來說,似乎如果你在訓(xùn)練人類數(shù)據(jù),人類實(shí)際上已經(jīng)進(jìn)行了標(biāo)注,只是這種標(biāo)注并不是顯式的。
Justin Johnson
是的,哲學(xué)上來說,這是一個(gè)非常重要的問題,但這個(gè)問題在語言領(lǐng)域比在圖像領(lǐng)域更為真實(shí)。是的,但我確實(shí)認(rèn)為這是一個(gè)重要的區(qū)別。
CLIP 確實(shí)是由人類標(biāo)注的。我認(rèn)為自注意力機(jī)制是人類已經(jīng)理解了事物之間的關(guān)系,然后你通過這些關(guān)系進(jìn)行學(xué)習(xí)。
所以它仍然是由人類標(biāo)注的,只不過這種標(biāo)注是隱式的,而不是顯式的。區(qū)別在于,在監(jiān)督學(xué)習(xí)時(shí)代,我們的學(xué)習(xí)任務(wù)受到更多限制。我們必須設(shè)計(jì)出一套我們想要發(fā)現(xiàn)的概念本體論。
比如在 ImageNet 中,F(xiàn)ei-Fei Li和她的學(xué)生們花了很多時(shí)間思考 ImageNet 挑戰(zhàn)賽中的一千個(gè)類別應(yīng)該是什么。而在同時(shí)期的其他數(shù)據(jù)集,如用于目標(biāo)檢測(cè)的COCO數(shù)據(jù)集,他們也花了很多心思去決定放入哪些80個(gè)類別。
Martin Casado
那么讓我們談?wù)勆墒?AI 。當(dāng)我攻讀博士學(xué)位的時(shí)候,在你們出現(xiàn)之前,我上過 Andrew Ng 的機(jī)器學(xué)習(xí)課程,還學(xué)過 Daphne Koller 非常復(fù)雜的貝葉斯課程,對(duì)我來說這些都很復(fù)雜。
當(dāng)時(shí)的很多內(nèi)容都是預(yù)測(cè)建模。我還記得你解鎖了整個(gè)視覺領(lǐng)域的東西,但是生成式 AI 大約是在過去四年中才出現(xiàn)的。
這對(duì)我來說是一個(gè)完全不同的領(lǐng)域——你不再是識(shí)別物體,也不是在預(yù)測(cè)什么,而是在生成新的東西。
所以也許我們可以談?wù)勈鞘裁搓P(guān)鍵因素讓生成式 AI 得以實(shí)現(xiàn),它和之前的不同之處,以及我們是否應(yīng)該以不同的方式去看待它,它是否是一個(gè)連續(xù)發(fā)展的部分還是另一個(gè)全新的領(lǐng)域?
Feifei Li
這非常有趣,即使在我研究生時(shí)代,生成模型就已經(jīng)存在了。我們當(dāng)時(shí)就想做生成,只不過沒人記得了,即使是用字母和數(shù)字做生成,我們也在嘗試一些事情。Jeff Hinton 當(dāng)時(shí)有一些關(guān)于生成的論文,我們也在思考如何生成。
實(shí)際上,如果你從概率分布的角度來看,數(shù)學(xué)上是可以進(jìn)行生成的,只是當(dāng)時(shí)生成的東西根本無法讓人感到驚艷。所以,盡管從數(shù)學(xué)理論上來看生成的概念是存在的,但實(shí)際上沒有任何生成效果讓人感到滿意。
然后我想特別提到一位博士生,他在深度學(xué)習(xí)方面有著濃厚的興趣,來到了我的實(shí)驗(yàn)室。這個(gè)博士生的整個(gè)博士學(xué)習(xí)經(jīng)歷幾乎可以說是這個(gè)領(lǐng)域發(fā)展軌跡的縮影。
他的第一個(gè)項(xiàng)目是數(shù)據(jù),我逼著他做,盡管他不喜歡,但事后他也承認(rèn)學(xué)到了很多有用的東西。“現(xiàn)在我很高興你能這么說?!庇谑俏覀冝D(zhuǎn)向深度學(xué)習(xí),核心問題是如何從圖像生成文字。實(shí)際上,這個(gè)過程中有三個(gè)明確的階段。
第一個(gè)階段是將圖像和文字進(jìn)行匹配。我們有圖像,也有文字,接下來我們要看它們之間的關(guān)聯(lián)度。我的第一篇學(xué)術(shù)論文,也是我的第一篇博士論文,研究的就是基于場(chǎng)景圖的圖像檢索。
接下來,我們繼續(xù)深入研究,從像素生成文字,這方面他和 Andrej 都做了很多工作,但依然是一種非常有損的生成方式,信息從像素世界中獲取時(shí)損失很大。
中間階段有一個(gè)非常著名的工作,那個(gè)時(shí)候有人第一次實(shí)現(xiàn)了實(shí)時(shí)化。2015 年,一篇叫《神經(jīng)算法的藝術(shù)風(fēng)格》的論文由 Leon Gatys 領(lǐng)導(dǎo)發(fā)表。他們展示了將現(xiàn)實(shí)世界的照片轉(zhuǎn)換為梵高風(fēng)格的圖片。
我們現(xiàn)在可能習(xí)以為常,但那是在 2015 年,那篇論文突然出現(xiàn)在 arXiv 上,震驚了我。我感覺大腦中被注入了一種“生成 AI 的病毒”。我心想:“天哪,我需要理解這個(gè)算法,玩一玩,試著把自己的圖片變成梵高風(fēng)格。”
于是,我花了一個(gè)長(zhǎng)周末重新實(shí)現(xiàn)了這個(gè)算法,讓它能夠正常運(yùn)行。其實(shí)它是一個(gè)非常簡(jiǎn)單的算法,我的實(shí)現(xiàn)大概只有 300 行代碼,當(dāng)時(shí)是用Lua寫的,因?yàn)槟菚r(shí)候還沒有 PyTorch,我們用的是 Lua Torch。
不過盡管算法簡(jiǎn)單,它的速度很慢。每生成一張圖片,你都需要運(yùn)行優(yōu)化循環(huán),耗費(fèi)很多時(shí)間。生成的圖片很漂亮,但我就是希望它能更快一點(diǎn)。最后,我們確實(shí)讓它變快了。
還有一點(diǎn)我非常自豪的是,在生成 AI 真正走向世界之前,他在博士研究的最后一部分做了一個(gè)非常前沿的工作。
這個(gè)項(xiàng)目是通過輸入自然語言來生成完整的圖像,這可以說是最早的生成 AI 工作之一。我們使用的是GANs,但當(dāng)時(shí)它非常難用。問題是,我們還沒有準(zhǔn)備好用自然語言來描述一幅完整的圖像。
于是,他采用了一個(gè)場(chǎng)景圖結(jié)構(gòu)輸入方式,輸入內(nèi)容是“羊群”、“草地”、“天空”等,并用這種方式生成了一幅完整的圖像。
從數(shù)據(jù)匹配到風(fēng)格轉(zhuǎn)換,再到生成圖像,我們逐漸看到了一個(gè)完整的轉(zhuǎn)變。你問這是否是一個(gè)巨大的變化,對(duì)于像我們這樣的人來說,這是一個(gè)持續(xù)的過程,但對(duì)于大眾而言,成果確實(shí)顯得突然且具有沖擊力。
Martin Casado
我讀了你的書,真是一本很棒的書,我強(qiáng)烈推薦大家去讀。而且,F(xiàn)ei-Fei,我想說的是,長(zhǎng)期以來,你的很多研究和方向都聚焦于空間智能、像素處理等領(lǐng)域。
現(xiàn)在你在做的 World Labs 也和空間智能相關(guān)。能談?wù)勥@是你長(zhǎng)期旅程的一部分嗎?你為什么現(xiàn)在決定去做這個(gè)?這是否是某種技術(shù)突破或個(gè)人原因?你能否帶我們從 AI 研究的背景過渡到 World Labs?
Fei-Fei Li
對(duì)于我來說,這既是個(gè)人的追求,也是智力上的旅程。你提到了我的書,我的整個(gè)智力旅程實(shí)際上是一種對(duì)“北極星”的追尋,同時(shí)也堅(jiān)信這些北極星對(duì)于我們領(lǐng)域的進(jìn)步至關(guān)重要。
在一開始的時(shí)候,我還記得研究生畢業(yè)后,我認(rèn)為我的北極星是“為圖像講故事”,因?yàn)閷?duì)我來說,這是視覺智能的一個(gè)重要組成部分,也就是你所說的 AI 的一部分。
但是,當(dāng) Justin 和 Andrej 完成他們的工作時(shí),我想:“天哪,這就是我一生的夢(mèng)想,我接下來要做什么?”這個(gè)進(jìn)展比我預(yù)期的快得多——我本以為需要一百年才能實(shí)現(xiàn)這些。
視覺智能始終是我的熱情所在。我堅(jiān)信,對(duì)于每一個(gè)有智能的存在,比如人類、機(jī)器人,或者其他形式的存在,學(xué)會(huì)如何看待這個(gè)世界、如何推理、如何與世界互動(dòng)是至關(guān)重要的。
無論是導(dǎo)航、操控、制造,甚至是構(gòu)建文明,視覺和空間智能都在其中扮演著基礎(chǔ)性角色。
它的基礎(chǔ)性可能和語言一樣,甚至在某些方面更加古老和基本。因此,World Labs的北極星,就是解鎖空間智能,而現(xiàn)在是正確的時(shí)機(jī)。
就像 Justin 說的那樣,我們已經(jīng)具備了所需的資源——計(jì)算能力和對(duì)數(shù)據(jù)更深的理解。與 ImageNet 時(shí)代相比,我們?cè)跀?shù)據(jù)理解上變得更加復(fù)雜。
我們也擁有了算法方面的進(jìn)展,比如我們的共同創(chuàng)始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我們覺得現(xiàn)在是下定決心、專注這一領(lǐng)域并解鎖其潛力的最佳時(shí)機(jī)。
Martin Casado
為了讓大家理解清楚,你現(xiàn)在創(chuàng)辦了這家公司——World Labs,而你們要解決的問題就是“空間智能”。你能簡(jiǎn)明扼要地描述一下,什么是空間智能嗎?
Fei-Fei Li
空間智能指的是機(jī)器理解、感知、推理并在 3D 空間和時(shí)間中采取行動(dòng)的能力。具體來說,它是指理解物體和事件如何在 3D 空間和時(shí)間中定位,以及世界中的交互如何影響這些 3D 位置。
這不僅僅是讓機(jī)器停留在數(shù)據(jù)中心或主機(jī)中,而是讓它走向現(xiàn)實(shí)世界,去理解這個(gè)豐富的 3D 、4D 世界。
Martin Casado
你說的這個(gè)“世界”是指現(xiàn)實(shí)的物理世界,還是一種抽象概念上的世界?
Fei-Fei Li
我認(rèn)為兩者兼有。這也代表了我們長(zhǎng)期的愿景。即使你是在生成虛擬世界或內(nèi)容,定位于 3D 中仍然有很多好處?;蛘弋?dāng)你在識(shí)別現(xiàn)實(shí)世界時(shí),能夠?qū)?3D 理解應(yīng)用到真實(shí)世界中也是其中的一部分。
Martin Casado
你們的共同創(chuàng)始人團(tuán)隊(duì)真是非常強(qiáng)大。那你覺得為什么現(xiàn)在是做這件事的合適時(shí)機(jī)呢?
Fei-Fei Li
這實(shí)際上是一個(gè)長(zhǎng)期進(jìn)化的過程。在博士畢業(yè)后,我開始尋找成為獨(dú)立研究員的道路,并且思考 AI 和計(jì)算機(jī)視覺領(lǐng)域中的大問題。當(dāng)時(shí)我得出的結(jié)論是,過去十年主要是在理解已經(jīng)存在的數(shù)據(jù),而接下來的十年將會(huì)是理解新的數(shù)據(jù)。
過去的數(shù)據(jù),主要是網(wǎng)絡(luò)上已經(jīng)存在的圖像和視頻,而未來的數(shù)據(jù)則是全新的——智能手機(jī)出現(xiàn)了,這些手機(jī)有相機(jī),有新的傳感器,并且可以在 3D 世界中定位。這不僅僅是你從互聯(lián)網(wǎng)上獲取一堆像素并試圖判斷這是一只貓還是一只狗的問題了。
我們希望把這些圖像當(dāng)作與物理世界的通用傳感器,幫助我們理解世界的 3D 和4D 結(jié)構(gòu),無論是在物理空間還是生成空間中。
博士畢業(yè)后,我做了一個(gè)很大的轉(zhuǎn)變,進(jìn)入了 3D 計(jì)算機(jī)視覺領(lǐng)域,與我的同事們一起研究如何預(yù)測(cè)物體的 3D 形狀。后來,我對(duì)通過 2D 數(shù)據(jù)學(xué)習(xí) 3D 結(jié)構(gòu)的想法產(chǎn)生了濃厚的興趣。
我們討論數(shù)據(jù)時(shí)常會(huì)提到,獲取 3D 數(shù)據(jù)很難,但實(shí)際上 2D 圖像是 3D 世界的投影,這里有很多可以利用的數(shù)學(xué)結(jié)構(gòu)。即便你有大量的 2D 數(shù)據(jù),你也可以通過這些數(shù)學(xué)結(jié)構(gòu)推導(dǎo)出 3D 世界的結(jié)構(gòu)。
2020年是一個(gè)突破性時(shí)刻。我們的共同創(chuàng)始人 Ben Mildenhall 提出了 Nerf (神經(jīng)輻射場(chǎng))方法。這是一種非常簡(jiǎn)單、清晰的方式,可以通過 2D 觀測(cè)推導(dǎo)出 3D 結(jié)構(gòu),點(diǎn)燃了整個(gè) 3D 計(jì)算機(jī)視覺領(lǐng)域。
與此同時(shí), LLM 也開始嶄露頭角。很多語言建模的工作實(shí)際上在學(xué)術(shù)界已經(jīng)發(fā)展了很長(zhǎng)時(shí)間。即使在我的博士階段,我也與 Andrej Karpathy 在 2014 年進(jìn)行了一些語言建模工作。
Justin Johnson
這其實(shí)是出現(xiàn)在 Transformer 之前的事情,但到了 GPT-2 的時(shí)代,你在學(xué)術(shù)界已經(jīng)很難再做這樣的模型了,因?yàn)樗鼈冃枰挠?jì)算資源太大了。然而,有趣的是,Ben 提出的 Nerf 方法,只需要在單個(gè) GPU 上訓(xùn)練幾個(gè)小時(shí)。
這讓很多學(xué)術(shù)研究者開始重新聚焦于這些問題,因?yàn)榭梢栽谟邢薜挠?jì)算資源下解決一些核心算法問題,而且你可以在單個(gè) GPU 上獲得最先進(jìn)的成果。
所以當(dāng)時(shí)很多學(xué)術(shù)研究者都在思考:我們?nèi)绾瓮ㄟ^核心算法來推動(dòng)這個(gè)領(lǐng)域的發(fā)展?我和Fei-Fei聊了很多,我們都非常確信這一點(diǎn)。
Fei-Fei Li
是的,我們發(fā)現(xiàn)我們的研究方向在某種程度上正朝著相似的目標(biāo)前進(jìn)。我還想講述一個(gè)很有趣的技術(shù)問題,或者說一個(gè)關(guān)于像素的技術(shù)故事。
很多從事語言研究的人可能不知道,在生成 AI 時(shí)代之前,我們這些從事計(jì)算機(jī)視覺領(lǐng)域的人,實(shí)際上有一個(gè)很長(zhǎng)的歷史,叫做 3D 重建的研究。
這可以追溯到上世紀(jì)70年代,你可以通過拍攝照片——因?yàn)槿祟愑袃芍谎劬?,所以可以用立體照片來嘗試三角測(cè)量,構(gòu)建 3D 形狀。然而這是一個(gè)非常難的問題,至今尚未完全解決,因?yàn)榇嬖谄ヅ鋯栴}等復(fù)雜情況。
這個(gè)領(lǐng)域有著長(zhǎng)期的進(jìn)展,但是當(dāng) Nerf 和生成方法結(jié)合,尤其是在擴(kuò)散模型的背景下, 3D 重建與生成突然開始融合。
在計(jì)算機(jī)視覺領(lǐng)域內(nèi),我們突然發(fā)現(xiàn),如果我們看到某個(gè)東西,或者想象某個(gè)東西,二者都可以匯聚到生成它的方向。這是一個(gè)非常重要的時(shí)刻,但很多人可能沒有注意到這一點(diǎn),因?yàn)槲覀儧]有像談?wù)?LLM 那樣廣泛討論它。
Justin Johnson
對(duì),在像素空間中有重建,例如你重建一個(gè)真實(shí)的場(chǎng)景;而如果你看不到那個(gè)場(chǎng)景,則會(huì)使用生成技術(shù)。這兩者實(shí)際上是非常相似的。
整個(gè)對(duì)話中你一直在談?wù)撜Z言和像素,或許這是一個(gè)好時(shí)機(jī)來討論空間智能與語言方法的對(duì)比,比如它們是互補(bǔ)的,還是完全不同的?
Fei-Fei Li
我認(rèn)為它們是互補(bǔ)的。我不確定如何定義“完全不同”,但我可以嘗試做個(gè)對(duì)比。如今,很多人都在談?wù)揋PT、開放 AI 以及多模態(tài)模型。
大家覺得這些模型既能處理像素,也能處理語言。那么它們是否能實(shí)現(xiàn)我們想要的空間推理呢?為了回答這個(gè)問題,我們需要打開這些系統(tǒng)的“黑箱”,看看它們是如何在底層工作的。
語言模型和我們現(xiàn)在看到的多模態(tài)語言模型,其底層的表示是“一維的”。我們談?wù)撋舷挛拈L(zhǎng)度、 Transformer 、序列、注意力機(jī)制,但歸根結(jié)底,這些模型的表示是基于一維的序列化令牌。
這種表示在處理語言時(shí)是非常自然的,因?yàn)槲谋颈旧砭褪怯梢痪S的離散字母序列組成的。這種一維表示是 LLM 成功的基礎(chǔ),現(xiàn)在我們看到的多模態(tài) LLM 也是如此,它們將其他模態(tài)(如圖像)“硬塞進(jìn)”這種一維的表示中。
而在空間智能領(lǐng)域,我們的思路正好相反——我們認(rèn)為世界的三維本質(zhì)應(yīng)該成為表示的核心。從算法的角度來看,這為我們處理數(shù)據(jù)和獲得不同類型的輸出提供了新的機(jī)會(huì),幫助我們解決一些截然不同的問題。
即使從一個(gè)粗略的層面來看,你可能會(huì)說:“多模態(tài) LLM 也能看圖像?!贝_實(shí)可以,但它們?cè)谔幚韴D像時(shí)沒有將三維的本質(zhì)置于其方法的核心。
Justin Johnson
我完全同意,討論一維與三維表示的根本性區(qū)別是非常核心的。此外,還有一個(gè)稍微哲學(xué)化的觀點(diǎn),但對(duì)我來說同樣重要:語言本質(zhì)上是一種純生成的信號(hào),世界上不存在語言。你走到大自然中不會(huì)看到天上寫著文字。
無論你輸入什么數(shù)據(jù),語言模型幾乎都可以通過足夠的泛化將相同的數(shù)據(jù)吐出來,這就是語言生成的特質(zhì)。
但 3D 世界不同,它遵循物理法則,擁有自己的結(jié)構(gòu)和材料。能夠從根本上提取這些信息,進(jìn)行表示和生成,這是一種完全不同的問題。盡管我們會(huì)借鑒語言模型中的一些有用的想法,但從根本上來說,這是一個(gè)不同的哲學(xué)問題。
Martin Casado
對(duì),所以語言模型是一維的,可能是對(duì)物理世界的不良表示,因?yàn)樗侨祟惿傻模瑤в袚p失。而另一個(gè)生成模型的模態(tài)是像素,即 2D 圖像和視頻。
如果你看視頻,可以看到 3D 場(chǎng)景,因?yàn)閿z像機(jī)可以平移。那么空間智能與 2D 視頻有什么不同呢?
Fei-Fei Li
這里有兩點(diǎn)值得思考。一是底層的表示,二是用戶體驗(yàn)的便利性。這兩者有時(shí)會(huì)讓人混淆。我們感知的是 2D ——我們的視網(wǎng)膜是二維的結(jié)構(gòu),但我們的大腦將其視為三維世界的投影。
你可能希望移動(dòng)物體、移動(dòng)攝像機(jī),原則上你可以用二維的表示和模型來做這些事情,但它并不適合解決你提出的問題。動(dòng)態(tài)三維世界的二維投影可能可以建模,但將三維表示放在模型的核心,能夠更好地適應(yīng)問題的需求。
我們的目標(biāo)是將更多的三維表示融入模型的核心,從而為用戶提供更好的體驗(yàn)。這也與我的“北極星”相關(guān)。為什么我們強(qiáng)調(diào)“空間智能”,而不是“平面像素智能”?
因?yàn)橹悄艿陌l(fā)展軌跡,如果你回顧進(jìn)化史,它的最終目的是讓動(dòng)物和人類能夠在世界中自由移動(dòng)、互動(dòng),進(jìn)而創(chuàng)造文明,甚至是做一片三明治。
因此,將這種 3D 的本質(zhì)轉(zhuǎn)化為技術(shù),是釋放無數(shù)潛在應(yīng)用的關(guān)鍵,即便有些看起來只是表面上的進(jìn)步。
Martin Casado
我認(rèn)為這是一個(gè)非常微妙卻至關(guān)重要的觀點(diǎn)?;蛟S我們可以通過談?wù)撘恍?yīng)用場(chǎng)景來進(jìn)一步深入討論。當(dāng)我們談?wù)撻_發(fā)一種可以實(shí)現(xiàn)空間智能的技術(shù)模型時(shí),它可能具體是什么樣子的?有哪些潛在的應(yīng)用場(chǎng)景?
Fei-Fei Li
我們?cè)O(shè)想的空間智能模型可以做很多事情,其中一個(gè)讓我特別興奮的是“世界生成”。類似于文本-圖像生成器,我們現(xiàn)在已經(jīng)有了文本-視頻生成器——輸入一張圖像或一段視頻,系統(tǒng)就能生成一個(gè)兩秒鐘的驚人片段。但我認(rèn)為我們可以將這一體驗(yàn)提升到 3D 世界。
我們可以想象空間智能未來幫助我們將這些體驗(yàn)提升到 3D ,不僅僅生成一張圖片或一段視頻,而是生成一個(gè)完整的、模擬的、豐富的互動(dòng) 3D 世界。也許用于游戲,也許用于虛擬攝影,應(yīng)用領(lǐng)域廣泛得令人難以想象。
Justin Johnson
我覺得這項(xiàng)技術(shù)會(huì)隨著時(shí)間的推移逐漸進(jìn)步。構(gòu)建這些東西非常困難,所以靜態(tài)問題可能會(huì)相對(duì)簡(jiǎn)單一些,但從長(zhǎng)遠(yuǎn)來看,我們希望它是完全動(dòng)態(tài)的、可交互的,正如你剛才所描述的一切。
Fei-Fei Li
是的,這正是空間智能的定義。我們會(huì)從更多的靜態(tài)問題開始,但你提到的所有內(nèi)容都在空間智能的未來規(guī)劃中。
Justin Johnson
這也體現(xiàn)在我們公司“World Labs”的名字上——這個(gè)名字的含義是關(guān)于構(gòu)建和理解世界。起初我們告訴別人這個(gè)名字時(shí),他們并不總是能理解,因?yàn)樵谟?jì)算機(jī)視覺、重建和生成領(lǐng)域,我們通常會(huì)對(duì)所能做的事情進(jìn)行區(qū)分。
第一級(jí)是識(shí)別物體,比如麥克風(fēng)、椅子等這些世界上的離散物體。許多 ImageNet 的工作都與識(shí)別物體有關(guān)。
但接下來我們提升到了場(chǎng)景的層次——場(chǎng)景是由物體組成的。例如,現(xiàn)在我們有一個(gè)錄音室,里面有桌子、麥克風(fēng)和坐在椅子上的人,這是物體的組合。
但我們想象的“世界”是超越場(chǎng)景的。場(chǎng)景可能是單一的東西,但我們希望打破這些界限,走出門外,走到街上,看到車流穿梭,看到樹葉在風(fēng)中搖動(dòng),并能夠與這些東西互動(dòng)。
Fei-Fei Li
另一件非常令人興奮的事情是關(guān)于“新媒體”這個(gè)詞。借助這項(xiàng)技術(shù),現(xiàn)實(shí)世界、虛擬想象世界或增強(qiáng)世界、預(yù)測(cè)世界之間的界限變得模糊。
真實(shí)世界是 3D 的,所以在數(shù)字世界中,必須有 3D 表示才能與真實(shí)世界融合。你不能只用 2D 甚至 1D 來有效地與真實(shí)的 3D 世界交互。
這種能力解鎖了無限的應(yīng)用場(chǎng)景。就像 Justin 提到的第一個(gè)應(yīng)用場(chǎng)景,虛擬世界的生成可以用于任何用途。第二個(gè)可能是增強(qiáng)現(xiàn)實(shí)。就在 World Labs 成立的那段時(shí)間,蘋果發(fā)布了 Vision Pro,他們使用了“空間計(jì)算”這個(gè)詞。
我們幾乎也在講同樣的事情,我們強(qiáng)調(diào)的是“空間智能”??臻g計(jì)算需要空間智能,這一點(diǎn)是毫無疑問的。
我們不知道未來的硬件形式會(huì)是什么樣子——可能是護(hù)目鏡、眼鏡,甚至隱形眼鏡。但在真實(shí)世界與虛擬世界之間的界面,無論是增強(qiáng)你的工作能力、幫助你修理汽車,哪怕你不是專業(yè)技工,或者只是為娛樂提供一個(gè)類似于“Pokemon Go++”的體驗(yàn),這項(xiàng)技術(shù)將成為 AR/VR 的操作系統(tǒng)。
Justin Johnson
極限情況下,AR 設(shè)備需要做的事情就是一直陪伴著你,實(shí)時(shí)理解你所看到的世界,幫助你完成日常生活中的任務(wù)。我對(duì)此感到非常興奮,尤其是虛擬與現(xiàn)實(shí)之間的融合。當(dāng)你能夠?qū)崟r(shí)完美地理解周圍環(huán)境中的 3D 時(shí),它甚至可能取代現(xiàn)實(shí)世界中的一些事物。
比如說,現(xiàn)在我們有各種不同尺寸的屏幕—— iPad、電腦顯示器、電視、手表等,它們?cè)诓煌膱?chǎng)景中呈現(xiàn)信息。但如果我們能夠無縫地將虛擬內(nèi)容與物理世界融合,這些設(shè)備就不再必要了。虛擬世界可以在正確的時(shí)刻用最合適的方式向你展示所需的信息。
另一項(xiàng)巨大的應(yīng)用是混合數(shù)字虛擬世界與 3D 物理世界,尤其是機(jī)器人領(lǐng)域。機(jī)器人必須在物理世界中行動(dòng),而它們的計(jì)算和大腦在數(shù)字世界中。學(xué)習(xí)與行為之間的橋梁,必須由空間智能來搭建。
Martin Casado
你提到了虛擬世界、增強(qiáng)現(xiàn)實(shí),現(xiàn)在你又談到了純粹的物理世界,比如用于機(jī)器人領(lǐng)域。這個(gè)方向非常廣泛,尤其是如果你計(jì)劃涉足這些不同的領(lǐng)域。你們?nèi)绾慰创疃燃夹g(shù)與這些具體應(yīng)用領(lǐng)域的關(guān)系?
Fei-Fei Li
我們認(rèn)為自己是一家深度技術(shù)公司,作為一個(gè)平臺(tái)公司,提供能夠服務(wù)于這些不同應(yīng)用場(chǎng)景的模型。至于哪個(gè)應(yīng)用場(chǎng)景更適合我們一開始關(guān)注的,我覺得現(xiàn)在的設(shè)備還不夠完善。
實(shí)際上,我在研究生時(shí)期就擁有了我的第一臺(tái) VR 頭戴設(shè)備。當(dāng)我戴上它時(shí),我心里想:“天哪,這太瘋狂了!”我相信很多人第一次使用VR時(shí)都有類似的體驗(yàn)。
我非常喜歡 Vision Pro,發(fā)布的那天我熬夜搶購了一個(gè),但現(xiàn)在作為大眾市場(chǎng)的平臺(tái),它還未完全成熟。因此,我們作為公司,可能會(huì)選擇一個(gè)已經(jīng)更為成熟的市場(chǎng)進(jìn)入。
有時(shí)通用性中也會(huì)有簡(jiǎn)潔性。我們有一個(gè)作為深度技術(shù)公司的愿景,相信有一些根本性的問題需要被很好地解決,如果解決得好,可以應(yīng)用于多個(gè)不同的領(lǐng)域。我們視公司的長(zhǎng)期目標(biāo)為構(gòu)建和實(shí)現(xiàn)空間智能的夢(mèng)想。
Justin Johnson
事實(shí)上,我認(rèn)為這就是你們所做的影響所在。我不認(rèn)為我們會(huì)真正完全到達(dá)那個(gè)終點(diǎn),因?yàn)檫@是一個(gè)如此根本的事物——宇宙本質(zhì)上是一個(gè)不斷演化的四維結(jié)構(gòu),而廣義上的空間智能就是理解這個(gè)結(jié)構(gòu)的全部深度,并找到其中所有的應(yīng)用。
所以,雖然我們今天有一套特定的想法,但我相信這段旅程會(huì)帶我們?nèi)ヒ恍┪覀儸F(xiàn)在根本無法想象的地方。
Fei-Fei Li
技術(shù)的神奇之處就在于,它會(huì)不斷打開更多的可能性。我們會(huì)持續(xù)推進(jìn),而這些可能性也會(huì)不斷擴(kuò)展。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號(hào):【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!