李飛飛創(chuàng)業(yè)后首次專訪:空間智能不僅適用虛擬世界生成,還可融合現(xiàn)實世界,AI 技術進步將帶來無法想象的新應用場景

0 評論 4562 瀏覽 6 收藏 41 分鐘

在人工智能的浪潮中,空間智能作為AI領域的一個新前沿,正逐漸展現(xiàn)出其巨大的潛力和應用前景。李飛飛教授的創(chuàng)業(yè)公司W(wǎng)orld Labs和全明星創(chuàng)業(yè)團隊,為我們描繪了一個關于空間智能的未來。

不久之前,李飛飛教授的空間智能創(chuàng)業(yè)公司 World Labs 以及全明星的創(chuàng)業(yè)陣容正式亮相。

隨后,李飛飛與另一位聯(lián)合創(chuàng)始人 Justin Johnson 接受了 a16z 的專訪。

在這次訪談播客中,李飛飛重點分享了 AI 領域新的研究前沿:空間智能。她說:「視覺空間智能非常根本,與語言一樣根本」。

節(jié)目中,她首先介紹了自己的早期貢獻 ImageNet 對計算機視覺發(fā)展的影響。之后介紹了計算和數(shù)據(jù)在 AI 發(fā)展中的作用。

然后,她定義了 AI 的終極目標以及空間智能在這其中所扮演的重要角色。最后,她介紹了自己的 World Labs 團隊以及度量空間智能發(fā)展進展的方式。

以下為這次對話主要內(nèi)容,enjoy~

Martin Casado

在過去的兩年里,我們看到了一波涌現(xiàn)的消費級 AI 公司和技術,這個過程非常瘋狂。而你們已經(jīng)在這個領域工作了幾十年。所以我們可能聊一下,你們在這個過程中做出的關鍵貢獻以及洞見。

Feifei Li

這是一個非常激動人心的時刻,回顧一下, AI 正處于一個令人興奮的時刻。我個人已經(jīng)從事這個領域超過二十年,我們走出了上一次的 AI 寒冬,見證了現(xiàn)代 AI 的誕生。隨后我們看到深度學習的興起,它向我們展示了各種可能性,比如下棋。

然后,我們開始看到技術的深入發(fā)展以及行業(yè)對早期可能性的應用,比如語言模型?,F(xiàn)在,我認為我們正處在一次“寒武紀大爆發(fā)”中。

在某種意義上來說,現(xiàn)在除了文本,我們還看到像素、視頻、音頻等都開始與 AI 應用和模型結合,所以這是一個非常令人興奮的時刻。

Martin Casado

我認識你們倆很久了,很多人也認識你們,因為你們在這個領域非常突出。但并不是所有人都了解你們在 AI 領域的起步,所以或許我們可以簡單介紹一下你們的背景,幫助觀眾建立基礎認知。

Justin Johnson

好的,我最初接觸 AI 是在本科快結束時。我在加州理工學院(Caltech)學習數(shù)學和計算機科學,那段時間非常棒。在那期間,有一篇非常有名的論文發(fā)布了,那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“貓論文”,這是我第一次接觸深度學習的概念。

這種技術讓我感到驚艷,那是我第一次遇到這種配方:強大的通用學習算法、巨大的計算資源和大量的數(shù)據(jù)結合在一起時,會發(fā)生一些神奇的事情。我大約在 2011 年、 2012 年左右接觸到這個想法,當時我就覺得這將是我未來要做的事情。

顯然,要做這些工作必須去讀研究生,于是我發(fā)現(xiàn) Feifei 在斯坦福,她當時是世界上少數(shù)幾位深入研究這一領域的人之一。當時是從事深度學習和計算機視覺的絕佳時機,因為這是技術從萌芽期走向成熟并廣泛應用的時刻。

那段時間,我們看到了語言建模的開端,也看到了區(qū)分性計算機視覺的起步——你可以通過圖片理解其中的內(nèi)容。這段時間還出現(xiàn)了我們今天稱之為生成式 AI 的早期發(fā)展,生成圖像、生成文本等算法核心部分也是在我讀博期間由學術界解決的。

當時每天早上醒來,我都會打開 arXiv 查看最新的研究成果,就像拆圣誕禮物一樣,幾乎每天都有新的發(fā)現(xiàn)。過去兩年里,世界其他人也開始意識到,每天通過 AI 技術有新的“圣誕禮物”收到。但對我們這些從事這個領域十多年的人來說,這種體驗早就有了。

Feifei Li

顯然,我比Justin要年長得多。我是從物理學進入 AI 領域的,因為我的本科背景是物理學。物理學是一門教你思考大膽問題的學科,比如世界上未解之謎。在物理學中,這些問題可能與原子世界、宇宙相關,但這種訓練讓我產(chǎn)生了對另一個問題的興趣——智能。因此,我在加州理工學院做了 AI 和計算神經(jīng)科學的博士研究。Justin和我雖然沒有在加州理工學院重疊過,但我們共享相同的母校。

Justin Johnson

還有相同的導師?

Feifei Li

是的,你的本科導師也是我的博士導師,Pietro Perona。在我讀博期間, AI 在公眾視野里正處于寒冬,但在我眼中并非如此。這更像是春天前的冬眠期,機器學習和生成模型正在蓄積力量。我認為我是機器學習領域的“本地人”,而 Justin 的那一代是深度學習的“原住民”。

機器學習是深度學習的前身,我們當時實驗了各種模型。但在我博士結束時以及擔任助理教授期間,我的學生和我實驗室意識到,有一個被忽視的 AI 元素在驅(qū)動著泛化能力,這個領域當時并未深入思考,那就是數(shù)據(jù)。我們當時專注于貝葉斯模型等復雜模型,而忽略了讓數(shù)據(jù)驅(qū)動模型的重要性。

這是我們押注 ImageNet 的原因之一。當時所有領域的數(shù)據(jù)集規(guī)模都很小,計算機視覺和自然語言處理的標準數(shù)據(jù)集都是幾千或幾萬條數(shù)據(jù),但我們意識到需要提升到互聯(lián)網(wǎng)規(guī)模。幸運的是,互聯(lián)網(wǎng)時代也正在崛起,我們乘上了這股浪潮,也正是在這個時候我來到了斯坦福。

Martin Casado

這些時代就像我們經(jīng)常談論的那些,比如 ImageNet 顯然是推動或至少是讓計算機視覺在生成式 AI 領域中流行并具備可行性的重要時代。我們通常會提到兩個關鍵的突破:一個是 Transformer 的論文,即“注意力機制”(attention),另一個是較少談到的“穩(wěn)定擴散”(stable diffusion)。

用這種方式來理解這兩個來自學術界(尤其是谷歌)的算法突破是否合理?或者說這更是一個有意為之的過程?亦或是還有其他一些不常被提及的重大突破也推動了我們走到今天?

Justin Johnson

是的,我認為最大的突破在于計算能力。我知道 AI 的故事往往也是計算能力的故事,但即便人們經(jīng)常提到它,我認為它的影響還是被低估了。

過去十年我們在計算能力上看到的增長是驚人的。被認為是深度學習在計算機視覺領域突破性時刻的第一篇論文是 AlexNet,這是一篇 2012 年的論文,深度神經(jīng)網(wǎng)絡在 ImageNet 挑戰(zhàn)賽中表現(xiàn)出色,遠超其他當時的算法。

在研究生期間你可能會接觸到的那些算法,和 AlexNet 相比相形見絀。AlexNet 是一個擁有 6000 萬個參數(shù)的深度神經(jīng)網(wǎng)絡,它在兩張 GTX 580 顯卡上訓練了六天,GTX 580 是當時最強大的消費級顯卡,發(fā)布于 2010 年。

我昨晚查了一些數(shù)據(jù),想把這些放在一個更大的背景中看待。英偉達最新的顯卡是 GB200,你們猜一下 GTX 580 和 GB200 之間的計算能力差距有多大?

數(shù)量在幾千左右,所以我昨晚算了一下數(shù)據(jù)。像是那兩周的訓練,那六天是在兩塊GTX 580上運行的,如果擴展一下,大概可以在一塊GB200上運行不到五分鐘。

這樣想的話,真的有個很好的論點—— 2012 年 AlexNet 在 ImageNet 挑戰(zhàn)賽上的論文真的是一個非常經(jīng)典的模型,那就是卷積神經(jīng)網(wǎng)絡模型。

而實際上,這個概念早在 1980 年代就已經(jīng)出現(xiàn)了,我還記得作為研究生學習的第一篇論文,內(nèi)容也差不多,有六七層的網(wǎng)絡結構。AlexNet 和卷積神經(jīng)網(wǎng)絡模型的唯一區(qū)別幾乎就是 GPU ——使用了兩個 GPU 和海量的數(shù)據(jù)。

所以我本來要說的是,大多數(shù)人現(xiàn)在都熟悉所謂的“痛苦的教訓”(bitter lesson),這個教訓說的是,如果你開發(fā)一個算法,只要確保你能利用現(xiàn)有的計算資源,因為這些資源會逐漸變得可用。于是你只需要一個能夠不斷進步的系統(tǒng)。

另一方面,似乎還有另一個同樣有說服力的觀點,那就是新的數(shù)據(jù)源實際上解鎖了深度學習。ImageNet 就是一個很好的例子。雖然很多人認為自注意力機制對 Transformer 模型很重要,但他們也會說這是利用人工標注數(shù)據(jù)的一種方式。

因為人類為句子結構提供了標注,如果你看看 CLIP 模型,它實際上是通過互聯(lián)網(wǎng)讓人類使用alt標簽來標記圖片。因此,這實際上是一個關于數(shù)據(jù)的故事,而不是關于計算的故事。那么答案是兩者兼有,還是更偏向某一方呢?我認為是兩者兼有,但你也提到了另一個非常關鍵的點。

Martin Casado

我覺得在算法領域中,實際上有兩個明顯不同的時代。ImageNet 時代是監(jiān)督學習的時代。在這個時代,我們有很多數(shù)據(jù),但我們不知道如何僅憑數(shù)據(jù)本身來訓練。

ImageNet 和其他同時期的數(shù)據(jù)集的預期是,我們會有大量的圖像,但我們需要人類對每張圖像進行標注。而我們訓練的所有數(shù)據(jù),都是由人類標注員逐一查看并標注的。

而算法的重大突破在于,我們現(xiàn)在知道如何在不依賴人類標注的數(shù)據(jù)上進行訓練。對于一個沒有 AI 背景的普通人來說,似乎如果你在訓練人類數(shù)據(jù),人類實際上已經(jīng)進行了標注,只是這種標注并不是顯式的。

Justin Johnson

是的,哲學上來說,這是一個非常重要的問題,但這個問題在語言領域比在圖像領域更為真實。是的,但我確實認為這是一個重要的區(qū)別。CLIP 確實是由人類標注的。我認為自注意力機制是人類已經(jīng)理解了事物之間的關系,然后你通過這些關系進行學習。

所以它仍然是由人類標注的,只不過這種標注是隱式的,而不是顯式的。區(qū)別在于,在監(jiān)督學習時代,我們的學習任務受到更多限制。我們必須設計出一套我們想要發(fā)現(xiàn)的概念本體論。

比如在 ImageNet 中,F(xiàn)ei-Fei Li和她的學生們花了很多時間思考 ImageNet 挑戰(zhàn)賽中的一千個類別應該是什么。而在同時期的其他數(shù)據(jù)集,如用于目標檢測的COCO數(shù)據(jù)集,他們也花了很多心思去決定放入哪些80個類別。

Martin Casado

那么讓我們談談生成式 AI 。當我攻讀博士學位的時候,在你們出現(xiàn)之前,我上過 Andrew Ng 的機器學習課程,還學過 Daphne Koller 非常復雜的貝葉斯課程,對我來說這些都很復雜。

當時的很多內(nèi)容都是預測建模。我還記得你解鎖了整個視覺領域的東西,但是生成式 AI 大約是在過去四年中才出現(xiàn)的。這對我來說是一個完全不同的領域——你不再是識別物體,也不是在預測什么,而是在生成新的東西。

所以也許我們可以談談是什么關鍵因素讓生成式 AI 得以實現(xiàn),它和之前的不同之處,以及我們是否應該以不同的方式去看待它,它是否是一個連續(xù)發(fā)展的部分還是另一個全新的領域?

Feifei Li

這非常有趣,即使在我研究生時代,生成模型就已經(jīng)存在了。我們當時就想做生成,只不過沒人記得了,即使是用字母和數(shù)字做生成,我們也在嘗試一些事情。Jeff Hinton 當時有一些關于生成的論文,我們也在思考如何生成。

實際上,如果你從概率分布的角度來看,數(shù)學上是可以進行生成的,只是當時生成的東西根本無法讓人感到驚艷。所以,盡管從數(shù)學理論上來看生成的概念是存在的,但實際上沒有任何生成效果讓人感到滿意。

然后我想特別提到一位博士生,他在深度學習方面有著濃厚的興趣,來到了我的實驗室。這個博士生的整個博士學習經(jīng)歷幾乎可以說是這個領域發(fā)展軌跡的縮影。

他的第一個項目是數(shù)據(jù),我逼著他做,盡管他不喜歡,但事后他也承認學到了很多有用的東西?!艾F(xiàn)在我很高興你能這么說。”于是我們轉(zhuǎn)向深度學習,核心問題是如何從圖像生成文字。實際上,這個過程中有三個明確的階段。

第一個階段是將圖像和文字進行匹配。我們有圖像,也有文字,接下來我們要看它們之間的關聯(lián)度。我的第一篇學術論文,也是我的第一篇博士論文,研究的就是基于場景圖的圖像檢索。接下來,我們繼續(xù)深入研究,從像素生成文字,這方面他和 Andrej 都做了很多工作,但依然是一種非常有損的生成方式,信息從像素世界中獲取時損失很大。

中間階段有一個非常著名的工作,那個時候有人第一次實現(xiàn)了實時化。2015 年,一篇叫《神經(jīng)算法的藝術風格》的論文由 Leon Gatys 領導發(fā)表。他們展示了將現(xiàn)實世界的照片轉(zhuǎn)換為梵高風格的圖片。

我們現(xiàn)在可能習以為常,但那是在 2015 年,那篇論文突然出現(xiàn)在 arXiv 上,震驚了我。我感覺大腦中被注入了一種“生成 AI 的病毒”。我心想:“天哪,我需要理解這個算法,玩一玩,試著把自己的圖片變成梵高風格。”

于是,我花了一個長周末重新實現(xiàn)了這個算法,讓它能夠正常運行。其實它是一個非常簡單的算法,我的實現(xiàn)大概只有 300 行代碼,當時是用Lua寫的,因為那時候還沒有 PyTorch,我們用的是 Lua Torch。不過盡管算法簡單,它的速度很慢。每生成一張圖片,你都需要運行優(yōu)化循環(huán),耗費很多時間。生成的圖片很漂亮,但我就是希望它能更快一點。最后,我們確實讓它變快了。

還有一點我非常自豪的是,在生成 AI 真正走向世界之前,他在博士研究的最后一部分做了一個非常前沿的工作。這個項目是通過輸入自然語言來生成完整的圖像,這可以說是最早的生成 AI 工作之一。我們使用的是GANs,但當時它非常難用。問題是,我們還沒有準備好用自然語言來描述一幅完整的圖像。

于是,他采用了一個場景圖結構輸入方式,輸入內(nèi)容是“羊群”、“草地”、“天空”等,并用這種方式生成了一幅完整的圖像。

從數(shù)據(jù)匹配到風格轉(zhuǎn)換,再到生成圖像,我們逐漸看到了一個完整的轉(zhuǎn)變。你問這是否是一個巨大的變化,對于像我們這樣的人來說,這是一個持續(xù)的過程,但對于大眾而言,成果確實顯得突然且具有沖擊力。

Martin Casado

我讀了你的書,真是一本很棒的書,我強烈推薦大家去讀。而且,F(xiàn)ei-Fei,我想說的是,長期以來,你的很多研究和方向都聚焦于空間智能、像素處理等領域?,F(xiàn)在你在做的 World Labs 也和空間智能相關。能談談這是你長期旅程的一部分嗎?你為什么現(xiàn)在決定去做這個?這是否是某種技術突破或個人原因?你能否帶我們從 AI 研究的背景過渡到 World Labs?

Fei-Fei Li

對于我來說,這既是個人的追求,也是智力上的旅程。你提到了我的書,我的整個智力旅程實際上是一種對“北極星”的追尋,同時也堅信這些北極星對于我們領域的進步至關重要。

在一開始的時候,我還記得研究生畢業(yè)后,我認為我的北極星是“為圖像講故事”,因為對我來說,這是視覺智能的一個重要組成部分,也就是你所說的 AI 的一部分。

但是,當 Justin 和 Andrej 完成他們的工作時,我想:“天哪,這就是我一生的夢想,我接下來要做什么?”這個進展比我預期的快得多——我本以為需要一百年才能實現(xiàn)這些。

視覺智能始終是我的熱情所在。我堅信,對于每一個有智能的存在,比如人類、機器人,或者其他形式的存在,學會如何看待這個世界、如何推理、如何與世界互動是至關重要的。無論是導航、操控、制造,甚至是構建文明,視覺和空間智能都在其中扮演著基礎性角色。

它的基礎性可能和語言一樣,甚至在某些方面更加古老和基本。因此,World Labs的北極星,就是解鎖空間智能,而現(xiàn)在是正確的時機。

就像 Justin 說的那樣,我們已經(jīng)具備了所需的資源——計算能力和對數(shù)據(jù)更深的理解。與 ImageNet 時代相比,我們在數(shù)據(jù)理解上變得更加復雜。

我們也擁有了算法方面的進展,比如我們的共同創(chuàng)始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我們覺得現(xiàn)在是下定決心、專注這一領域并解鎖其潛力的最佳時機。

Martin Casado

為了讓大家理解清楚,你現(xiàn)在創(chuàng)辦了這家公司——World Labs,而你們要解決的問題就是“空間智能”。你能簡明扼要地描述一下,什么是空間智能嗎?

Fei-Fei Li

空間智能指的是機器理解、感知、推理并在 3D 空間和時間中采取行動的能力。具體來說,它是指理解物體和事件如何在 3D 空間和時間中定位,以及世界中的交互如何影響這些 3D 位置。

這不僅僅是讓機器停留在數(shù)據(jù)中心或主機中,而是讓它走向現(xiàn)實世界,去理解這個豐富的 3D 、4D 世界。

Martin Casado

你說的這個“世界”是指現(xiàn)實的物理世界,還是一種抽象概念上的世界?

Fei-Fei Li

我認為兩者兼有。這也代表了我們長期的愿景。即使你是在生成虛擬世界或內(nèi)容,定位于 3D 中仍然有很多好處?;蛘弋斈阍谧R別現(xiàn)實世界時,能夠?qū)?3D 理解應用到真實世界中也是其中的一部分。

Martin Casado

你們的共同創(chuàng)始人團隊真是非常強大。那你覺得為什么現(xiàn)在是做這件事的合適時機呢?

Fei-Fei Li

這實際上是一個長期進化的過程。在博士畢業(yè)后,我開始尋找成為獨立研究員的道路,并且思考 AI 和計算機視覺領域中的大問題。當時我得出的結論是,過去十年主要是在理解已經(jīng)存在的數(shù)據(jù),而接下來的十年將會是理解新的數(shù)據(jù)。

過去的數(shù)據(jù),主要是網(wǎng)絡上已經(jīng)存在的圖像和視頻,而未來的數(shù)據(jù)則是全新的——智能手機出現(xiàn)了,這些手機有相機,有新的傳感器,并且可以在 3D 世界中定位。這不僅僅是你從互聯(lián)網(wǎng)上獲取一堆像素并試圖判斷這是一只貓還是一只狗的問題了。

我們希望把這些圖像當作與物理世界的通用傳感器,幫助我們理解世界的 3D 和4D 結構,無論是在物理空間還是生成空間中。

博士畢業(yè)后,我做了一個很大的轉(zhuǎn)變,進入了 3D 計算機視覺領域,與我的同事們一起研究如何預測物體的 3D 形狀。后來,我對通過 2D 數(shù)據(jù)學習 3D 結構的想法產(chǎn)生了濃厚的興趣。

我們討論數(shù)據(jù)時常會提到,獲取 3D 數(shù)據(jù)很難,但實際上 2D 圖像是 3D 世界的投影,這里有很多可以利用的數(shù)學結構。即便你有大量的 2D 數(shù)據(jù),你也可以通過這些數(shù)學結構推導出 3D 世界的結構。

2020年是一個突破性時刻。我們的共同創(chuàng)始人 Ben Mildenhall 提出了 Nerf (神經(jīng)輻射場)方法。這是一種非常簡單、清晰的方式,可以通過 2D 觀測推導出 3D 結構,點燃了整個 3D 計算機視覺領域。

與此同時, LLM 也開始嶄露頭角。很多語言建模的工作實際上在學術界已經(jīng)發(fā)展了很長時間。即使在我的博士階段,我也與 Andrej Karpathy 在 2014 年進行了一些語言建模工作。

Justin Johnson

這其實是出現(xiàn)在 Transformer 之前的事情,但到了 GPT-2 的時代,你在學術界已經(jīng)很難再做這樣的模型了,因為它們需要的計算資源太大了。然而,有趣的是,Ben 提出的 Nerf 方法,只需要在單個 GPU 上訓練幾個小時。

這讓很多學術研究者開始重新聚焦于這些問題,因為可以在有限的計算資源下解決一些核心算法問題,而且你可以在單個 GPU 上獲得最先進的成果。所以當時很多學術研究者都在思考:我們?nèi)绾瓮ㄟ^核心算法來推動這個領域的發(fā)展?我和Fei-Fei聊了很多,我們都非常確信這一點。

Fei-Fei Li

是的,我們發(fā)現(xiàn)我們的研究方向在某種程度上正朝著相似的目標前進。我還想講述一個很有趣的技術問題,或者說一個關于像素的技術故事。

很多從事語言研究的人可能不知道,在生成 AI 時代之前,我們這些從事計算機視覺領域的人,實際上有一個很長的歷史,叫做 3D 重建的研究。

這可以追溯到上世紀70年代,你可以通過拍攝照片——因為人類有兩只眼睛,所以可以用立體照片來嘗試三角測量,構建 3D 形狀。然而這是一個非常難的問題,至今尚未完全解決,因為存在匹配問題等復雜情況。

這個領域有著長期的進展,但是當 Nerf 和生成方法結合,尤其是在擴散模型的背景下, 3D 重建與生成突然開始融合。在計算機視覺領域內(nèi),我們突然發(fā)現(xiàn),如果我們看到某個東西,或者想象某個東西,二者都可以匯聚到生成它的方向。這是一個非常重要的時刻,但很多人可能沒有注意到這一點,因為我們沒有像談論 LLM 那樣廣泛討論它。

Justin Johnson

對,在像素空間中有重建,例如你重建一個真實的場景;而如果你看不到那個場景,則會使用生成技術。這兩者實際上是非常相似的。整個對話中你一直在談論語言和像素,或許這是一個好時機來討論空間智能與語言方法的對比,比如它們是互補的,還是完全不同的?

Fei-Fei Li

我認為它們是互補的。我不確定如何定義“完全不同”,但我可以嘗試做個對比。如今,很多人都在談論GPT、開放 AI 以及多模態(tài)模型。大家覺得這些模型既能處理像素,也能處理語言。那么它們是否能實現(xiàn)我們想要的空間推理呢?為了回答這個問題,我們需要打開這些系統(tǒng)的“黑箱”,看看它們是如何在底層工作的。

語言模型和我們現(xiàn)在看到的多模態(tài)語言模型,其底層的表示是“一維的”。我們談論上下文長度、 Transformer 、序列、注意力機制,但歸根結底,這些模型的表示是基于一維的序列化令牌。

這種表示在處理語言時是非常自然的,因為文本本身就是由一維的離散字母序列組成的。這種一維表示是 LLM 成功的基礎,現(xiàn)在我們看到的多模態(tài) LLM 也是如此,它們將其他模態(tài)(如圖像)“硬塞進”這種一維的表示中。

而在空間智能領域,我們的思路正好相反——我們認為世界的三維本質(zhì)應該成為表示的核心。從算法的角度來看,這為我們處理數(shù)據(jù)和獲得不同類型的輸出提供了新的機會,幫助我們解決一些截然不同的問題。

即使從一個粗略的層面來看,你可能會說:“多模態(tài) LLM 也能看圖像?!贝_實可以,但它們在處理圖像時沒有將三維的本質(zhì)置于其方法的核心。

Justin Johnson

我完全同意,討論一維與三維表示的根本性區(qū)別是非常核心的。此外,還有一個稍微哲學化的觀點,但對我來說同樣重要:語言本質(zhì)上是一種純生成的信號,世界上不存在語言。你走到大自然中不會看到天上寫著文字。無論你輸入什么數(shù)據(jù),語言模型幾乎都可以通過足夠的泛化將相同的數(shù)據(jù)吐出來,這就是語言生成的特質(zhì)。

但 3D 世界不同,它遵循物理法則,擁有自己的結構和材料。能夠從根本上提取這些信息,進行表示和生成,這是一種完全不同的問題。盡管我們會借鑒語言模型中的一些有用的想法,但從根本上來說,這是一個不同的哲學問題。

Martin Casado

對,所以語言模型是一維的,可能是對物理世界的不良表示,因為它是人類生成的,帶有損失。而另一個生成模型的模態(tài)是像素,即 2D 圖像和視頻。如果你看視頻,可以看到 3D 場景,因為攝像機可以平移。那么空間智能與 2D 視頻有什么不同呢?

Fei-Fei Li

這里有兩點值得思考。一是底層的表示,二是用戶體驗的便利性。這兩者有時會讓人混淆。我們感知的是 2D ——我們的視網(wǎng)膜是二維的結構,但我們的大腦將其視為三維世界的投影。

你可能希望移動物體、移動攝像機,原則上你可以用二維的表示和模型來做這些事情,但它并不適合解決你提出的問題。動態(tài)三維世界的二維投影可能可以建模,但將三維表示放在模型的核心,能夠更好地適應問題的需求。

我們的目標是將更多的三維表示融入模型的核心,從而為用戶提供更好的體驗。這也與我的“北極星”相關。為什么我們強調(diào)“空間智能”,而不是“平面像素智能”?

因為智能的發(fā)展軌跡,如果你回顧進化史,它的最終目的是讓動物和人類能夠在世界中自由移動、互動,進而創(chuàng)造文明,甚至是做一片三明治。因此,將這種 3D 的本質(zhì)轉(zhuǎn)化為技術,是釋放無數(shù)潛在應用的關鍵,即便有些看起來只是表面上的進步。

Martin Casado

我認為這是一個非常微妙卻至關重要的觀點?;蛟S我們可以通過談論一些應用場景來進一步深入討論。當我們談論開發(fā)一種可以實現(xiàn)空間智能的技術模型時,它可能具體是什么樣子的?有哪些潛在的應用場景?

Fei-Fei Li

我們設想的空間智能模型可以做很多事情,其中一個讓我特別興奮的是“世界生成”。類似于文本-圖像生成器,我們現(xiàn)在已經(jīng)有了文本-視頻生成器——輸入一張圖像或一段視頻,系統(tǒng)就能生成一個兩秒鐘的驚人片段。但我認為我們可以將這一體驗提升到 3D 世界。

我們可以想象空間智能未來幫助我們將這些體驗提升到 3D ,不僅僅生成一張圖片或一段視頻,而是生成一個完整的、模擬的、豐富的互動 3D 世界。也許用于游戲,也許用于虛擬攝影,應用領域廣泛得令人難以想象。

Justin Johnson

我覺得這項技術會隨著時間的推移逐漸進步。構建這些東西非常困難,所以靜態(tài)問題可能會相對簡單一些,但從長遠來看,我們希望它是完全動態(tài)的、可交互的,正如你剛才所描述的一切。

Fei-Fei Li

是的,這正是空間智能的定義。我們會從更多的靜態(tài)問題開始,但你提到的所有內(nèi)容都在空間智能的未來規(guī)劃中。

Justin Johnson

這也體現(xiàn)在我們公司“World Labs”的名字上——這個名字的含義是關于構建和理解世界。起初我們告訴別人這個名字時,他們并不總是能理解,因為在計算機視覺、重建和生成領域,我們通常會對所能做的事情進行區(qū)分。第一級是識別物體,比如麥克風、椅子等這些世界上的離散物體。許多 ImageNet 的工作都與識別物體有關。

但接下來我們提升到了場景的層次——場景是由物體組成的。例如,現(xiàn)在我們有一個錄音室,里面有桌子、麥克風和坐在椅子上的人,這是物體的組合。但我們想象的“世界”是超越場景的。場景可能是單一的東西,但我們希望打破這些界限,走出門外,走到街上,看到車流穿梭,看到樹葉在風中搖動,并能夠與這些東西互動。

Fei-Fei Li

另一件非常令人興奮的事情是關于“新媒體”這個詞。借助這項技術,現(xiàn)實世界、虛擬想象世界或增強世界、預測世界之間的界限變得模糊。真實世界是 3D 的,所以在數(shù)字世界中,必須有 3D 表示才能與真實世界融合。你不能只用 2D 甚至 1D 來有效地與真實的 3D 世界交互。

這種能力解鎖了無限的應用場景。就像 Justin 提到的第一個應用場景,虛擬世界的生成可以用于任何用途。第二個可能是增強現(xiàn)實。就在 World Labs 成立的那段時間,蘋果發(fā)布了 Vision Pro,他們使用了“空間計算”這個詞。我們幾乎也在講同樣的事情,我們強調(diào)的是“空間智能”??臻g計算需要空間智能,這一點是毫無疑問的。

我們不知道未來的硬件形式會是什么樣子——可能是護目鏡、眼鏡,甚至隱形眼鏡。但在真實世界與虛擬世界之間的界面,無論是增強你的工作能力、幫助你修理汽車,哪怕你不是專業(yè)技工,或者只是為娛樂提供一個類似于“Pokemon Go++”的體驗,這項技術將成為 AR/VR 的操作系統(tǒng)。

Justin Johnson

極限情況下,AR 設備需要做的事情就是一直陪伴著你,實時理解你所看到的世界,幫助你完成日常生活中的任務。我對此感到非常興奮,尤其是虛擬與現(xiàn)實之間的融合。當你能夠?qū)崟r完美地理解周圍環(huán)境中的 3D 時,它甚至可能取代現(xiàn)實世界中的一些事物。

比如說,現(xiàn)在我們有各種不同尺寸的屏幕—— iPad、電腦顯示器、電視、手表等,它們在不同的場景中呈現(xiàn)信息。但如果我們能夠無縫地將虛擬內(nèi)容與物理世界融合,這些設備就不再必要了。虛擬世界可以在正確的時刻用最合適的方式向你展示所需的信息。

另一項巨大的應用是混合數(shù)字虛擬世界與 3D 物理世界,尤其是機器人領域。機器人必須在物理世界中行動,而它們的計算和大腦在數(shù)字世界中。學習與行為之間的橋梁,必須由空間智能來搭建。

Martin Casado

你提到了虛擬世界、增強現(xiàn)實,現(xiàn)在你又談到了純粹的物理世界,比如用于機器人領域。這個方向非常廣泛,尤其是如果你計劃涉足這些不同的領域。你們?nèi)绾慰创疃燃夹g與這些具體應用領域的關系?

Fei-Fei Li

我們認為自己是一家深度技術公司,作為一個平臺公司,提供能夠服務于這些不同應用場景的模型。至于哪個應用場景更適合我們一開始關注的,我覺得現(xiàn)在的設備還不夠完善。

實際上,我在研究生時期就擁有了我的第一臺 VR 頭戴設備。當我戴上它時,我心里想:“天哪,這太瘋狂了!”我相信很多人第一次使用VR時都有類似的體驗。

我非常喜歡 Vision Pro,發(fā)布的那天我熬夜搶購了一個,但現(xiàn)在作為大眾市場的平臺,它還未完全成熟。因此,我們作為公司,可能會選擇一個已經(jīng)更為成熟的市場進入。

有時通用性中也會有簡潔性。我們有一個作為深度技術公司的愿景,相信有一些根本性的問題需要被很好地解決,如果解決得好,可以應用于多個不同的領域。我們視公司的長期目標為構建和實現(xiàn)空間智能的夢想。

Justin Johnson

事實上,我認為這就是你們所做的影響所在。我不認為我們會真正完全到達那個終點,因為這是一個如此根本的事物——宇宙本質(zhì)上是一個不斷演化的四維結構,而廣義上的空間智能就是理解這個結構的全部深度,并找到其中所有的應用。所以,雖然我們今天有一套特定的想法,但我相信這段旅程會帶我們?nèi)ヒ恍┪覀儸F(xiàn)在根本無法想象的地方。

Fei-Fei Li

技術的神奇之處就在于,它會不斷打開更多的可能性。我們會持續(xù)推進,而這些可能性也會不斷擴展。

作者:前沿君,公眾號:前沿在線

本文由 @前沿在線 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!