世界模擬器才是AGI終局,12態(tài)勢預測!首席專家萬字長文專業(yè)解讀Sora里程碑

0 評論 3629 瀏覽 3 收藏 31 分鐘

這些天里,有關Sora的能力及其所帶來的影響的討論已經(jīng)有許多,不過,生成60秒逼真視頻,可能只是未來的一個小功能,更炸裂的智能未來,還有待繼續(xù)討論。這篇文章里,來自未來實驗室的首席專家胡延平就爆火的Sora模型做出了深度的個人解讀,不妨一起來看看。

這幾天反復看Sora的技術(shù)報告,以及各方對Sora的技術(shù)分析。

基本三個角度:驚呼強大功能,分析Sora(實現(xiàn))大法,評估巨大沖擊。

沖擊方面,主要關注點在于對影視、短視頻、娛樂等領域的影響。

但是,Sora改變AI認知方式,開啟走向「世界模擬器」的史詩級的漫漫征途,才是未來暴風眼,真正的重點。而世界模擬器,是遠比AGI、具身智能、元宇宙更炸裂的智能未來。

Sora技術(shù)報告最有價值、最語焉不詳、最容易產(chǎn)生不同理解的一句話是:「通過擴大視頻生成模型的規(guī)模,我們有望構(gòu)建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發(fā)展道路」。

而本文所述世界模擬器,與Sora目前自述以及業(yè)內(nèi)理解,可能不太一樣。

很顯然要么是Sora言過其實,要么是OpenAI留了一手,要么是現(xiàn)階段技術(shù)局限使然。

一、Sora只是二維視覺的壓縮擴散和時空表達,不是物理引擎,也不是世界模型

相比「現(xiàn)實不存在了」這種既乖張又夸張的表達,專業(yè)人士的意見貌似客觀,但實際偏差也不小。

Sora不是英偉達高級科學家Jim Fan所稱的數(shù)據(jù)驅(qū)動的物理引擎、一個可學習的模擬器或世界模型,也不會像周鴻祎所言能夠讓AGI一兩年內(nèi)就很快實現(xiàn)。

從LLM的文本Token/向量表征,到走向模擬器但還不是模擬器的Patches表達,是原理變化的核心。

技術(shù)報告在原理部分高度保留,極為簡略,但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化,結(jié)合了Difussion,Patches是關鍵。

不過Sora怎么看都還只是二維視覺的時空表達,處處壓縮,Patches依然是圖像內(nèi)容關系信息,且有文本烙印,并不是物理世界規(guī)律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器,也許更準確。

三維圖像是數(shù)字世界的空間構(gòu)建,二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」,但實質(zhì)可以只是運動變化擬合了物理規(guī)律,而不是像粒子渲染、工業(yè)仿真一樣進行了物理規(guī)則、內(nèi)在性狀的數(shù)字構(gòu)建。

背后原因,如同你知道大模型輸出的答案,知道大模型的計算原理,但是卻像神經(jīng)網(wǎng)絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣,其實不知道GPT是怎么「想」的。

Patches所攜帶的像素、位置、時空信息,以及與周圍Patches的變化、運動、關系,在Transform的注意力機制和Difussion的正反向噪聲過程,經(jīng)過大規(guī)模視頻數(shù)據(jù)訓練,具有了解構(gòu)和重構(gòu)一切二維視覺的能力,面向用戶表現(xiàn)為涌現(xiàn)式的生成,似乎充滿創(chuàng)造力且符合物理規(guī)律,但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數(shù)學、算法表征,這些變化和表征又擬合了物理世界的某些合理性。(Patches并非像素)

「理解」即算法,「思考」即模型。

好拗口,好抽象,好累人,但可能這就是事實。

比如,Sora的工程師可能投喂了數(shù)千萬甚至數(shù)億條視頻讓大模型來學習,但是可能沒有寫過哪怕一行與物理性狀規(guī)則有關的代碼。

再比如,Sora可能的確學習了一些3D引擎生成的素材,并且像當初通過DOTA2游戲?qū)?zhàn)來改進模型一樣,引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現(xiàn),但是百分百可以肯定Sora目前并沒有內(nèi)置3D引擎。

Sora讓用戶以為它理解了物理世界、物理規(guī)律,就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界,但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648×3144個像素的各種變化。

甚至圖像其實并不是連續(xù)的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產(chǎn)生視頻是連續(xù)的錯覺。一旦快速甩頭,畫面就會產(chǎn)生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。

視頻符合物理規(guī)律,不等于視頻的生成基于物理規(guī)律,更不等于生成視頻的大模型本身是數(shù)據(jù)驅(qū)動的物理引擎。所謂物理,可以只是視頻畫面整體與局部、前后幀統(tǒng)一的像素級的變化規(guī)律、表征關系。

二、即使如此,Sora還是打開AI新視界大門的那個史詩級的里程碑,大模型認知重啟

在對Sora原理的各種猜測里,華人AI學者謝賽寧的分析最為貼近。但是局限于技術(shù)原理的框架性拆解以及對靈活、可擴展性的強調(diào),反倒沒有道出Sora的突變實質(zhì)——大模型認知重啟。

此外,直覺謝賽寧認為Sora目前只有30億參數(shù)的估計也過于保守。

Sora被認為采用了以Transformer為主干的混合擴散模型DIT,其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。

此外,Sora還可能使用與Google的Patch n‘Pack(NaVit)類似的技術(shù),以此適應不同分辨率、持續(xù)時間和?寬比。

盡管在視頻標注、將提示詞轉(zhuǎn)化為詳細說明等方面,Sora充滿詳實且強烈的文本色彩,但Sora實質(zhì)上是完全基于視覺、面向視覺、以圖像理解世界的大模型。

這一點和過去GPT「文本數(shù)據(jù)元」(不是神經(jīng)元)意義上的Token有很大不同,Patches是碎片、補片、基本單元意義上的「視覺信息元」(也不是神經(jīng)元),Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。

圖像、視頻的信息量其實遠大于文本,呈現(xiàn)在視覺里的現(xiàn)實世界更是如此。海量視頻樣本,已經(jīng)讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態(tài)關系「理解」。

如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備,借助數(shù)智之眼,大模型將能夠:

  1. 自己「親眼」看到、學習和了解這個世界,而不是僅僅依賴人類投喂給系統(tǒng)的有限文本數(shù)據(jù),海量知識信息的「新視界」之門由此打開。
  2. 智能設備后接Sora+GPT,實時感知現(xiàn)實,是對具身智能的有力加持,機器人等智能設備有希望獲得類似人類感知現(xiàn)實的視覺和判斷能力,看到即學習,判斷即意味。盡管一開始與人類感知能力還是有較大差距,但也遠非傳統(tǒng)計算機視覺可比。
  3. 加之Sora式的大模型的Input和output本來就可以充分文本化,所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。

Sora出現(xiàn)的最大意義,并非可以生成60秒、多個分鏡頭、主體統(tǒng)一的視頻,而是意味著大模型由此可以「睜開眼睛」看世界,這是不亞于人類認知重啟的AI的第一次認知重啟,并且這還不是全部。

三、認知重啟通向世界模擬器,這意味著「原力覺醒」:大模型里的母模型,未來根科技

Sora還不是世界模擬器,但是表現(xiàn)出了這樣的潛力。它沒有產(chǎn)生終極答案,但是告訴了業(yè)者,隱約可行的方向在哪里。

盡管Sora還遠不足以成為通用世界模擬器,但是Sora證明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。從文本語義、視覺到物理,是大模型原理的三次飛躍,也是走向真正的通用(其實首先基于多領域?qū)I(yè)模擬器)世界模擬器的進階路徑。

Sora還不是物理引擎,但是未來可以泛化為物理引擎。

Patch還只是 ((x,y,z), t )、關系、色彩、內(nèi)容信息意義上的視覺信息元,并不是神經(jīng)元,但是未來可以進化為數(shù)字神經(jīng)元。Transformer大模型無論如何都不可能具備人腦一般的量子能力,但是高維全局注意力機制局部具備擬合量子態(tài)的潛力。

因為AI對智能進行表征的底層邏輯是數(shù)學的,相對人腦的直覺、模糊、隨機、潛意識等特征,大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來,原理不斷升維,時空不斷轉(zhuǎn)換,面向AGI的進化表現(xiàn)為不斷接近高可用性、接近乃至超越人類智能的漸進過程。

但AGI不是終點,也不是圣杯,世界模擬器才是。

Sora有助于實現(xiàn)AGI,但Sora開啟的漫漫征途的主要指向并不是AGI,而是世界模擬器。AGI的定義有多種,經(jīng)典意義上的AGI是類GPT在數(shù)據(jù)、算力、算法進化到一定程度之后,在知識、內(nèi)容、程序等工作與創(chuàng)作方面,表現(xiàn)出總體達到局部超越人類智能的能力。

AGI依然是工具,能夠支持具身智能,但不是具身智能。AGI并不真正具備內(nèi)生、自主能力,更多時候只是為人所用的工具。

說到這一點,一定有必要厘清智能發(fā)展的不同形態(tài)和不同階段,由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態(tài)方位和時空節(jié)點。

當我們在說智能的時候,其實同時有三種智能。Smart意義上的功能智能,昔日AI意義上的計算感知智能,也就是弱(的)智能(AI1.0),2020年以來(尤其2023年被視為正式開端)認知智能意義上的強智能(AI2.0)。

目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能(AI2.0)對智能汽車、機器人等智能設備的二次賦能,是正在到來的趨勢。

這也是盡管國內(nèi)人工智能發(fā)展如火如荼,但實質(zhì)存在代差的原因。一些受不了此強彼弱的人,大呼「我們也不差」,認為GPT這一波是在制造威脅論。其實無須嘴硬,凡事都要先爭個面子。只需實事求是,看清格局,抓住關鍵,迎頭趕上就好。

如何看待Sora/GPT的背后,還有另一個實質(zhì):有沒有看到戰(zhàn)略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰(zhàn)略高地,AI for Science就是科技龍頭,AGI就是眼前的智能圣杯,通用與各領域?qū)I(yè)模型就是變革引擎,世界模擬器就是未來的暴風眼。

前面說的三種智能都還只是形態(tài)水準,并不是對智能發(fā)展的階段區(qū)分。我將智能發(fā)展相對劃分為五個階段:計算功能智能、計算感知智能、認知智能、內(nèi)生智能(EI)、自主智能(II)。

請注意,有一天AI人工智能這個提法會邊緣化,因為智能不再是「人工」的。人工的AGI自然不是終點,智能將比我們對AGI的預期走得更遠。這一點我在《走向第二曲線》有詳細分析,此處不再贅述。
智能變革的核心是超級智能,超級智能的具身是AGI,AGI是AI2.0、認知智能的高級形態(tài)(但主要還是人工投喂人工增強的智能),AGI是現(xiàn)階段所言AI的高級形態(tài),但不是EI內(nèi)生智能和II自主智能。AGI不會像某些人說的一兩年內(nèi)就會實現(xiàn),但估計也就在GPT6前后。之后的階段,屬于內(nèi)生智能(EI)、自主智能(II),屬于世界模擬器。世界模擬器是EI基石,II基準。

超級智能是世界之腦,超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型,未來科技里的根科技。

看看大模型在工業(yè)仿真、環(huán)境氣候、材料預測、蛋白質(zhì)分析、分子藥物、基因研究等領域已經(jīng)遍地開花的強力開局,就會知道,Sora與它們正在殊途同歸:世界模擬器未來主要不是用來玩的,并不是元宇宙概念的炒資,而是科技生產(chǎn)力爆發(fā)點,是智能未來真正的炸裂點。

世界模擬器,科技里的母科技,AI for Science各領域的核心抓手,每個領域的交感、理解、復現(xiàn)、預測,未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器,是最接近智能母體的存在。

世界模擬器意味著「原力覺醒」,創(chuàng)新之源,科技驅(qū)動,戰(zhàn)略高地,不容有失。

四、走向世界模擬器的漫漫征途,將經(jīng)歷哪些階段?

Sora放出的所有視頻里,最具深度探討價值的其實是那個水杯傾倒的片段。

Sora是如何擬合現(xiàn)實的,究竟是不是物理引擎,如何才能成為符合物理特性的引擎,未來又如何才能夠成為世界模擬器。從中隱約可見答案。

CV發(fā)展初期,計算機能做到的只是杯子邊緣輪廓特征提取和復現(xiàn)(比如Neocognitron),再后來可以識別到這是一個水杯(比如早期ImageNet),再后來可以「理解」水和杯子的關系(CNN&RNN),現(xiàn)在能夠開始學習和復現(xiàn)水杯傾倒過程(Transformer/Sora),接下來會怎么樣發(fā)展,也許只有大模型技術(shù)專家知道,也許都還在探索,并無定論。

我只是站在用戶角度進行黑箱式的透析,超級智能接下來能不能夠做到這幾步?

  1. 水杯傾倒的流動特癥能不能完全符合物理特性,不出現(xiàn)目前的明顯瑕疵?對應流體力學等。
  2. 水杯傾倒后能不能做到視頻中的冰逐漸在水中融化(所以更感興趣那個漢堡咬痕)?對應熱力學等。
  3. 水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化(所以更感興趣那個畫布筆觸)?對應光學物理等。
  4. 水杯傾倒的過程能不能生成與實景契合的聲音,而不只是簡單聲效?對應聲學物理等。
  5. 水杯傾倒的角度與力量能不能做到隨機操控,產(chǎn)生碎裂、潑濺、蒸發(fā)等不同現(xiàn)象?綜合以上及凝聚態(tài)物理。
  6. 水杯傾倒周圍如果有電源、?;锲?,能否進行場景預測、情景預現(xiàn)?對應電磁物理、物理化學等。

以上都只是物理角度的簡單引申,世界模擬器所需要對應到的科學領域,以及現(xiàn)實世界的復雜現(xiàn)象,甚至是目前數(shù)十個主要學科尚未能窮盡的。所以無論從過程還是領域而言,都是征途漫漫。但這才是星辰大海。

相應的幾個循序漸進的問題是:

  1. Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎?
  2. Sora可以從微宏觀統(tǒng)一的尺度,對三維物體的內(nèi)在性狀進行學習訓練嗎?
  3. Sora可以在模型原理、神經(jīng)網(wǎng)絡、節(jié)點層級對物理世界進行X(3.0)意義上的3D時空運動表征,并在世界虛擬器交感、理解、復現(xiàn)、預測四要素具備的基礎上使X進化為神經(jīng)元嗎?

面向世界虛擬器的進化,遠不止這些問題,更不只是這些維度……

總的來說,Sora部分擬合了「視覺規(guī)律」,但是還沒有真的理解「物理世界」。目前的Sora本質(zhì)上還是在視覺內(nèi)容世界里,更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步,進入機器人、智能汽車等主要智能設備,以及成為世界模擬器。

AI For Science是世界模擬器的關鍵落地場景,而AI For Science意義上的X(3.0)是物理世界與視覺世界的分叉點,就像Patch(2.0)是文本世界Token(1.0)與視覺世界的分叉點。

數(shù)據(jù)、學習、生成、預期是AGI四要素,信息內(nèi)容感更強。交感、理解、復現(xiàn)、預測,是世界模擬器四要素,母體感知現(xiàn)實具身感更強。世界模擬器的Input和output,實質(zhì)主要由機器智能系統(tǒng)自主完成,是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫,必將通向EI、II。

五、接下來的態(tài)勢會怎么樣?12種情況預估

態(tài)勢1:Sora模型并非不可復制。

OpenAI如果短期內(nèi)不正式推出Sora(快不了)給全球用戶,其它競爭對手也會陸續(xù)發(fā)布自己的類似產(chǎn)品,Patches做法早已有之,并非獨門暗器。

OpenAI和Google、Meta之間只有時間差。但是中小團隊的數(shù)據(jù)差、資源差、算力差造成的競爭弱勢,只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越,哪怕勉強能夠追上Sora未來也是堪憂。另外,原理相似不等于效果相同,差之毫厘謬之千里。

態(tài)勢2:拚原理>拚算力,模型原理升維才是能力躍遷關鍵,但算力必不可少且需求繼續(xù)陡增。

Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0,但這并不是重點。Sora再一次證明,拚原理的重要性遠大于拚算力,算力算什么(而不是算力)才見高下。

原理引起的格局翻覆往往就在一瞬間,今后也是,翻覆還將多次。但算力總體需求依然呈現(xiàn)為爆發(fā)式增長,因為要算的不再只是文本/Token,視覺/Patches會令算力需求陡增。

未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求,更會令算力吃緊。即使眼前線性地看,高質(zhì)量海量數(shù)據(jù)總是優(yōu)于小體量數(shù)據(jù),參數(shù)量大總是優(yōu)于參數(shù)量小,模型的深層、多階段、反復思考總是優(yōu)于單階段,高分辨率高精度總是顯著優(yōu)于低精度,所以算力需求依然呈現(xiàn)為指數(shù)級增長。但總體而言,算力只是必要條件。

態(tài)勢3:以Transformer為主干的大模型依然是主要演進方向,且具有巨大潛力。

Self-Attention機制在電子計算的層級模擬了量子態(tài)(只是神似),消除了信息元之間的距離限制、消解了CNN的場域阻隔,在量子計算可用之前,是以數(shù)學、電子計算為基礎的最具腦特征的智能。

態(tài)勢4:輕與重,大和小,單一與混合,始終是兩種并行邏輯。

在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中,視頻看上去「合理」的Sora走的是一條更輕的捷徑,操控感、立體感、前后擴展自然不夠理想。

3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說,又笨又重,但更貼近本質(zhì),且操控感更強。就像自動駕駛的兩條計算機視覺路線,一個靠CMOS圖像數(shù)據(jù)來算,一個靠雷達來對物理空間進行點云建模。

目前只能說電影工業(yè)多了一個選擇,倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發(fā)出無限可能。

態(tài)勢5:功能瑕疵問題反倒不是問題,并且越往世界模擬器方向走,視頻生成的這些小問題越無關大局。

時間線前后擴展、主體融合過渡、場景置換、連續(xù)性、3D運鏡、多鏡頭、漢堡咬痕,這些只是目前的能力,Sora的可用性未來會更加超出預期。

目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多,但是瑕不掩瑜,而且這些問題隨著訓練規(guī)模增加、模型不斷微調(diào)優(yōu)化,必然迎刃而解。

態(tài)勢6:Sora與Vision Pro的確是一對想象力組合,但是以為戴上頭盔就可以念念有詞的,一多半可能會失望。

此外,VR在向MR進,AR在向MR退,VR以后只是MR的一個功能,MR是產(chǎn)業(yè)科技目前能夠到的交叉點,最難突破的AR未來才是主要形態(tài)。

態(tài)勢7:OpenAI本身的4個可能與6個不可能。

可能方面:成為主流AI開發(fā)者平臺,成為最大Store,形成數(shù)十億用戶生態(tài),部分具身智能能力。

不可能方面:7萬億美元造芯,模型原理持續(xù)領先,開源開放,縱橫整合產(chǎn)業(yè)鏈,成為具身智能/內(nèi)生智能/自主智能,堅持初創(chuàng)理念不動搖不成為……

尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息,是WSJ援引所謂消息人士,并不是奧特曼本人,已投Rain股權(quán)中的沙特基金在被美帝勸退,還和中東主權(quán)基金合計在美投資數(shù)萬億美元的大規(guī)模芯片制造?綠錢不參與的話,找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片,要么是概念吹瘋了,要么是常識缺位,要么是算數(shù)不會了。更重要的是,制造并不是AI計算突破重點。

態(tài)勢8:全生態(tài)轉(zhuǎn)變已開始,AI是主驅(qū)動但不是化學反應全部。

6個要素:感知(交互)、計算(數(shù)據(jù))、智能(AI)、連接(網(wǎng)絡)、協(xié)約(關系)、能量(能源)等。

態(tài)勢9:變化非線形。

深層玩家不僅著眼算力提升,還在醞釀計算架構(gòu)之變,變化不會是線性的,有可能業(yè)者討論的未來其實是現(xiàn)在,而不是升維后的未來。下一步模型原理、計算架構(gòu)包括芯片,都將不斷有重大變化。

態(tài)勢10:AI原力在底層,應用只是需求牽引力。

國內(nèi)團隊適合從應用著手說法沒錯,但過早定格一覺醒來發(fā)現(xiàn)樓塌了不是沒有可能,還是需要有人聚焦底層之變,包括硬件底層,硬仗有人打,至少緊跟。

態(tài)勢11:一定是云端邊-大中小-PPP混合AI,如此戰(zhàn)場方能展開;但不能只著眼AI,感數(shù)算智、軟硬協(xié)同、形態(tài)創(chuàng)新等維度交織才是完整視角,也是價值展開的關鍵。

如果只是窄化為算力算法意義上的AI,輕量化為場景需求意義上的應用,無異于互聯(lián)網(wǎng)思維,只可能第一天就卷,只可能是store里的一個GTPs、APPs,就像互聯(lián)網(wǎng)時代曾經(jīng)活成了「很厲害」的APP的樣子;這是一場原力致勝的立體戰(zhàn)役,最需要褪去的就是互聯(lián)網(wǎng)思維;凡事偷輕,難堪重任;處處求簡,難當多面;全生態(tài)全體系變革,僅應用不足以催化,僅算力算法數(shù)據(jù)模型意義上的AI不足以驅(qū)動。

態(tài)勢12:壓力陡增。

回到老難題,中美AI之爭,李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發(fā)布之際,壓力不那么大,總覺得有得一追,畢竟都還在文本、代碼、圖片維度。但是Sora一出,壓力陡增。升維比想象得快。競爭和發(fā)展不是二維、線性的。真正的物理世界模擬器,已經(jīng)隱約能嗅到味道,且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。

朋友有句話說得好,當年Alpha Go/zero碾壓人類圍棋之后,事了拂衣去,一年后阿爾法Fold橫空處世,重塑了人類對蛋白質(zhì)結(jié)構(gòu)認知與預測,這才叫偉大工程。Sora也是一樣,如果只以為它是60秒視頻生成神器,被網(wǎng)絡噴子噴成「洋人的奇技淫巧」,無用之用,可以說與業(yè)外對早期AlphaGo的「下棋玩具」理解有幾分神似。

但如果從大模型睜開眼睛看世界,AI認知重啟,以及潛在的世界模擬器發(fā)展方向看,這顯然是正在覺醒的原力。企業(yè)如果忽視趨勢,在這一史詩級的漫漫征程中落伍,會被降維打擊得連親媽都認不出來。

AI認知重啟,超級智能點亮億萬機器之心,世界虛擬器成為母模型根科技,不是科幻,這是一個時代的序幕。

那么,AI認知已然重啟,人類的認知重啟了嗎?

作者:胡延平;編輯:好困 桃子

原文標題:獨家|世界模擬器才是AGI終局,12態(tài)勢預測!首席專家萬字長文專業(yè)解讀Sora里程碑

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!