在线观看亚洲av日韩a∨,国产午夜精品一区二区三区不卡,久久天天躁狠狠躁夜夜av浪潮

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

世界模擬器才是AGI終局，12態(tài)勢預測！首席專家萬字長文專業(yè)解讀Sora里程碑

新智元

2024-02-21

0 評論 3629 瀏覽 3 收藏

31 分鐘

這些天里，有關Sora的能力及其所帶來的影響的討論已經(jīng)有許多，不過，生成60秒逼真視頻，可能只是未來的一個小功能，更炸裂的智能未來，還有待繼續(xù)討論。這篇文章里，來自未來實驗室的首席專家胡延平就爆火的Sora模型做出了深度的個人解讀，不妨一起來看看。

這幾天反復看Sora的技術(shù)報告，以及各方對Sora的技術(shù)分析。

基本三個角度：驚呼強大功能，分析Sora（實現(xiàn)）大法，評估巨大沖擊。

沖擊方面，主要關注點在于對影視、短視頻、娛樂等領域的影響。

但是，Sora改變AI認知方式，開啟走向「世界模擬器」的史詩級的漫漫征途，才是未來暴風眼，真正的重點。而世界模擬器，是遠比AGI、具身智能、元宇宙更炸裂的智能未來。

Sora技術(shù)報告最有價值、最語焉不詳、最容易產(chǎn)生不同理解的一句話是：「通過擴大視頻生成模型的規(guī)模，我們有望構(gòu)建出能夠模擬物理世界的通用模擬器，這無疑是一條極具前景的發(fā)展道路」。

而本文所述世界模擬器，與Sora目前自述以及業(yè)內(nèi)理解，可能不太一樣。

很顯然要么是Sora言過其實，要么是OpenAI留了一手，要么是現(xiàn)階段技術(shù)局限使然。

一、Sora只是二維視覺的壓縮擴散和時空表達，不是物理引擎，也不是世界模型

相比「現(xiàn)實不存在了」這種既乖張又夸張的表達，專業(yè)人士的意見貌似客觀，但實際偏差也不小。

Sora不是英偉達高級科學家Jim Fan所稱的數(shù)據(jù)驅(qū)動的物理引擎、一個可學習的模擬器或世界模型，也不會像周鴻祎所言能夠讓AGI一兩年內(nèi)就很快實現(xiàn)。

從LLM的文本Token/向量表征，到走向模擬器但還不是模擬器的Patches表達，是原理變化的核心。

技術(shù)報告在原理部分高度保留，極為簡略，但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化，結(jié)合了Difussion，Patches是關鍵。

不過Sora怎么看都還只是二維視覺的時空表達，處處壓縮，Patches依然是圖像內(nèi)容關系信息，且有文本烙印，并不是物理世界規(guī)律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器，也許更準確。

三維圖像是數(shù)字世界的空間構(gòu)建，二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」，但實質(zhì)可以只是運動變化擬合了物理規(guī)律，而不是像粒子渲染、工業(yè)仿真一樣進行了物理規(guī)則、內(nèi)在性狀的數(shù)字構(gòu)建。

背后原因，如同你知道大模型輸出的答案，知道大模型的計算原理，但是卻像神經(jīng)網(wǎng)絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣，其實不知道GPT是怎么「想」的。

Patches所攜帶的像素、位置、時空信息，以及與周圍Patches的變化、運動、關系，在Transform的注意力機制和Difussion的正反向噪聲過程，經(jīng)過大規(guī)模視頻數(shù)據(jù)訓練，具有了解構(gòu)和重構(gòu)一切二維視覺的能力，面向用戶表現(xiàn)為涌現(xiàn)式的生成，似乎充滿創(chuàng)造力且符合物理規(guī)律，但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數(shù)學、算法表征，這些變化和表征又擬合了物理世界的某些合理性。（Patches并非像素）

「理解」即算法，「思考」即模型。

好拗口，好抽象，好累人，但可能這就是事實。

比如，Sora的工程師可能投喂了數(shù)千萬甚至數(shù)億條視頻讓大模型來學習，但是可能沒有寫過哪怕一行與物理性狀規(guī)則有關的代碼。

再比如，Sora可能的確學習了一些3D引擎生成的素材，并且像當初通過DOTA2游戲?qū)?zhàn)來改進模型一樣，引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現(xiàn)，但是百分百可以肯定Sora目前并沒有內(nèi)置3D引擎。

Sora讓用戶以為它理解了物理世界、物理規(guī)律，就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界，但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648×3144個像素的各種變化。

甚至圖像其實并不是連續(xù)的，而是以每秒90-96次的幀率不斷刷新，擬合人眼視覺原理，讓用戶產(chǎn)生視頻是連續(xù)的錯覺。一旦快速甩頭，畫面就會產(chǎn)生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。

視頻符合物理規(guī)律，不等于視頻的生成基于物理規(guī)律，更不等于生成視頻的大模型本身是數(shù)據(jù)驅(qū)動的物理引擎。所謂物理，可以只是視頻畫面整體與局部、前后幀統(tǒng)一的像素級的變化規(guī)律、表征關系。

二、即使如此，Sora還是打開AI新視界大門的那個史詩級的里程碑，大模型認知重啟

在對Sora原理的各種猜測里，華人AI學者謝賽寧的分析最為貼近。但是局限于技術(shù)原理的框架性拆解以及對靈活、可擴展性的強調(diào)，反倒沒有道出Sora的突變實質(zhì)——大模型認知重啟。

此外，直覺謝賽寧認為Sora目前只有30億參數(shù)的估計也過于保守。

Sora被認為采用了以Transformer為主干的混合擴散模型DIT，其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。

此外，Sora還可能使用與Google的Patch n‘Pack（NaVit）類似的技術(shù)，以此適應不同分辨率、持續(xù)時間和?寬比。

盡管在視頻標注、將提示詞轉(zhuǎn)化為詳細說明等方面，Sora充滿詳實且強烈的文本色彩，但Sora實質(zhì)上是完全基于視覺、面向視覺、以圖像理解世界的大模型。

這一點和過去GPT「文本數(shù)據(jù)元」（不是神經(jīng)元）意義上的Token有很大不同，Patches是碎片、補片、基本單元意義上的「視覺信息元」（也不是神經(jīng)元），Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。

圖像、視頻的信息量其實遠大于文本，呈現(xiàn)在視覺里的現(xiàn)實世界更是如此。海量視頻樣本，已經(jīng)讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態(tài)關系「理解」。

如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備，借助數(shù)智之眼，大模型將能夠：

自己「親眼」看到、學習和了解這個世界，而不是僅僅依賴人類投喂給系統(tǒng)的有限文本數(shù)據(jù)，海量知識信息的「新視界」之門由此打開。
智能設備后接Sora+GPT，實時感知現(xiàn)實，是對具身智能的有力加持，機器人等智能設備有希望獲得類似人類感知現(xiàn)實的視覺和判斷能力，看到即學習，判斷即意味。盡管一開始與人類感知能力還是有較大差距，但也遠非傳統(tǒng)計算機視覺可比。
加之Sora式的大模型的Input和output本來就可以充分文本化，所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。

Sora出現(xiàn)的最大意義，并非可以生成60秒、多個分鏡頭、主體統(tǒng)一的視頻，而是意味著大模型由此可以「睜開眼睛」看世界，這是不亞于人類認知重啟的AI的第一次認知重啟，并且這還不是全部。

三、認知重啟通向世界模擬器，這意味著「原力覺醒」：大模型里的母模型，未來根科技

Sora還不是世界模擬器，但是表現(xiàn)出了這樣的潛力。它沒有產(chǎn)生終極答案，但是告訴了業(yè)者，隱約可行的方向在哪里。

盡管Sora還遠不足以成為通用世界模擬器，但是Sora證明Token（1.0）、Patch（2.0）之后，物理世界的X（3.0）表征是可行的。從文本語義、視覺到物理，是大模型原理的三次飛躍，也是走向真正的通用（其實首先基于多領域?qū)I(yè)模擬器）世界模擬器的進階路徑。

Sora還不是物理引擎，但是未來可以泛化為物理引擎。

Patch還只是 ((x,y,z), t )、關系、色彩、內(nèi)容信息意義上的視覺信息元，并不是神經(jīng)元，但是未來可以進化為數(shù)字神經(jīng)元。Transformer大模型無論如何都不可能具備人腦一般的量子能力，但是高維全局注意力機制局部具備擬合量子態(tài)的潛力。

因為AI對智能進行表征的底層邏輯是數(shù)學的，相對人腦的直覺、模糊、隨機、潛意識等特征，大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來，原理不斷升維，時空不斷轉(zhuǎn)換，面向AGI的進化表現(xiàn)為不斷接近高可用性、接近乃至超越人類智能的漸進過程。

但AGI不是終點，也不是圣杯，世界模擬器才是。

Sora有助于實現(xiàn)AGI，但Sora開啟的漫漫征途的主要指向并不是AGI，而是世界模擬器。AGI的定義有多種，經(jīng)典意義上的AGI是類GPT在數(shù)據(jù)、算力、算法進化到一定程度之后，在知識、內(nèi)容、程序等工作與創(chuàng)作方面，表現(xiàn)出總體達到局部超越人類智能的能力。

AGI依然是工具，能夠支持具身智能，但不是具身智能。AGI并不真正具備內(nèi)生、自主能力，更多時候只是為人所用的工具。

說到這一點，一定有必要厘清智能發(fā)展的不同形態(tài)和不同階段，由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態(tài)方位和時空節(jié)點。

當我們在說智能的時候，其實同時有三種智能。Smart意義上的功能智能，昔日AI意義上的計算感知智能，也就是弱（的）智能（AI1.0），2020年以來（尤其2023年被視為正式開端）認知智能意義上的強智能（AI2.0）。

目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能（AI2.0）對智能汽車、機器人等智能設備的二次賦能，是正在到來的趨勢。

這也是盡管國內(nèi)人工智能發(fā)展如火如荼，但實質(zhì)存在代差的原因。一些受不了此強彼弱的人，大呼「我們也不差」，認為GPT這一波是在制造威脅論。其實無須嘴硬，凡事都要先爭個面子。只需實事求是，看清格局，抓住關鍵，迎頭趕上就好。

如何看待Sora/GPT的背后，還有另一個實質(zhì)：有沒有看到戰(zhàn)略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰(zhàn)略高地，AI for Science就是科技龍頭，AGI就是眼前的智能圣杯，通用與各領域?qū)I(yè)模型就是變革引擎，世界模擬器就是未來的暴風眼。

前面說的三種智能都還只是形態(tài)水準，并不是對智能發(fā)展的階段區(qū)分。我將智能發(fā)展相對劃分為五個階段：計算功能智能、計算感知智能、認知智能、內(nèi)生智能（EI）、自主智能（II）。

請注意，有一天AI人工智能這個提法會邊緣化，因為智能不再是「人工」的。人工的AGI自然不是終點，智能將比我們對AGI的預期走得更遠。這一點我在《走向第二曲線》有詳細分析，此處不再贅述。
智能變革的核心是超級智能，超級智能的具身是AGI，AGI是AI2.0、認知智能的高級形態(tài)（但主要還是人工投喂人工增強的智能），AGI是現(xiàn)階段所言AI的高級形態(tài)，但不是EI內(nèi)生智能和II自主智能。AGI不會像某些人說的一兩年內(nèi)就會實現(xiàn)，但估計也就在GPT6前后。之后的階段，屬于內(nèi)生智能（EI）、自主智能（II），屬于世界模擬器。世界模擬器是EI基石，II基準。

超級智能是世界之腦，超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型，未來科技里的根科技。

看看大模型在工業(yè)仿真、環(huán)境氣候、材料預測、蛋白質(zhì)分析、分子藥物、基因研究等領域已經(jīng)遍地開花的強力開局，就會知道，Sora與它們正在殊途同歸：世界模擬器未來主要不是用來玩的，并不是元宇宙概念的炒資，而是科技生產(chǎn)力爆發(fā)點，是智能未來真正的炸裂點。

世界模擬器，科技里的母科技，AI for Science各領域的核心抓手，每個領域的交感、理解、復現(xiàn)、預測，未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器，是最接近智能母體的存在。

世界模擬器意味著「原力覺醒」，創(chuàng)新之源，科技驅(qū)動，戰(zhàn)略高地，不容有失。

四、走向世界模擬器的漫漫征途，將經(jīng)歷哪些階段？

Sora放出的所有視頻里，最具深度探討價值的其實是那個水杯傾倒的片段。

Sora是如何擬合現(xiàn)實的，究竟是不是物理引擎，如何才能成為符合物理特性的引擎，未來又如何才能夠成為世界模擬器。從中隱約可見答案。

CV發(fā)展初期，計算機能做到的只是杯子邊緣輪廓特征提取和復現(xiàn)（比如Neocognitron），再后來可以識別到這是一個水杯（比如早期ImageNet），再后來可以「理解」水和杯子的關系（CNN&RNN），現(xiàn)在能夠開始學習和復現(xiàn)水杯傾倒過程（Transformer/Sora），接下來會怎么樣發(fā)展，也許只有大模型技術(shù)專家知道，也許都還在探索，并無定論。

我只是站在用戶角度進行黑箱式的透析，超級智能接下來能不能夠做到這幾步？

水杯傾倒的流動特癥能不能完全符合物理特性，不出現(xiàn)目前的明顯瑕疵？對應流體力學等。
水杯傾倒后能不能做到視頻中的冰逐漸在水中融化（所以更感興趣那個漢堡咬痕）？對應熱力學等。
水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化（所以更感興趣那個畫布筆觸）？對應光學物理等。
水杯傾倒的過程能不能生成與實景契合的聲音，而不只是簡單聲效？對應聲學物理等。
水杯傾倒的角度與力量能不能做到隨機操控，產(chǎn)生碎裂、潑濺、蒸發(fā)等不同現(xiàn)象？綜合以上及凝聚態(tài)物理。
水杯傾倒周圍如果有電源、?；锲?，能否進行場景預測、情景預現(xiàn)？對應電磁物理、物理化學等。

以上都只是物理角度的簡單引申，世界模擬器所需要對應到的科學領域，以及現(xiàn)實世界的復雜現(xiàn)象，甚至是目前數(shù)十個主要學科尚未能窮盡的。所以無論從過程還是領域而言，都是征途漫漫。但這才是星辰大海。

相應的幾個循序漸進的問題是：

Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎？
Sora可以從微宏觀統(tǒng)一的尺度，對三維物體的內(nèi)在性狀進行學習訓練嗎？
Sora可以在模型原理、神經(jīng)網(wǎng)絡、節(jié)點層級對物理世界進行X（3.0）意義上的3D時空運動表征，并在世界虛擬器交感、理解、復現(xiàn)、預測四要素具備的基礎上使X進化為神經(jīng)元嗎？

面向世界虛擬器的進化，遠不止這些問題，更不只是這些維度……

總的來說，Sora部分擬合了「視覺規(guī)律」，但是還沒有真的理解「物理世界」。目前的Sora本質(zhì)上還是在視覺內(nèi)容世界里，更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步，進入機器人、智能汽車等主要智能設備，以及成為世界模擬器。

AI For Science是世界模擬器的關鍵落地場景，而AI For Science意義上的X（3.0）是物理世界與視覺世界的分叉點，就像Patch（2.0）是文本世界Token（1.0）與視覺世界的分叉點。

數(shù)據(jù)、學習、生成、預期是AGI四要素，信息內(nèi)容感更強。交感、理解、復現(xiàn)、預測，是世界模擬器四要素，母體感知現(xiàn)實具身感更強。世界模擬器的Input和output，實質(zhì)主要由機器智能系統(tǒng)自主完成，是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫，必將通向EI、II。

五、接下來的態(tài)勢會怎么樣？12種情況預估

態(tài)勢1：Sora模型并非不可復制。

OpenAI如果短期內(nèi)不正式推出Sora（快不了）給全球用戶，其它競爭對手也會陸續(xù)發(fā)布自己的類似產(chǎn)品，Patches做法早已有之，并非獨門暗器。

OpenAI和Google、Meta之間只有時間差。但是中小團隊的數(shù)據(jù)差、資源差、算力差造成的競爭弱勢，只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越，哪怕勉強能夠追上Sora未來也是堪憂。另外，原理相似不等于效果相同，差之毫厘謬之千里。

態(tài)勢2：拚原理>拚算力，模型原理升維才是能力躍遷關鍵，但算力必不可少且需求繼續(xù)陡增。

Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0，但這并不是重點。Sora再一次證明，拚原理的重要性遠大于拚算力，算力算什么（而不是算力）才見高下。

原理引起的格局翻覆往往就在一瞬間，今后也是，翻覆還將多次。但算力總體需求依然呈現(xiàn)為爆發(fā)式增長，因為要算的不再只是文本/Token，視覺/Patches會令算力需求陡增。

未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求，更會令算力吃緊。即使眼前線性地看，高質(zhì)量海量數(shù)據(jù)總是優(yōu)于小體量數(shù)據(jù)，參數(shù)量大總是優(yōu)于參數(shù)量小，模型的深層、多階段、反復思考總是優(yōu)于單階段，高分辨率高精度總是顯著優(yōu)于低精度，所以算力需求依然呈現(xiàn)為指數(shù)級增長。但總體而言，算力只是必要條件。

態(tài)勢3：以Transformer為主干的大模型依然是主要演進方向，且具有巨大潛力。

Self-Attention機制在電子計算的層級模擬了量子態(tài)（只是神似），消除了信息元之間的距離限制、消解了CNN的場域阻隔，在量子計算可用之前，是以數(shù)學、電子計算為基礎的最具腦特征的智能。

態(tài)勢4：輕與重，大和小，單一與混合，始終是兩種并行邏輯。

在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中，視頻看上去「合理」的Sora走的是一條更輕的捷徑，操控感、立體感、前后擴展自然不夠理想。

3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說，又笨又重，但更貼近本質(zhì)，且操控感更強。就像自動駕駛的兩條計算機視覺路線，一個靠CMOS圖像數(shù)據(jù)來算，一個靠雷達來對物理空間進行點云建模。

目前只能說電影工業(yè)多了一個選擇，倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發(fā)出無限可能。

態(tài)勢5：功能瑕疵問題反倒不是問題，并且越往世界模擬器方向走，視頻生成的這些小問題越無關大局。

時間線前后擴展、主體融合過渡、場景置換、連續(xù)性、3D運鏡、多鏡頭、漢堡咬痕，這些只是目前的能力，Sora的可用性未來會更加超出預期。

目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多，但是瑕不掩瑜，而且這些問題隨著訓練規(guī)模增加、模型不斷微調(diào)優(yōu)化，必然迎刃而解。

態(tài)勢6：Sora與Vision Pro的確是一對想象力組合，但是以為戴上頭盔就可以念念有詞的，一多半可能會失望。

此外，VR在向MR進，AR在向MR退，VR以后只是MR的一個功能，MR是產(chǎn)業(yè)科技目前能夠到的交叉點，最難突破的AR未來才是主要形態(tài)。

態(tài)勢7：OpenAI本身的4個可能與6個不可能。

可能方面：成為主流AI開發(fā)者平臺，成為最大Store，形成數(shù)十億用戶生態(tài)，部分具身智能能力。

不可能方面：7萬億美元造芯，模型原理持續(xù)領先，開源開放，縱橫整合產(chǎn)業(yè)鏈，成為具身智能/內(nèi)生智能/自主智能，堅持初創(chuàng)理念不動搖不成為……

尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息，是WSJ援引所謂消息人士，并不是奧特曼本人，已投Rain股權(quán)中的沙特基金在被美帝勸退，還和中東主權(quán)基金合計在美投資數(shù)萬億美元的大規(guī)模芯片制造？綠錢不參與的話，找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片，要么是概念吹瘋了，要么是常識缺位，要么是算數(shù)不會了。更重要的是，制造并不是AI計算突破重點。

態(tài)勢8：全生態(tài)轉(zhuǎn)變已開始，AI是主驅(qū)動但不是化學反應全部。

6個要素：感知（交互）、計算（數(shù)據(jù)）、智能（AI）、連接（網(wǎng)絡）、協(xié)約（關系）、能量（能源）等。

態(tài)勢9：變化非線形。

深層玩家不僅著眼算力提升，還在醞釀計算架構(gòu)之變，變化不會是線性的，有可能業(yè)者討論的未來其實是現(xiàn)在，而不是升維后的未來。下一步模型原理、計算架構(gòu)包括芯片，都將不斷有重大變化。

態(tài)勢10：AI原力在底層，應用只是需求牽引力。

國內(nèi)團隊適合從應用著手說法沒錯，但過早定格一覺醒來發(fā)現(xiàn)樓塌了不是沒有可能，還是需要有人聚焦底層之變，包括硬件底層，硬仗有人打，至少緊跟。

態(tài)勢11：一定是云端邊-大中小-PPP混合AI，如此戰(zhàn)場方能展開；但不能只著眼AI，感數(shù)算智、軟硬協(xié)同、形態(tài)創(chuàng)新等維度交織才是完整視角，也是價值展開的關鍵。

如果只是窄化為算力算法意義上的AI，輕量化為場景需求意義上的應用，無異于互聯(lián)網(wǎng)思維，只可能第一天就卷，只可能是store里的一個GTPs、APPs，就像互聯(lián)網(wǎng)時代曾經(jīng)活成了「很厲害」的APP的樣子；這是一場原力致勝的立體戰(zhàn)役，最需要褪去的就是互聯(lián)網(wǎng)思維；凡事偷輕，難堪重任；處處求簡，難當多面；全生態(tài)全體系變革，僅應用不足以催化，僅算力算法數(shù)據(jù)模型意義上的AI不足以驅(qū)動。

態(tài)勢12：壓力陡增。

回到老難題，中美AI之爭，李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發(fā)布之際，壓力不那么大，總覺得有得一追，畢竟都還在文本、代碼、圖片維度。但是Sora一出，壓力陡增。升維比想象得快。競爭和發(fā)展不是二維、線性的。真正的物理世界模擬器，已經(jīng)隱約能嗅到味道，且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。

朋友有句話說得好，當年Alpha Go/zero碾壓人類圍棋之后，事了拂衣去，一年后阿爾法Fold橫空處世，重塑了人類對蛋白質(zhì)結(jié)構(gòu)認知與預測，這才叫偉大工程。Sora也是一樣，如果只以為它是60秒視頻生成神器，被網(wǎng)絡噴子噴成「洋人的奇技淫巧」，無用之用，可以說與業(yè)外對早期AlphaGo的「下棋玩具」理解有幾分神似。

但如果從大模型睜開眼睛看世界，AI認知重啟，以及潛在的世界模擬器發(fā)展方向看，這顯然是正在覺醒的原力。企業(yè)如果忽視趨勢，在這一史詩級的漫漫征程中落伍，會被降維打擊得連親媽都認不出來。

AI認知重啟，超級智能點亮億萬機器之心，世界虛擬器成為母模型根科技，不是科幻，這是一個時代的序幕。

那么，AI認知已然重啟，人類的認知重啟了嗎？

作者：胡延平；編輯：好困桃子

原文標題：獨家｜世界模擬器才是AGI終局，12態(tài)勢預測！首席專家萬字長文專業(yè)解讀Sora里程碑

來源公眾號：新智元（ID：AI_era），“智能+”中國主平臺，致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App