能看懂的Sora實現原理
近幾日,OpenAI發布視頻生成模型Sora,各大自媒體的營銷內容更是為Sora增加了神秘色彩。本文詳細闡述了Sora實現原理,希望對你有所幫助。
近幾日,關于OpenAI發布視頻生成模型Sora的消息甚囂塵上,各類自媒體的營銷內容更為Sora增加了神秘色彩。
就說Sora有多火吧,生成的視頻上線一個,瘋傳一個。
人類向貓王朝拜
無人機穿越古建筑
明顯能看出來Sora生成的視頻中的各項細節都讓人驚嘆,一如去年的ChatGPT,Sora被認為是AGI(通用人工智能)的又一個里程碑時刻。
然而,大眾所看到的文生視頻也僅僅是一個表象而已,Sora模型之所以如此轟動,并不只是因為AI生成的視頻時間更長、清晰度更高,而是OpenAI已經超越過去所有AIGC的能力,生成了一個與真實物理世界相關的視頻內容。
在OpenAI官方出具的技術報告中,對Sora的定位是“作為世界模擬器的視頻生成模型”,“我們的研究結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條可行之路?!?/strong>
由于Sora的技術原理和細節尚未公開,而Sora也沒有進行公測。我僅從現有OpenAI公布的的技術報告以及AI領域的專家和學者對其分析來了解Sora如何是處理多樣化視覺數據的,我會用通俗的語言和一些好理解的例子來解釋Sora是如何完成視頻創作的。
在這之前,我們先想一下我們自己是如何理解這個世界?
當你日常從各類渠道或者新聞媒體,短視頻平臺上獲取信息時,即使沒去過的地方,沒見過人或物。盡管你所掌握的這些信息內容和風格各異,但你仍能在需要時輕松地辨識提取每一個信息片段(Token),因為你的大腦能夠將這些不同的視覺信息統一理解。所以你可以通過獲取的信息并在腦海里構想物品或者畫面;你可以在夢境中見到從未見過的人或物;你甚至在夢境中可以出現一些違背物理常識體驗,比如自己在空中騎著掃帚飛。
現在,讓我們將這個過程與Sora處理多樣化視覺數據的方式進行對比。Sora首先通過自學習理解來自世界各地、不同設備拍攝的數以百萬計的圖片和視頻。這些視覺數據在分辨率、寬高比、色彩深度等方面都存在差異。為了讓Sora能夠像人類大腦那樣理解和生成這么豐富的視覺內容,OpenAI開發了一套將這些不同類型視覺數據轉換為統一表示形式的方法。
對,沒錯,Sora就是像人理解世界一樣去構建模擬一個屬于Sora的世界。不同于 Runway 、Stable Video Difusion 等擴散模型主要采用經典的 U-Net架構,Sora 用 Transformer 架構替 換 U-Net 架構,大幅提升模型擴展性。
Sora 的訓練受到了大語言模型(Large Language Model)的啟發。這些模型通過在互聯網規模的數據上進行訓練,從而獲得了廣泛的能力。——引自OpenAI對Sora模型技術報告詳解
首先,Sora通過“視頻壓縮網絡”。
技術,將這些輸入壓縮為較低維度的表示形式。隨后,這些壓縮數據被進一步分解為“空間時間潛在補丁”(Spacetime Patches)并處理為一致的格式。在接收到我們的文本條件,即最小信息片段(Token)后,Sora通過理解這些信息片段,從時間和空間維度逐步勾勒出視頻畫面。
請注意,上述無論是通過該“視頻壓縮網絡”技術對輸入進行壓縮的過程,還是進一步分解為“空間時間潛在補丁”(Spacetime Patches)的過程。這并不意味著會忽略原始數據的獨特性,而是將它們轉換成一個對Sora來說更容易理解和操作的格式。而分解補丁則可以看作是視覺內容的基本構建塊,就像是我們把一副拼圖打散后,拼圖的每一塊卡片都是包含獨特景觀、顏色和紋理的小片段。這樣,不管原始視頻的長度、分辨率或風格如何,Sora都可以將它們處理成一致的格式。
這就像你在將拼圖復原時,盡管拼圖卡片有幾千個之多,但你依然能通過已有的參照和相同的方式去復原它們。
上面我們闡述了Sora如何對輸入進行分解到最基本的構建塊“空間時間補丁”(Spacetime Patches),接下來我們順著這一概念來探討Sora如何根據文本提示生成內容的機制。這一過程核心依賴于一種名為“文本條件化的Diffusion模型”。
現在設想你手握一本繪畫本,初始時,本子上僅有一些雜亂無章的線條,看似毫無意義。然而,當被告知主題,例如“描繪一座花園”時,你腦海中便會自發地搜索與“花園”相關的所有信息片段。接著,你將這些零散的信息逐步呈現在繪畫本上,并不斷修改和優化已有的筆觸。最終,這些混亂的線條漸變為一幅精致的花園畫卷。在此過程中,“指定的主題”類比為文本提示,而你逐步完善草稿的過程則與Diffusion模型的運作方式相似。
就像你畫一幅“花園”時,這個過程并不是一蹴而就的,而是通過數百個漸進的步驟完成的,每一步都會讓視頻離最終目標更進一步。這種方法的一個關鍵優勢在于其靈活性和創造性:同一段文本提示,通過不同的噪聲初始狀態或通過稍微調整轉化步驟,可以生成視覺上截然不同、但都與文本提示相符的視頻內容。這就像是多個畫家根據同一主題創作出風格各異的畫作。通過這種基于文本條件的Diffusion模型,Sora不僅能生成具有高度創造性的視頻和圖片,還能確保生成內容與用戶的文本提示保持高度一致。
具體到Sora的實現,這個過程開始于一段與目標視頻同樣時長、但是內容完全是隨機噪聲的視頻??梢园堰@段噪聲視頻想象成草稿本上那些毫無意義的線條。隨后,Sora根據給定的文本提示(比如“一只小狗站在草坪上,伸著舌頭”)開始“涂改”這段視頻。在這個過程中,Sora利用了大量的視頻和圖片數據學習到的知識,來決定如何逐步去除噪聲,將噪聲視頻轉變成接近文本描述的內容。
這種處理多樣化視覺數據的能力,使得Sora在接收到如‘一只小狗站在草坪上,伸著舌頭’類似這樣的文本提示時,正如OpenAI的技術報告中提到“Sora 的訓練受到了大語言模型(Large Language Model)的啟發。這些模型通過在互聯網規模的數據上進行訓練,從而獲得了廣泛的能力。”使得Sora不僅能理解這個提示背后的意圖,還能利用它的內部表示形式,綜合利用不同類型的視覺信息,生成與文本提示相匹配的視頻或圖片。就好比是從全世界的視覺數據中找到那些能夠拼湊出你想象中的“一只小狗站在草坪上,伸著舌頭”場景的片段,并將它們組合起來,創造出一個全新的視覺作品。
引自《Scalable Diffusion Models with Transformers》論文
文本條件化的Diffusion模型賦予了Sora強大的理解和創造力,讓它能夠跨越語言與視覺之間的障礙,將抽象的文字描述轉化成具體的視覺內容。這一過程不僅展示了AI在理解自然語言方面的進步,也開辟了視頻內容創造和視覺藝術領域的新可能性。
而其他文生視頻的平臺如Runway、Pika等還停留在通過像素來構建視頻畫面,這也是為什么其他像Runway,Pika等生成的視頻扭曲會這么嚴重的原因,他們僅僅是通過讓靜態圖片的部分元素動起來進而生成視頻的。
Sora生成的小狗玩雪活靈活現,而Runway則是像定格動畫
以上我用?通俗的語言解??釋了Sora的原理和與其他平臺的差異。先不用管上述描述中一些陌生的概念,你只需要用你是如何理解這個世界的方式來理解Sora的實現原理,當?然Sora的原理也不僅僅是如我所說的這么簡單,我只是在已有研究的基礎上,通過這幾天的學習和理解加上一些生活中的例子來試圖解釋S??ora。
?????這次 Sora 的發布又讓很多人對 AGI 的實現更加樂觀了。360董事長周鴻祎作出預判——Sora的發布意味著AGI實現將從10年縮短到1年。
Sora的發布是否會真正開?啟AGI(Artificial General Intelligence 人工通用智能)時代的大門,我們還不可知。但是肯定會對視頻制作,游戲畫面等行業產生影響,試想一下以往制作一部電影制作特效需要花費的時間和人力以及制作游戲需要對游戲世界進行建模,模擬真實世界的物理規律,這些雖然我們已經可以做到,但是是通過一種最笨的方式去構建我們想象的世界的樣子,但是Sora在大語言模型的基礎上,以一種全新的思路為我們提供了另一種方式來構建和模擬真實世界,而且這種方式還是更簡單,更快捷的。??
正如OpenAI 技術報告的結尾是一個《我的世界》的游戲視頻,旁邊寫著這樣一句話:“ Sora可以通過基本策略同時控制Minecraft中的玩家,同時高保真地呈現世界及其動態。只需在Sora的提示字幕中提及‘Minecraft’,就能零距離激發這些功能。??
Sora 如果真能實現對物理世界的模擬、能夠跟 LLM 代表的虛擬世界無縫融合,那它必然是通往 AGI 路上的里程碑。
今天就寫這么多吧。手動碼字,還請點個贊吧?。?/p>
本文由@楠説 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Sora文生視頻演示截圖
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
以后會不會出現一個直接說出需求繪制原型圖的AI