再說Sora原理:讓復雜變簡單

0 評論 1854 瀏覽 5 收藏 12 分鐘

在討論Sora如何處理復雜視覺內容這一話題中,了解空間時間補?。⊿pacetime Patches)這一概念是至關重要的。這篇文章里,作者便探討了視頻壓縮網絡及其與空間時間潛在補丁之間的關系,以及它們在視頻生成過程中的作用,一起來看一下。

繼上一次分享的《能看懂的Sora原理》討論Sora如何生成視頻的原理之后,讓我們再進一步集中探索一下空間時間補?。⊿pacetime Patches)這一概念。因為這一概念對于理解Sora如何處理復雜視覺內容至關重要。

空間時間補丁可以簡單理解為將視頻或圖片內容分解為一系列小塊或“補丁”,每個小塊都包含了部分時間空間信息。這種方法的靈感來源于處理靜態圖像的技術,其中圖像被分成小塊以便于更有效地處理。在視頻處理的背景下,這一概念被拓展到了時間維度,不僅包含空間(即圖像的部分區域),還包括時間(即這些區域隨時間的變化)。

為了理解空間時間補丁是如何工作的,我們可以借用一個簡單的日常生活中的比喻:想象一下,你在觀看一部電影。如果我們將這部電影切割成一幀幀的靜態畫面,每幀畫面進一步切割成更小的區域(即“補丁”),那么每個小區域都會包含一部分畫面的信息。隨著時間的推移,這些小區域中的信息會隨著物體的移動或場景的變化而變化,從而在時間維度上添加了動態信息。

在Sora中,這樣的“空間時間補丁”使得模型可以更細致地處理視頻內容的每一個小片段,同時考慮它們隨時間的變化。

具體到Sora處理視覺內容的過程中,空間時間補丁首先通過視頻壓縮網絡生成。這一網絡負責將原始視頻數據壓縮成更低維度的表示形式,即一個由許多小塊組成的密集網絡。這些小塊即為我們所說的“補丁”,每個補丁都攜帶了一部分視頻的空間和時間信息。

一旦生成了這些空間時間補丁,Sora就可以開始它們的轉換過程了。通過預先訓練好的轉換器(Transformer模型),Sora能夠識別每個補丁的內容,并根據給定的文本提示進行相應的修改。例如,如果文本提示是“雪地中的狗狗奔跑”,Sora將找到與“雪地”和“奔跑的狗狗”相關的補丁,并相應調整它們,以生成與文本提示匹配的視頻內容。

之所以Sora可以將“雪地”和“奔跑的狗狗”放在一起,是因為Sora是一個基于語言模型范式的視頻模型。但是要理解為什么語言模型范式在視頻生成任務上也能這么有效,我們先打個比方來說一下語言模型為什么能成功生成語言:

語言模型基于一種叫做“token”的概念來抽象[多模態]的語言(語言,數學,代碼。。。)并通過“預測” token 來生成段落。

打個比方:

“你吃” 是一個 “Token”

那么你猜下一個Token更應該是以下哪個?

“了嗎”、 “足浴店”、 “變形金剛” 。。。

很顯然, 答案是 “了嗎”.

所以你明白了嗎?就像是你手機輸入法的那個“自動補全” 功能, 只不過 token不是具體的詞匯, 是一種隱空間表達的語言段落, 訓練的數據量和方式也更高級。

這其實就是語言模型范式最簡單的原理,根據上一個Token,推測下一個Token,然后不斷往下去“扯犢子”并最終形成一個篇章的行為模式。

再回到Sora這個基于語言模型的視頻生成模型,當他收到對應文字提示時,他就會自動抓取跟文字提示有關系的哪些“補丁”然后再將這些補丁從時間和控件維度上進行拼接,最終形成你想要的視頻。

這種基于空間時間補丁的處理方式有幾個顯著優勢。首先,它允許Sora以非常精細的層次操作視頻內容,因為它可以獨立處理視頻中的每一小塊信息。其次,這種方法極大地提高了處理視頻的靈活性,使得Sora能夠生成具有復雜動態的高質量視頻,而這對于傳統視頻生成技術來說是一個巨大的挑戰。

此外,通過對這些補丁進行有效管理和轉換,Sora能夠在保證視頻內容連貫性的同時,創造出豐富多樣的視覺效果,滿足用戶的各種需求。

隨著對Sora視頻生成過程的進一步探討,我們可以看到,空間時間補丁在這一過程中扮演了極其重要的角色。它們不僅是Sora處理和理解復雜視覺內容的基石,也是使得Sora能夠高效生成高質量視頻的關鍵因素之一。接下來,我們將更深入地探討視頻壓縮網絡及其與空間時間潛在補丁之間的關系,以及它們在視頻生成過程中的作用。

一、視頻壓縮網絡

想象一下,你正要將成一個十分復雜的樂高積木分類整理并重新拼組。你的目標是,用盡可能少的盒子裝下所有部件,同時確保能快速找到所需之部件。在這個過程中,你可能會將每個小部件裝入小盒子中,然后將這些小盒子放入更大的箱子里。這樣,你就用更少、更有組織的空間存儲了同樣多的部件。

視頻壓縮網絡正是遵循這一原理。它將一段視頻的內容“分類和組織”成一個更加緊湊、高效的形式(即降維)。這樣,Sora就能在處理時更高效,同時仍保留足夠的信息來重建原始視頻。

二、空間時間潛在補丁提取

接下來,如果你想要細致地記下每個盒子里裝了什么,可能會為每個盒子編寫一張清單。這樣,當你需要找回某個積木部件時,只需查看對應的清單,就能快速定位它在哪個盒子里。

在Sora中,類似的“清單”就是空間時間潛在補丁。通過視頻壓縮網絡處理后,Sora會將視頻分解成一個個小塊,這些小塊含有視頻中一小部分的空間和時間信息,就好像是對視頻內容的詳細“清單”。這讓Sora在之后的步驟中能針對性地處理視頻的每一部分。

三、Transformer模型抓取空間時間補丁

最后,想象一下。某一日你將這幅樂高積木進行拼裝復原,你仔細閱讀了拼裝說明,你先將樂高積木分成若干模塊。然后,你根據各模塊對應的說明拼裝出積木的一部分。最終,你再將各模塊的部分進行合并,形成一幅完整積木。

在Sora的視頻生成過程中,Transformer模型正扮演著類似你一樣的角色。它接收空間時間潛在補?。匆曨l內容的“拼部件”)和文本提示(即“說明”),然后決定如何將這些片段轉換或組合以生成最終的視頻,從而完成可高積木的拼裝和組合。這一過程既有時間維度,又有空間維度,每一個樂高部件都相當于一個空間時間補丁。最終生成一個完整的視頻。

通過上述這三個關鍵步驟的協同工作,Sora能夠將文本提示轉化為具有豐富細節和動態效果的視頻內容。不僅如此,這一過程還極大地提升了視頻內容生成的靈活性和創造力,使Sora成為一個強大的視頻創作工具。

最后讓我再一起欣賞下Sora生成的視頻:

Sora能夠生成展現動態攝像機運動的視頻,這意味著它不僅能捕捉到平面圖像中的動作,還能以3D的視角呈現物體和人物的運動。以下是模擬無人機對在山澗中的人進行追蹤拍攝的畫面。展現了Sora對三維空間理解的深度,使得生成的視頻在視覺上更加真實和生動。

一直旋轉的山

在生成長視頻時,保持視頻中的人物、物體和場景的一致性是一項挑戰。Sora展示了在這方面的卓越能力,能夠在視頻的多個鏡頭中準確保持角色的外觀和屬性。例如下方的視頻畫面,當人物穿行而過,能保持狗的樣貌和姿勢保持一致,體現了Sora在維持長期一致性上的強大能力。

總是張望的狗

Sora真的就如同人類認知這個世界的方式去理解一切事物,它也會有一些反物理常識的問題出現,比如下方這個視頻,被子沒有破碎,里面的水就已經灑出來了,這是因為對于復雜的物理互動,如玻璃破碎的精細過程,或是涉及精確力學運動的場景,Sora有時無法準確再現。這主要是因為Sora目前的訓練數據中缺乏足夠的實例來讓模型學習這些復雜的物理現象。

總的來說,Sora在視頻生成和模擬真實世界互動方面的表現雖然已經很出色,但仍然存在諸多挑戰。不過我們有理由相信,未來Sora能夠在保持創新的同時,克服當前面臨的局限性,展現出更加強大和廣泛的應用潛力。

本文由@楠説 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自 Sora 官網演示視頻截圖

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!