Sora官方技術報告詳解|從模型能力到原理剖析的深度解讀

2 評論 10636 瀏覽 16 收藏 12 分鐘

文章基于OpenAI官方公布的Sora技術文檔,從模型能力、訓練方式和技術原理三個角度出發,剖析Sora的出現對人工智能的發展,到底意味著什么?

見字如面,文章內容相較于視頻內容會更加精簡,如需了解更多細節的內容請觀看視頻,視頻地址:https://www.bilibili.com/video/BV1Xx4y1y7Ga

一、什么是Sora

2024年2月16日凌晨(美國時間2月15日)OpenAI推出視頻生成模型:Sora,一款文生視頻(text-to-video)的模型。

Sora是通過學習視頻內容,來理解現實世界的動態變化,并用計算機視覺技術模擬這些變化,從而創造出新的視覺內容。

我們來直觀地感受一下什么是Sora?

這是一段提示詞(Prompt):

A Chinese Lunar New Year celebration video with Chinese Dragon

翻譯成中文:

與中國龍慶祝中國新年。

文生視頻。現在文字有了,我們來看視頻效果。

可以發現無論是舞龍的細節表現,還是人群跟著舞龍隊伍的真實感,效果是如此的逼真。

當然Sora的能力還遠不止如此,除了支持文字生成視頻外,還支持文字+圖片、文字+視頻、視頻+視頻的方式創作新的視頻內容。

二、Sora模型能力介紹

能力一、Sora生成的視頻內容,符合現實世界的物理規律

Sora生成的視頻內容,符合現實世界的物理規律。

這說明Sora學習的不僅僅是視頻中的畫面,還在學習視頻中元素之間的關系,學習現實世界中的物理規律。

比如:一個人咬一口漢堡后,能夠在漢堡上能夠留下咬痕。

能力二、Sora能夠生成一分鐘的高清視頻,并且支持生成不同時長、長寬比和不同分辨率的視頻與圖像

對于視頻創作者而言,能夠基于不同創作平臺視頻尺寸要求來生成視頻內容。

能力三、Sora支持文字+圖片生成視頻

能力四、Sora支持連接視頻

Sora支持在兩個視頻之間進行過渡處理,從而實現視頻之間的無縫過渡。

能力五、Sora支持文字+視頻生成視頻

Sora能夠基于文本提示,從而改變原視頻的風格化和視頻中的元素。

能力六、Sora支持拓展視頻

Sora能夠在原視頻的前后延長和拓展視頻。

案例中三個視頻,它們都是從生成的視頻片段開始向前進行了視頻的延伸。

因此,這三個視頻的開頭都不同,但結局都是相同的。

能力七、3D畫面的一致性

Sora可以生成帶有動態攝像機運動的視頻。隨著攝像機的移動和旋轉,人和場景元素在三維空間中一致移動。

三、Sora模型訓練方式

在官方技術報告中,有一段這樣的表述:

Sora is a generalist model of visual date

翻譯成中文:

Sora是一個“通用模型”。

但要訓練一個通用模型的前提條件之一:“大規模的訓練數據”。

Sora是怎么訓練的呢?

分為一下兩步:所有數據皆為“我”所用、幫助AI更好的學習。

1. 所有數據皆為”我”所用

沿用ChatGPT之前大力出奇跡的訓練方式:通過互聯網的海量數據進行訓練后,從而獲得了通用的模型能力。

互聯網中的龐大數據,之所以能被GPT進行訓練,是因為在訓練前進行了【數據標記處理】,英文被稱之為Tokenization。

大白話說就是:將訓練的文本內容轉譯為計算機能夠理解的語言。

Sora沿用了GPT標記訓練數據集的思路,對視頻內容進行標記。視頻標記被稱作為visual patches,中文翻譯過來叫做:視覺補丁,其核心的作用就是將視頻內容,標記后,轉譯為計算機能夠理解的語言。

那有了視頻標記后,如何讓標記的速度更快?標記的質量更高?

就引出了下面一項技術。

2. 對訓練數據集進行處理,助力AI更好的學習

Sora在對數據集處理方式時沿用了DALL-E3的Re-Captioning技術。

Re-Caption技術簡單的來說是根據輸入的圖像生成對應的圖像描述的文本內容。

這樣做的好處:

AI學習到的不再是抽象的圖像元素,并且1000個人有1000個哈姆雷特,通過圖像+圖像描述的方式,能夠指引AI去人類圖片的思路。

Sora運用該技術的具體的步驟是:

  • 首先訓練了一個captioner model,它的作用就是能將視頻內容轉譯為文本的描述內容。
  • 然后使用這個模型將訓練集中所有的視頻,逐個轉譯為文本內容后,再結合對應的視頻進行訓練,從而提高AI的學習質量。

四、Sora模型技術原理

Sora目前運用的是Diffusion model(擴散模型)+ Transformer兩種技術架構的結合。

  1. Diffusion model:是一種生成模型,用于圖像的生成。
  2. Transformer:是一種深度學習模型,最初用于自然語言處理,可以學習文本之間的依賴關系,也能夠處理圖片和視頻的任務,如圖像分類、視頻理解。

咱們重點聊一聊Diffusion model(擴散模型)

這個技術路線和文生圖的Stable diffusion的技術路線非常類似。

用一句話概括Sora擴散模型的實現過程:將原視頻訓練素材壓縮后給Sora學習,學習如何將壓縮后的視頻內容還原和生成新的視頻。

這里包含了兩個關鍵步驟:Encoder-編碼、Decoder-解碼。

1)Encoder

Encoder就是將原視頻進行壓縮,壓縮至一個低維度的空間,壓縮后視頻充滿了噪點,Sora就是學習壓縮后的數據。

2)Decoder

Decoder就是將壓縮后的視頻進行還原或創造,恢復至高清的像素空間。

那為什么Sora不直接拿原視頻進行訓練呢?

我們舉個例子。

原視頻進行Encoder編碼后,整個視頻的大小極具降低,所以訓練的數據越小,消耗的算力資源越少,可訓練的數據規模更大。

五、總結

Sora 建立在過去對 DALL·E 、GPT、Diffusion model 研究之上的,所以技術的爆發并非偶然,而是多項技術共同作用的結果。

那Sora的出現對人工智能的發展,到底意味著什么?

Sora的官方技術文檔中有兩句話讓我印象深刻:

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction

翻譯成中文:

我們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決現實世界中的交互問題。

OpenAI最終想做的,其實不是一個“文生視頻”的工具,而是一個通用的“物理世界模擬器”。

而Sora,只是驗證了,這條道路可行的一個里程碑。

Sora的出現,短期來看,能夠提高創作者、影視從業者的生產效率;長期來看,AI能夠更佳全面的理解人類生活中現實世界,AGI通用人工智能正在加速到來。

見字如面,希望文章對你有所幫助~

聲明:文章中的視頻內容均出自Sora生成

來源自OpenAI官方技術報告

Sora官方技術報告地址:https://openai.com/research/video-generation-models-as-world-simulators

作者:在野在也,公眾號:在野在也

本文由 @在野在也 原創發布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自 Sora 官網演示視頻截圖

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. mark

    來自廣東 回復
    1. ??

      來自廣東 回復