萬字長文探索Sora的奧秘:15大視頻能力、優(yōu)缺點(diǎn)、應(yīng)用場(chǎng)景和對(duì)產(chǎn)品經(jīng)理的啟示
Sora的出現(xiàn),帶給了許多行業(yè)的從業(yè)人員一些震撼。那么作為產(chǎn)品經(jīng)理,你是否了解Sora的核心能力在哪里?這篇文章里,作者做了探討,并且還討論了Sora如何啟發(fā)產(chǎn)品設(shè)計(jì)和創(chuàng)新路徑。一起來看看吧。
探索Sora的15項(xiàng)核心能力,本文將帶你全面了解這個(gè)AI視頻生成器的技術(shù)優(yōu)勢(shì)、潛在局限,以及其在多個(gè)場(chǎng)景下的應(yīng)用。對(duì)于產(chǎn)品經(jīng)理而言,我們還將討論Sora如何啟發(fā)產(chǎn)品設(shè)計(jì)和創(chuàng)新路徑。
無論你是AI技術(shù)的研究者、視頻內(nèi)容創(chuàng)作者,還是致力于產(chǎn)品創(chuàng)新的經(jīng)理人,這篇文章都將為你打開一個(gè)新世界的大門,帶你深入了解Sora的內(nèi)部機(jī)制和外部應(yīng)用,洞察未來趨勢(shì)。
一、關(guān)于Sora
Sora是OpenAI在2023年2月發(fā)布的一款文本到視頻生成模型。它能夠根據(jù)描述性提示生成長達(dá)一分鐘的視頻,同時(shí)保持視覺品質(zhì)并遵循用戶提示。視頻可以包含多個(gè)角色、特定類型的運(yùn)動(dòng),以及主題和背景的準(zhǔn)確細(xì)節(jié)。
文生視頻(Text-to-Video)技術(shù)是指根據(jù)給定的文本描述自動(dòng)生成視頻的技術(shù)。這種技術(shù)可以創(chuàng)造出復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng)。
OpenAI開發(fā)Sora的目的是為了教人工智能理解和模擬運(yùn)動(dòng)中的物理世界,并訓(xùn)練其幫助人們解決需要現(xiàn)實(shí)世界互動(dòng)的問題。這意味著Sora不僅可以生成視頻,還可以模擬物理世界中的運(yùn)動(dòng),從而生成更加真實(shí)和有用的視頻內(nèi)容。
這就是OpenAI 稱它為“世界模擬器”的原因。
二、Sora技術(shù)原理
首先簡(jiǎn)單概括一下Sora技術(shù)原理。
Sora是一種先進(jìn)的視頻生成模型,它能夠根據(jù)文本提示生成相應(yīng)的視頻。它的工作原理可以簡(jiǎn)單地理解為兩個(gè)主要步驟:編碼和生成。
1. 編碼
首先,Sora會(huì)將輸入的視頻數(shù)據(jù)進(jìn)行壓縮,將其轉(zhuǎn)化為一種低維的潛在表示形式。這個(gè)過程有點(diǎn)像我們把一個(gè)復(fù)雜的物體分解成簡(jiǎn)單的零件,方便我們后續(xù)處理。然后,這些被壓縮的數(shù)據(jù)會(huì)被進(jìn)一步分解成時(shí)空區(qū)塊,你可以把它們想象成視頻的“基因”,包含了視頻的所有基本信息。
2. 生成
接下來就是生成階段。Sora利用擴(kuò)散模型的思想,從簡(jiǎn)單的噪聲信號(hào)出發(fā),逐步添加細(xì)節(jié)和模式,最終生成復(fù)雜的新數(shù)據(jù)。這就像我們根據(jù)零件重新組裝出一個(gè)新的物體,只不過Sora的版本更加復(fù)雜和高級(jí)。
在這個(gè)過程中,Sora還利用了變換器(Transformer)的技術(shù),這是一種非常擅長處理序列數(shù)據(jù)的模型。無論是語言還是視頻,都可以看作是由一系列高維向量組成的序列,而變換器則能夠很好地預(yù)測(cè)下一個(gè)向量應(yīng)該是什么。
總的來說,Sora的工作原理就是先將視頻數(shù)據(jù)進(jìn)行壓縮和分解,然后利用擴(kuò)散模型和變換器技術(shù)逐步生成新的視頻內(nèi)容。
Sora 是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),相信這一功能將成為實(shí)現(xiàn) AGI 的重要里程碑。
三、Sora 視頻能力清單
Sora 的能力到底多厲害?根據(jù)OpenAI披露的技術(shù)文檔,盤點(diǎn)了14條之多,本文將針對(duì)每一條做更加深入的分析和理解,并且用通俗易懂的語言進(jìn)行解釋說明,并會(huì)增加該能力在可能的領(lǐng)域?qū)⒂惺裁礃拥膽?yīng)用??赐瓯疚模嘈拍阋欢〞?huì)對(duì) Sora 有更深刻的認(rèn)識(shí),并有可能結(jié)合自己的工作和生活,找到結(jié)合的場(chǎng)景,產(chǎn)生如何運(yùn)用它的創(chuàng)意。
Sora能力清單:
- 長視頻
- 多機(jī)位
- 多角色
- 多分辨率、任意寬高比尺寸
- 語言理解:準(zhǔn)確遵循用戶提示的高質(zhì)量視頻
- 圖片+提示=視頻
- 在時(shí)間上向前或向后擴(kuò)展視頻
- 無縫的無限循環(huán)視頻
- 視頻到視頻編輯:零鏡頭改變輸入視頻的風(fēng)格和環(huán)境。
- 連接視頻:兩個(gè)視頻穿插銜接
- 圖像生成能力:分辨率高達(dá) 2048×2048
- 3D 一致性
- 遠(yuǎn)程相干性和物體持久性
- 與世界互動(dòng)
- 模擬數(shù)字世界
四、Sora 的視頻能力詳解
接下來,讓我們來看看每一個(gè)能力的具體情況吧。
1. 長視頻
首先要申明的是,這里的長視頻,并不是電影電視劇級(jí)別的長視頻,而是相比其他文生視頻友商的 5s 、 10s、15s相比的,可以連續(xù)生成 1 分鐘的長視頻。
這個(gè) 1 分鐘在大模型生成視頻領(lǐng)域是什么概念呢?Sora之于視頻生成領(lǐng)域有多大的進(jìn)步呢?單單從生成長度這個(gè)維度來看,就已經(jīng)是吊打之前所有的模型了。
可以看下圖:
之前大火的Pika、Runway等模型只能生成3秒上下的視頻,最長的例如Kaiber也是只能生成16s的長度。而Sora可以實(shí)現(xiàn)1分鐘的視頻生成。
雖然1min對(duì)于抖音來說,也就是平常的短視頻,但是對(duì)于學(xué)界來說已經(jīng)是突破的進(jìn)展了。
2. 多機(jī)位
視頻的多機(jī)位是指使用兩臺(tái)或兩臺(tái)以上攝影機(jī),對(duì)同一場(chǎng)面同時(shí)作多角度、多方位的拍攝。
多機(jī)位拍攝可使觀眾能夠從多個(gè)不同的角度觀看畫面,給人以身臨其境的感覺。它展現(xiàn)空間更全面、視點(diǎn)更細(xì)膩、角度更開放、長度更自由,給觀眾帶來全方位、多角度的觀賞體驗(yàn)。
Sora 可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地保留角色和視覺風(fēng)格。從 Sora 生成的這個(gè)視頻可以看出,畫面在不停地切換轉(zhuǎn)場(chǎng),似乎有一種電影畫面鏡頭的感覺。
3. 多角色
Sora 能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。文生視頻中的多角色指的是在由文本生成的視頻中,能夠展現(xiàn)出多個(gè)具有不同特點(diǎn)和情感表達(dá)的角色。
多角色的存在意味著模型能夠理解和描繪出文本中提到的不同人物,并為他們?cè)O(shè)計(jì)合適的視覺形象和動(dòng)作,使得視頻內(nèi)容更加豐富和真實(shí)。具體來說:
- 角色的多樣性:模型能夠根據(jù)文本描述創(chuàng)造出不同的角色,每個(gè)角色都有其獨(dú)特的外觀、服裝和行為特征。
- 情感表達(dá):角色能夠展現(xiàn)出與文本描述相匹配的情感狀態(tài),如快樂、悲傷或憤怒等。
- 交互和動(dòng)作:在視頻中,這些角色可以進(jìn)行交互,執(zhí)行動(dòng)作,甚至參與到復(fù)雜的活動(dòng)中去。
- 背景和環(huán)境的融合:角色不僅僅是孤立存在,他們還會(huì)與視頻中的背景和環(huán)境相融合,形成一個(gè)連貫的故事情境。
例如下面的視頻例子:
大家可以看一下視頻,體會(huì)一下多角色的效果。
提示語:一位白發(fā)梳得整整齊齊的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插著無數(shù)蠟燭,臉上的表情是純粹的喜悅和幸福,眼中閃爍著幸福的光芒。她傾身向前,輕輕地吹滅蠟燭,蛋糕上有粉紅色的糖霜和糖珠,蠟燭不再閃爍,祖母穿著一件飾有花卉圖案的淺藍(lán)色襯衫,幾個(gè)幸福的朋友和家人坐在桌邊??吹綉c祝,失去焦點(diǎn)。該場(chǎng)景拍攝精美,具有電影般的效果,展示了祖母和餐廳的 3/4 視圖。溫暖的色調(diào)和柔和的燈光增強(qiáng)了情緒。
從提示語和生成的視頻,我們來分析一下。
提示語說到需要有“白發(fā)梳得整整齊齊的老奶奶”、“幾個(gè)幸福的朋友和家人”等多個(gè)人物角色。視頻中都體現(xiàn)了,而且主次分明,有男有女,有老有少,層次豐富。
提示語也說到老奶奶就是祖母,祖母的表情是“純粹的喜悅和幸福,眼中閃爍著幸福的光芒”,從視頻中祖母表現(xiàn)出的笑容,我們確實(shí)能感受到她的喜悅和幸福,很有感染力。
家人的表情和動(dòng)作,也符合生日?qǐng)鼍?,和主題保持一致,和主角一起分享快樂。同時(shí),提示語中的“祖母穿著一件飾有花卉圖案的淺藍(lán)色襯衫”,體現(xiàn)得很到位。
這個(gè)視頻很好地說明了,Sora 可以完成多角色的視頻任務(wù)生成。但是,我們也看到了它對(duì)物理世界交互處理上的不足,因?yàn)槔夏棠逃昧σ淮?,蠟燭并沒有熄滅。而提示詞也說了“蠟燭不再閃爍”,這一點(diǎn),有待 Sora 繼續(xù)進(jìn)化升級(jí)。
4. 多分辨率,任意寬高比尺寸
其他友商或者過去的視頻訓(xùn)練方法是,通常會(huì)將用于訓(xùn)練的視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,例如,分辨率為 256×256(正方形) 的 4 秒視頻。也就是說,視頻尺寸是固定的,這種方式,可能導(dǎo)致主角不在畫面的中間或者合適的位置,可能會(huì)出現(xiàn)偏差。
Sora 采取的是保留原始視頻的大小和分辨率,用原始長寬比對(duì)視頻進(jìn)行訓(xùn)練。這樣訓(xùn)練出的Sora模型,可以在輸出和生成視頻的時(shí)候,改善視頻畫面的構(gòu)圖和取景。
也就是說,Sora可以直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。例如寬屏 1920x1080p 視頻、垂直 1080×1920 視頻,以及介于兩者之間的所有視頻尺寸。
不同尺寸的視頻對(duì)比播放效果:
原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容視頻效果展示:
畫面效果對(duì)比:
5. 語言理解:準(zhǔn)確遵循用戶提示的高質(zhì)量視頻
Sora之所以能根據(jù)語音指令生成高質(zhì)量的視頻,主要和他的訓(xùn)練模式有關(guān),并且可以通過改變描述語言的局部信息,可以輸出不同風(fēng)格的高質(zhì)量視頻。
首先,他們訓(xùn)練了一個(gè)能夠生成詳細(xì)描述的字幕生成器模型,然后使用這個(gè)模型為所有的視頻生成相應(yīng)的文本字幕。這樣做的好處是可以提高視頻的文字準(zhǔn)確性和整體質(zhì)量。
想象一下,我們要教一臺(tái)電腦如何自己制作視頻。首先,我們需要給它很多有文字說明的視頻,好讓它學(xué)習(xí)怎么根據(jù)這些文字來制作相應(yīng)的畫面。但是,找到這么多正好配有詳細(xì)文字的視頻并不容易。
那我們?cè)趺崔k呢?我們先用一個(gè)特殊的軟件,這個(gè)軟件就像是一個(gè)超級(jí)聰明的作家,這個(gè)軟件就是Open的 DALL·E 3 中引入的重新字幕技術(shù)。
它能夠看視頻然后寫下非常詳盡的描述,就好像是在給視頻寫劇本一樣。我們把整個(gè)視頻庫都讓這個(gè)軟件過一遍,這樣每個(gè)視頻就有了一個(gè)詳細(xì)的文字版“劇本”。
接著,我們還用了一個(gè)像聊天機(jī)器人一樣的工具,這個(gè)工具能把我們給出的一些簡(jiǎn)單提示或者想法,擴(kuò)展成更長、更具體的故事。這就好比你給出一個(gè)故事的大綱,然后這個(gè)工具幫你把它填充成一個(gè)詳細(xì)的故事。
有了這些工具后,我們就可以告訴電腦:“嘿,我想看一段山間清晨的視頻”,然后電腦就會(huì)根據(jù)這個(gè)想法,利用之前生成的那些詳細(xì)的故事(也就是文字字幕),來創(chuàng)造出一段美麗的山景早晨視頻給你看。
總的來說,我們就是教了一臺(tái)電腦,通過閱讀詳細(xì)的文字描述來制作和這些描述匹配的視頻,而且還能用我們簡(jiǎn)單的提示來制作符合我們要求的視頻。
描述視頻的提示語中有4個(gè)變量,通過修改變量的描述,組合后就生成不同的視頻。而且,Sora能準(zhǔn)確理解描述的文字語言,在視頻中非常好的體現(xiàn)。不管改變的是主體角色,還是穿著打扮,或者是事情發(fā)生的地點(diǎn)和周圍環(huán)境。
例如OpenAI給出的效果示例。
第一個(gè)變量有4種情況,而后三個(gè)變量每個(gè)都有3種情況,那么總共可以組成的場(chǎng)景數(shù)量是 4 乘以 3 的 3 次方。
所以總的視頻場(chǎng)景數(shù)為:4 * 3^3 = 4 * 27 = 108
因此,Sora可以生成并輸出 108 個(gè)不同的視頻。
示例1:主角是一個(gè)女人
示例2:主角是一個(gè)老人
示例3:主角是一個(gè)玩具機(jī)器人
示例4:主角是一只可愛的袋鼠
6. 圖片+提示=視頻
除了提示語文字生成視頻外, Sora 也可以通過其他輸入進(jìn)行提示,例如預(yù)先存在的圖像或視頻。通過一張靜態(tài)的圖片+一段文字描述,Sora 可以生成一段視頻。
輸入:圖像+提示語
輸出:視頻
我們可以看一下Open AI 提供的示例效果展示:
展示基于DALL·E2生成的示例視頻和達(dá)爾·E3圖片。
示例 1:一只戴著貝雷帽和黑色高領(lǐng)毛衣的柴犬。
示例2:不同家族怪物的平面設(shè)計(jì)風(fēng)格的怪物插圖。該群體包括一個(gè)毛茸茸的棕色怪物、一個(gè)帶有天線的光滑黑色怪物、一個(gè)有斑點(diǎn)的綠色怪物和一個(gè)小圓點(diǎn)怪物,所有怪物都在一個(gè)有趣的環(huán)境中互動(dòng)。
示例 3:寫有“SORA”的現(xiàn)實(shí)云的圖像。
示例 4:在一座華麗的歷史大廳里,巨大的浪潮達(dá)到頂峰并開始崩塌。兩名沖浪者抓住時(shí)機(jī),熟練地駕馭海浪。
7. 在時(shí)間上向前或向后擴(kuò)展視頻
Sora 還能夠在時(shí)間上向前或向后擴(kuò)展視頻。例如,從生成的視頻片段開始,向后延伸視頻,使得多個(gè)視頻的開頭都不同,但是結(jié)局都是相同的,也就是殊途同歸的感覺。這使得它能夠創(chuàng)造出多樣化的視頻內(nèi)容。
擴(kuò)展功能的進(jìn)一步解釋:
- 向后延伸:Sora可以從一個(gè)現(xiàn)有的視頻片段出發(fā),通過學(xué)習(xí)其視覺動(dòng)態(tài)和內(nèi)容,生成新的幀來擴(kuò)展視頻的時(shí)長。這意味著,它可以制作出多個(gè)版本的視頻開頭,每個(gè)開頭都有不同的內(nèi)容,但都平滑過渡到原始視頻的某個(gè)特定點(diǎn)。
- 向前延伸:同樣地,Sora也能夠從視頻的某個(gè)點(diǎn)開始,向前生成新的幀,從而擴(kuò)展視頻至所需的長度。這可以創(chuàng)造出多種結(jié)局,每個(gè)結(jié)局都是從相同的起點(diǎn)開始,但最終導(dǎo)向不同的情景。
- 殊途同歸:利用Sora的時(shí)間擴(kuò)展功能,可以創(chuàng)造出具有”殊途同歸”感覺的視頻序列。這意味著多個(gè)視頻序列可能從完全不同的場(chǎng)景開始,但最終都匯聚到同一個(gè)終點(diǎn),給人一種命運(yùn)共同、目標(biāo)一致的印象。
- 內(nèi)容創(chuàng)作與編輯:這種時(shí)間上的擴(kuò)展能力為視頻內(nèi)容創(chuàng)作者提供了強(qiáng)大的工具。他們可以創(chuàng)造出具有復(fù)雜情節(jié)和多變結(jié)局的視頻,或者為現(xiàn)有的視頻素材增添新的創(chuàng)意元素。
Sora模型的時(shí)間擴(kuò)展功能為視頻編輯和內(nèi)容創(chuàng)作提供了前所未有的靈活性和創(chuàng)造性。它不僅能夠生成無限循環(huán)的視頻,還能夠按照創(chuàng)作者的意圖制作出具有特定結(jié)構(gòu)和風(fēng)格的視頻作品。
8. 無縫的無限循環(huán)視頻
什么是無限循環(huán)視頻?
無限循環(huán)視頻是一種視頻格式,它能夠在播放結(jié)束后自動(dòng)重新開始播放,形成一個(gè)看似無休止的循環(huán)。這種視頻通常用于展示連續(xù)的動(dòng)作或者場(chǎng)景,比如動(dòng)態(tài)背景、滾動(dòng)圖片展示、動(dòng)畫角色行走等。
在視頻編輯和動(dòng)畫制作中,,非大模型生成的做法是,專業(yè)人士通過特定軟件如Adobe Premiere Pro(PR)、After Effects(AE)等來創(chuàng)建無限循環(huán)視頻。有學(xué)習(xí)成本和一定的門檻,也比較費(fèi)時(shí)費(fèi)力。
Sora生成無限循環(huán)視頻的方法:
Sora從一段現(xiàn)有的視頻片段出發(fā),通過所謂的“視頻到視頻編輯”技術(shù),實(shí)現(xiàn)視頻內(nèi)容的前后擴(kuò)展,從而創(chuàng)造出一個(gè)可以不斷重復(fù)播放的視頻流,這就是無限循環(huán)視頻。
以下是 OpenAI 給出的效果示例視頻:
具體來說,無限循環(huán)視頻有以下特點(diǎn):
- 無縫連接:視頻的結(jié)尾能夠平滑過渡到開頭,沒有明顯的斷裂或不自然之處,給觀眾帶來連貫流暢的觀看體驗(yàn)。
- 可定制性:基于Sora模型的靈活性,用戶可以根據(jù)需要設(shè)計(jì)特定內(nèi)容或風(fēng)格的無限循環(huán)視頻,比如將某個(gè)場(chǎng)景或者動(dòng)作不斷重復(fù)。
Sora生成的無限循環(huán)視頻是一種創(chuàng)新的視覺媒體形式,它不僅展示了生成型AI模型的強(qiáng)大能力,也為視頻內(nèi)容創(chuàng)作提供了新的可能性。Sora 的這個(gè)能力,后續(xù)在落地應(yīng)用的時(shí)候,或許是有具體場(chǎng)景的。
9. 視頻到視頻編輯:零鏡頭改變輸入視頻的風(fēng)格和環(huán)境
Sora利用了先進(jìn)的深度學(xué)習(xí)模型,特別是擴(kuò)散模型的視頻編輯技術(shù),能夠根據(jù)文本提示零鏡頭地改變視頻的風(fēng)格和環(huán)境。這種方法使得視頻編輯變得更加靈活和高效,用戶可以通過簡(jiǎn)單的文本描述來實(shí)現(xiàn)復(fù)雜的視覺效果。
以下是SDEdit技術(shù)的一些關(guān)鍵特點(diǎn):
- 文本條件編輯:根據(jù)提供的文本提示來理解和執(zhí)行視頻編輯任務(wù),提高了編輯的直觀性和易用性。
- 風(fēng)格和環(huán)境變換:利用這項(xiàng)技術(shù),可以輕松改變視頻的風(fēng)格和環(huán)境,例如將一個(gè)場(chǎng)景轉(zhuǎn)換為另一個(gè)完全不同的環(huán)境,如從室內(nèi)轉(zhuǎn)到茂密的叢林中。
Sora的視頻編輯帶來了革命性的變化,它不僅提高了編輯的效率和準(zhǔn)確性,還為用戶創(chuàng)造了無限的可能性,使他們能夠在不需要專業(yè)視頻編輯技能的情況下,實(shí)現(xiàn)復(fù)雜和創(chuàng)意的視頻效果。
隨著技術(shù)的不斷進(jìn)步,未來我們可以期待更多類似SDEdit的創(chuàng)新應(yīng)用,進(jìn)一步推動(dòng)多媒體內(nèi)容創(chuàng)作和消費(fèi)的邊界。
10. 連接視頻:兩個(gè)視頻穿插銜接
Sora能夠通過插值技術(shù),在兩個(gè)不同主題和場(chǎng)景的視頻之間創(chuàng)建無縫過渡。這種能力得益于Sora的高級(jí)插值技術(shù),它可以在不同的視頻內(nèi)容之間進(jìn)行有效的混合和融合。
這項(xiàng)功能的特點(diǎn)和價(jià)值有:
- 視頻插值:Sora能夠在兩個(gè)視頻片段之間進(jìn)行逐漸的插值,這意味著它可以創(chuàng)造出一個(gè)過渡視頻,使得兩個(gè)截然不同的視頻平滑地融合在一起。
- 混合和融合視頻內(nèi)容:Sora展現(xiàn)了在有效混合和融合不同視頻內(nèi)容方面的強(qiáng)大能力,它可以在兩個(gè)視頻之間進(jìn)行插值,創(chuàng)造出一個(gè)中心視頻,這個(gè)視頻在左右兩個(gè)視頻之間實(shí)現(xiàn)了平滑過渡。
- 保持視覺質(zhì)量和忠實(shí)度:在進(jìn)行視頻插值和過渡的同時(shí),Sora能夠保持視頻的視覺質(zhì)量,并且對(duì)用戶提供的指令保持高度忠實(shí),確保生成的視頻內(nèi)容符合用戶的需求和預(yù)期。
- 無縫過渡:通過插值技術(shù),Sora確保了即使在主題和場(chǎng)景構(gòu)成完全不同的視頻之間,也能夠?qū)崿F(xiàn)流暢的過渡效果,這對(duì)于視頻編輯和創(chuàng)作來說是一個(gè)非常有用的工具。
示例效果解析:
Sora的這些功能極大地?cái)U(kuò)展了視頻編輯的可能性,使得創(chuàng)作者能夠更加自由地表達(dá)自己的創(chuàng)意,同時(shí)也為視頻編輯領(lǐng)域帶來了新的技術(shù)和方法。
這種技術(shù)的應(yīng)用前景廣闊,從電影制作到廣告創(chuàng)作,再到社交媒體內(nèi)容的生產(chǎn),都可以通過Sora來實(shí)現(xiàn)更加流暢和創(chuàng)新的視頻體驗(yàn)。
11. 圖像生成能力:分辨率高達(dá) 2048×2048
Sora的圖像生成能力是通過在時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來實(shí)現(xiàn)的。這種方法允許模型生成各種尺寸的圖像,分辨率高達(dá)2048×2048。
效果示例1:秋季女性特寫肖像照,極其細(xì)節(jié),淺景深
官方示例圖片:
具體來說,Sora的圖像生成過程包括以下幾個(gè)關(guān)鍵步驟:
- 初始化空間網(wǎng)格:首先,Sora會(huì)在時(shí)間范圍為一幀的空間網(wǎng)格上進(jìn)行初始化,這個(gè)網(wǎng)格構(gòu)成了圖像生成的基礎(chǔ)結(jié)構(gòu)。
- 排列高斯噪聲塊:接著,Sora在這個(gè)空間網(wǎng)格中排列高斯噪聲塊,這些噪聲塊是隨機(jī)生成的,但會(huì)逐漸被模型轉(zhuǎn)化為有意義的圖像內(nèi)容。
- 應(yīng)用擴(kuò)散模型:Sora利用擴(kuò)散模型對(duì)噪聲塊進(jìn)行處理,通過一系列的迭代過程,逐步將噪聲轉(zhuǎn)化為圖像的細(xì)節(jié)和特征。
- 生成高分辨率圖像:通過深度學(xué)習(xí)模型的訓(xùn)練,Sora能夠生成高質(zhì)量、逼真的圖像。這些圖像不僅在視覺上吸引人,而且與現(xiàn)實(shí)世界中的物體和場(chǎng)景非常相似。
- 靈活性:Sora的圖像生成過程是可調(diào)整的,用戶可以通過改變模型的參數(shù)來控制生成圖像的風(fēng)格、細(xì)節(jié)程度等。
- 廣泛的應(yīng)用:由于其強(qiáng)大的圖像生成能力,Sora可以被用于多種應(yīng)用,包括但不限于藝術(shù)創(chuàng)作、游戲開發(fā)、媒體娛樂等。
總的來說,Sora的圖像生成能力展示了其在視覺創(chuàng)作領(lǐng)域的強(qiáng)大潛力,在落地應(yīng)用方面可滿足不同場(chǎng)景和需求。
12. 3D 一致性
Sora能夠生成具有3D一致性的視頻,確保了在動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)中人物和場(chǎng)景元素在三維空間中的一致性。
Sora的這一能力體現(xiàn)在其能夠模擬現(xiàn)實(shí)世界中的動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)。無論是攝像機(jī)的平移、傾斜還是旋轉(zhuǎn),Sora生成的視頻都能保持物體和場(chǎng)景元素的連貫性和穩(wěn)定性,就像在真實(shí)的三維環(huán)境中一樣。這種3D一致性不僅增強(qiáng)了視頻的真實(shí)感,也是對(duì)視頻生成模型在理解和模擬現(xiàn)實(shí)世界方面能力的體現(xiàn)。
具體來說,Sora的3D一致性包括以下幾個(gè)方面:
- 長程一致性和物體永久性:在生成長視頻時(shí),Sora能夠保持時(shí)間上的一致性,即物體和場(chǎng)景元素在視頻序列中持續(xù)存在,不會(huì)突然出現(xiàn)或消失。
- 模擬物理世界:Sora能夠在沒有明確的3D建?;蛭矬w識(shí)別的前提下,模擬現(xiàn)實(shí)世界中的人和動(dòng)物的動(dòng)作以及環(huán)境變化。
- 新興能力:這些3D一致性的特性并不是預(yù)先設(shè)計(jì)好的,而是在大規(guī)模訓(xùn)練數(shù)據(jù)上自然涌現(xiàn)出來的能力。
總的來說,Sora的3D一致性是其在視頻生成領(lǐng)域的一個(gè)重要突破,它不僅提升了視頻的真實(shí)感,也為未來視頻內(nèi)容的創(chuàng)作和編輯提供了更多的可能性。通過深度學(xué)習(xí)和大規(guī)模訓(xùn)練,Sora展現(xiàn)了人工智能在理解和生成復(fù)雜視覺場(chǎng)景方面的顯著進(jìn)步。
13. 遠(yuǎn)程相干性和物體持久性
Sora展現(xiàn)出了在視頻生成中的遠(yuǎn)程相干性和物體持久性,這體現(xiàn)在其能夠在長視頻中有效地對(duì)短期和長期依賴關(guān)系進(jìn)行建模。
遠(yuǎn)程相干性和物體持久性是視頻生成系統(tǒng)中至關(guān)重要的特性,它們確保了視頻內(nèi)容在時(shí)間上的連貫性和邏輯性。Sora的這些能力具體表現(xiàn)在以下幾個(gè)方面:
- 保留人、動(dòng)物和物體:Sora能夠在視頻中持續(xù)跟蹤人、動(dòng)物和物體的存在,即使這些元素被遮擋或暫時(shí)離開畫面,也能保持一致性。
- 多鏡頭生成:Sora能夠在單個(gè)視頻樣本中生成同一角色的多個(gè)鏡頭,這意味著它能夠處理和維持角色的不同視角和場(chǎng)景切換。
- 外觀保持:在生成的視頻中,Sora能夠保持特定物體或角色的外觀一致性,即使在視頻的時(shí)間跨度較長或場(chǎng)景變化較大的情況下。
- 解決遮擋問題:當(dāng)視頻中的對(duì)象被遮擋時(shí),Sora能夠利用其對(duì)場(chǎng)景的理解來預(yù)測(cè)這些對(duì)象的運(yùn)動(dòng)和位置,從而保持場(chǎng)景的連貫性。
在這上面這個(gè)例子中,窗臺(tái)上的狗,即便被多次遮擋,還是會(huì)展示原本的樣子,并沒有改變主題的樣式,持久存在。
通俗的理解如下:
當(dāng)我們說Sora具有遠(yuǎn)程相干性和物體持久性時(shí),我們是在談?wù)撍谱饕曨l的能力,特別是它如何處理視頻中隨時(shí)間發(fā)生的變化。想象一下,你正在看一部電影,電影中的角色或物體即使不是一直出現(xiàn)在屏幕上,你也記得他們。這就是遠(yuǎn)程相干性。
而物體持久性意味著即使東西暫時(shí)消失了,比如被其他物體遮擋,我們也能在心中記住它的存在,并且在它再次出現(xiàn)時(shí),我們知道那還是同一個(gè)物體。
簡(jiǎn)單來說,Sora在制作視頻時(shí)能夠記住之前發(fā)生的事情,并且確保事情的連貫性。如果視頻中有個(gè)人走進(jìn)門后不見了,Sora可以做出這個(gè)人是繼續(xù)走路,而不是突然在別的地方出現(xiàn)或者消失不見。這就像是在講故事時(shí)保持故事線一致,讓聽眾不會(huì)感到困惑。
此外,如果視頻中有多個(gè)場(chǎng)景顯示同一個(gè)人,Sora能確保這些場(chǎng)景中的人的外觀和行為是一致的,就好像是在拍攝電影時(shí)從不同的角度拍攝同一個(gè)演員一樣。
這樣的能力對(duì)于制作看起來真實(shí)且連貫的視頻非常重要,尤其是在視頻很長或者包含許多復(fù)雜場(chǎng)景的時(shí)候。Sora通過復(fù)雜的計(jì)算和學(xué)習(xí)大量的數(shù)據(jù)來做到這點(diǎn),使得它能生成高質(zhì)量的視頻,即使那些視頻中有很多動(dòng)作和變化。
14. 與世界互動(dòng)
Sora能夠模仿一些我們?cè)谌粘I钪械男袨楹蛣?dòng)作。比如說,就像一個(gè)畫家在畫布上畫畫,他每畫一筆,畫布上就會(huì)留下痕跡,這些痕跡會(huì)一直保持在那里;或者一個(gè)人在吃漢堡時(shí),每咬一口,漢堡上就會(huì)留下咬過的痕跡。
Open AI提到的“索拉有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀況的動(dòng)作”里面的“世界狀況”可以理解為周圍環(huán)境的樣子或狀態(tài)。Sora能模擬出我們對(duì)這個(gè)世界做出的一些改變,比如添加新的東西(就像畫家的筆觸)或者改變已有東西的狀態(tài)(就像被咬過的漢堡)。
這些動(dòng)作改變了原本的狀況,并且這種改變是持久的。這就像是在一個(gè)視頻游戲中,你做出的行動(dòng)(比如移動(dòng)角色或建造東西)會(huì)改變游戲世界,并且這些改變會(huì)被記住,不是暫時(shí)的。
所以,簡(jiǎn)單來說,就是Sora可以模仿我們?cè)诂F(xiàn)實(shí)世界中的某些行為,并且讓這些行為在虛擬的世界里留下來,看起來就像是真的發(fā)生了一樣。
15. 模擬數(shù)字世界
當(dāng)我們說Sora可以模擬數(shù)字世界時(shí),我們是在說它可以模仿像視頻游戲這樣的虛擬環(huán)境里發(fā)生的事情。比如,想象一下流行的視頻游戲《我的世界》(Minecraft),這是一個(gè)玩家可以在里面建造東西、探險(xiǎn)的游戲世界。
Sora能做到的酷事包括:
- 控制游戲中的玩家:Sora可以像游戲玩家一樣控制《我的世界》中的角色,就是在游戲中扮演玩家的角色,并且根據(jù)一套基本的規(guī)則或策略來操作,比如讓角色去跑步、跳躍或挖掘。
- 高質(zhì)量渲染:Sora還能夠?qū)崟r(shí)渲染游戲世界和其中的各種動(dòng)態(tài)效果,使得整個(gè)游戲體驗(yàn)既真實(shí)又細(xì)膩。就像是在高清電視上玩游戲一樣。
- 動(dòng)態(tài)處理:Sora還能處理游戲中的動(dòng)態(tài)變化,比如角色的動(dòng)作、物體的移動(dòng),或者是時(shí)間的流逝(比如游戲中的日夜更替)。
- 零樣本能力:這個(gè)術(shù)語可能聽起來有點(diǎn)復(fù)雜,但它其實(shí)就是指Sora可以通過簡(jiǎn)單的提示(文本)——比如,只要給出含有“我的世界”這個(gè)關(guān)鍵詞的標(biāo)題或提示——Sora就能立刻理解并執(zhí)行相關(guān)的任務(wù),無需事先進(jìn)行任何準(zhǔn)備。
所以,用更容易理解的話來說,Sora就像一個(gè)超級(jí)電腦玩家,能夠同時(shí)玩很多《我的世界》,并且讓這些游戲看起來和運(yùn)行得都非常棒,而且它還能很快地開始做這些事情,只需要給它一個(gè)簡(jiǎn)單的提示。
這些功能表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有前途的道路。
五、Sora 視頻處理上的弱點(diǎn)
當(dāng)前的Sora模型存在弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無法理解因果關(guān)系的具體實(shí)例。例如,一個(gè)人可能咬了一口餅干,但之后餅干可能沒有咬痕。
Sora模型還可能會(huì)混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。Sora 目前作為模擬器表現(xiàn)出許多局限性。例如,它不能準(zhǔn)確地模擬許多基本相互作用的物理過程,例如玻璃破碎。其他交互(例如吃食物)并不總是會(huì)產(chǎn)生對(duì)象狀態(tài)的正確變化。
Sora 官網(wǎng) po 出了 5 個(gè)有缺陷的視頻,包含了比較典型的復(fù)雜屋里場(chǎng)景。包括:人體姿態(tài)處理錯(cuò)誤、多實(shí)體場(chǎng)景處理難、不準(zhǔn)確的物理建模和不自然的物體“變形”、物理交互不準(zhǔn)確、多個(gè)角色之間的復(fù)雜交互等。
不僅讓我們看到了大模型文生視頻目前存在的能力缺陷,也看到了更多創(chuàng)意的空間。一些對(duì)物理世界的扭曲變形,空間奇幻的情節(jié),可以利用在更多具有創(chuàng)意的視屏中。
5 個(gè)視頻截圖預(yù)覽:
- 跑步的人
- 五只灰狼嬉戲
- 籃筐爆炸
- 椅子變形亂飛
- 吹不滅的生日蠟燭
六、Sora的優(yōu)缺點(diǎn)對(duì)比分析
1. 優(yōu)點(diǎn)
- 強(qiáng)大的視頻生成能力:Sora能夠?qū)⑽谋久枋鲛D(zhuǎn)化為高質(zhì)量的視頻內(nèi)容,具有強(qiáng)大的視頻生成能力。這使得它能夠滿足多種應(yīng)用場(chǎng)景的需求,如廣告創(chuàng)意、教育培訓(xùn)、娛樂產(chǎn)業(yè)和新聞傳媒等。
- 高效的生成速度:Sora在生成視頻時(shí)具有較高的效率,可以在短時(shí)間內(nèi)生成多種方案供用戶選擇。這大大提高了廣告創(chuàng)意、教育培訓(xùn)等領(lǐng)域的工作效率,降低了制作成本。
- 良好的可定制性:Sora具有一定的可定制性,用戶可以根據(jù)具體需求調(diào)整模型參數(shù)和輸入數(shù)據(jù),以獲得更符合要求的視頻生成結(jié)果。這為各行各業(yè)的定制化應(yīng)用提供了可能。
2. 缺點(diǎn)
- 數(shù)據(jù)質(zhì)量和數(shù)量依賴:Sora的性能在很大程度上依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量。如果訓(xùn)練數(shù)據(jù)存在偏差或不足,可能會(huì)導(dǎo)致生成的視頻內(nèi)容存在質(zhì)量問題,如模糊、失真等。
- 泛化能力有限:盡管Sora可以在多種場(chǎng)景下生成視頻,但其泛化能力仍然有限。在某些特定領(lǐng)域或場(chǎng)景下,Sora可能無法生成符合要求的視頻內(nèi)容,需要進(jìn)行更多的數(shù)據(jù)收集和模型訓(xùn)練。
- 計(jì)算資源需求較高:生成高質(zhì)量的視頻內(nèi)容需要消耗大量的計(jì)算資源,包括高性能的CPU、GPU等。這可能會(huì)增加使用Sora的成本和門檻,限制其在某些資源受限場(chǎng)景下的應(yīng)用。
七、可能的應(yīng)用領(lǐng)域
Sora是一個(gè)能夠生成視頻的高科技模型,它可以用在很多不同的行業(yè)里。
1. 廣告創(chuàng)意
想象一下,你是個(gè)廣告設(shè)計(jì)師,想要快速做出很多酷炫的廣告視頻。你可以告訴Sora你想要什么樣的廣告,比如故事內(nèi)容、風(fēng)格等等,然后Sora就能幫你做出好幾個(gè)視頻供你選擇。這樣不僅節(jié)省時(shí)間,還能讓你的廣告看起來更專業(yè)、更有創(chuàng)意。
2. 教育培訓(xùn)
如果你是老師,想給學(xué)生們制作有趣的教學(xué)視頻,Sora也能幫忙。你只要輸入教學(xué)內(nèi)容的文字,Sora就能根據(jù)這些文字生成視頻。這樣的視頻能讓學(xué)習(xí)變得更有趣,也更容易吸引學(xué)生的注意力。而且,如果學(xué)生覺得太難或太簡(jiǎn)單,Sora還能調(diào)整視頻內(nèi)容,讓每個(gè)學(xué)生都能跟得上。
3. 娛樂產(chǎn)業(yè)
電影和電視劇制作人現(xiàn)在也可以利用Sora來制作視頻。比如說,如果你想做一個(gè)特效很棒的科幻電影,Sora可以幫助你生成一些看起來很真實(shí)的場(chǎng)景和角色動(dòng)畫,這樣你就不需要花大價(jià)錢請(qǐng)?zhí)匦Ч玖恕?/p>
4. 新聞傳媒
新聞機(jī)構(gòu)也可以用Sora來快速制作新聞視頻。當(dāng)有重大新聞發(fā)生時(shí),記者可以輸入新聞的關(guān)鍵信息,Sora就能生成相關(guān)的視頻新聞,讓觀眾更快更直觀地了解發(fā)生了什么事。
八、Sora 對(duì)產(chǎn)品經(jīng)理的啟示
對(duì)于產(chǎn)品經(jīng)理來說,Sora的發(fā)布可能意味著新的機(jī)會(huì)和挑戰(zhàn)。
Sora就像是一個(gè)神奇的視頻制作機(jī)器人,產(chǎn)品經(jīng)理們可以考慮怎么把這個(gè)機(jī)器人的能力用到自己的產(chǎn)品上去。下面就是一些關(guān)于這個(gè)機(jī)器人能給我們帶來的點(diǎn)子和需要注意的地方,以在線教育產(chǎn)品為例:
1. 提速
- 咱們的產(chǎn)品要是需要快速輸出大量視頻內(nèi)容,比如短視頻平臺(tái)或者社交媒體,那Sora就能幫咱們省去不少拍攝和后期的時(shí)間和成本。
例子:想象一下,在線教育平臺(tái)需要為不同的學(xué)科制作大量的教學(xué)視頻。利用Sora,產(chǎn)品經(jīng)理可以快速生成這些視頻,比如把數(shù)學(xué)公式和解題步驟直接轉(zhuǎn)換成視頻教程,大大節(jié)省制作時(shí)間和成本。
2. 用戶參與
- 想讓產(chǎn)品的用戶互動(dòng)更活躍?咱們可以讓用戶輸入自己的想法,然后通過Sora生成視頻,這樣用戶就會(huì)覺得咱們的產(chǎn)品既有趣又新穎。
- 例子:為了讓學(xué)習(xí)體驗(yàn)更加個(gè)性化,教育產(chǎn)品可以讓學(xué)生描述他們想要學(xué)習(xí)的主題或問題,然后Sora就能生成一個(gè)定制化的教學(xué)視頻,讓學(xué)生感覺更像是一對(duì)一輔導(dǎo)。
3. 個(gè)性化推薦
如果咱們的產(chǎn)品涉及到視頻推薦,比如新聞APP或者視頻網(wǎng)站,Sora可以根據(jù)用戶的觀看歷史和喜好來生成他們可能感興趣的視頻內(nèi)容。
例子:基于學(xué)生的學(xué)習(xí)進(jìn)度和興趣,Sora可以生成適合他們當(dāng)前水平的視頻內(nèi)容。比如,如果一個(gè)學(xué)生在數(shù)學(xué)上遇到了困難,系統(tǒng)可以自動(dòng)生成更多關(guān)于基礎(chǔ)數(shù)學(xué)概念的視頻來幫助他。
4. 數(shù)據(jù)洞察
- Sora用得好,就能給咱們提供一大堆用戶喜歡什么、不喜歡什么的數(shù)據(jù)分析材料。這些數(shù)據(jù)對(duì)于優(yōu)化產(chǎn)品設(shè)計(jì)、改進(jìn)算法都是金礦啊!
- 例子:通過分析Sora生成的視頻哪些被學(xué)生觀看最多次,哪些得到了最高的評(píng)價(jià),產(chǎn)品經(jīng)理可以了解哪些教學(xué)內(nèi)容最受歡迎,從而調(diào)整課程內(nèi)容和推薦算法。
5. 創(chuàng)新驅(qū)動(dòng)
- 把Sora整合到產(chǎn)品中,能讓咱們的產(chǎn)品在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出,成為行業(yè)的焦點(diǎn)。作為產(chǎn)品經(jīng)理,得考慮怎么包裝這項(xiàng)技術(shù),讓它成為咱們產(chǎn)品的賣點(diǎn)。
- 例子:在線教育市場(chǎng)競(jìng)爭(zhēng)激烈,但如果你的產(chǎn)品能提供即時(shí)生成的動(dòng)畫教學(xué)視頻,這就能成為一個(gè)巨大的賣點(diǎn)。比如,Sora可以根據(jù)課本內(nèi)容生成有趣的動(dòng)畫解釋視頻,讓學(xué)習(xí)變得更生動(dòng)。
6. 合規(guī)與安全
- 雖然Sora能做出很棒的視頻,但咱們也得注意版權(quán)、隱私這些問題。得確保生成的內(nèi)容不會(huì)侵犯別人的權(quán)益,也要保護(hù)用戶的個(gè)人信息不被濫用。
- 例子:雖然Sora可以生成各種視頻,但作為負(fù)責(zé)任的在線教育產(chǎn)品,我們需要確保所有內(nèi)容都是教育合適的,沒有版權(quán)問題。同時(shí),也要保護(hù)學(xué)生的隱私,不泄露他們的學(xué)習(xí)數(shù)據(jù)。
- 作為產(chǎn)品經(jīng)理,你可以想想怎么利用Sora這個(gè)視頻制作的“黑科技”,讓你的產(chǎn)品變得更好用、更吸引人。同時(shí),也要考慮如何讓用戶放心使用,畢竟用技術(shù)也得講究個(gè)度嘛。
-
九、總結(jié)
在這篇文章里,咱們可是把Sora這個(gè)牛氣的視頻制作工具給扒了個(gè)底朝天。咱們不僅搞懂了它能干啥,還看到了它的強(qiáng)大之處和有些小瑕疵。從廣告到教育,再到娛樂和新聞,Sora都能派上大用場(chǎng)。對(duì)于產(chǎn)品經(jīng)理來說,這玩意兒簡(jiǎn)直就是個(gè)神器,能讓產(chǎn)品更上一層樓。
看著Sora這么厲害,咱們也得想想,將來這技術(shù)還能怎么發(fā)展。對(duì)于產(chǎn)品經(jīng)理,抓住這個(gè)機(jī)會(huì),用好了Sora,那產(chǎn)品絕對(duì)能火。希望Sora能越來越棒,做出更多酷炫的視頻,同時(shí)也得保證合法合規(guī),讓用戶用得放心。
最后,希望這篇文章能給各位讀者帶來點(diǎn)靈感,不管你是做產(chǎn)品的還是對(duì)這技術(shù)感興趣的,Sora都證明了一點(diǎn):未來的視頻制作,人工智能絕對(duì)是個(gè)大有可為的領(lǐng)域。咱們一起期待吧,看看這項(xiàng)技術(shù)還能給咱們的生活帶來哪些新奇的變化!
專欄作家
Echo 產(chǎn)品論,微信公眾號(hào):產(chǎn)品經(jīng)理的邏輯與審美,人人都是產(chǎn)品經(jīng)理專欄作家。10年產(chǎn)品經(jīng)驗(yàn),多個(gè)0~1的完整產(chǎn)品經(jīng)歷,前好未來智能學(xué)習(xí)內(nèi)容產(chǎn)品專家,目前聚焦在AI領(lǐng)域,專研AIGC行業(yè)應(yīng)用產(chǎn)品落地研發(fā),對(duì)產(chǎn)品的邏輯和審美有獨(dú)到的思考。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Sora 官網(wǎng)演示視頻截圖
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!