久久久久亚洲精品无码蜜桃,日本免费人成视频在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

萬字長文探索Sora的奧秘：15大視頻能力、優(yōu)缺點(diǎn)、應(yīng)用場(chǎng)景和對(duì)產(chǎn)品經(jīng)理的啟示

Echo 產(chǎn)品論

2024-02-26

0 評(píng)論 7880 瀏覽 17 收藏

55 分鐘

Sora的出現(xiàn)，帶給了許多行業(yè)的從業(yè)人員一些震撼。那么作為產(chǎn)品經(jīng)理，你是否了解Sora的核心能力在哪里？這篇文章里，作者做了探討，并且還討論了Sora如何啟發(fā)產(chǎn)品設(shè)計(jì)和創(chuàng)新路徑。一起來看看吧。

探索Sora的15項(xiàng)核心能力，本文將帶你全面了解這個(gè)AI視頻生成器的技術(shù)優(yōu)勢(shì)、潛在局限，以及其在多個(gè)場(chǎng)景下的應(yīng)用。對(duì)于產(chǎn)品經(jīng)理而言，我們還將討論Sora如何啟發(fā)產(chǎn)品設(shè)計(jì)和創(chuàng)新路徑。

無論你是AI技術(shù)的研究者、視頻內(nèi)容創(chuàng)作者，還是致力于產(chǎn)品創(chuàng)新的經(jīng)理人，這篇文章都將為你打開一個(gè)新世界的大門，帶你深入了解Sora的內(nèi)部機(jī)制和外部應(yīng)用，洞察未來趨勢(shì)。

一、關(guān)于Sora

Sora是OpenAI在2023年2月發(fā)布的一款文本到視頻生成模型。它能夠根據(jù)描述性提示生成長達(dá)一分鐘的視頻，同時(shí)保持視覺品質(zhì)并遵循用戶提示。視頻可以包含多個(gè)角色、特定類型的運(yùn)動(dòng)，以及主題和背景的準(zhǔn)確細(xì)節(jié)。

文生視頻（Text-to-Video）技術(shù)是指根據(jù)給定的文本描述自動(dòng)生成視頻的技術(shù)。這種技術(shù)可以創(chuàng)造出復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng)。

OpenAI開發(fā)Sora的目的是為了教人工智能理解和模擬運(yùn)動(dòng)中的物理世界，并訓(xùn)練其幫助人們解決需要現(xiàn)實(shí)世界互動(dòng)的問題。這意味著Sora不僅可以生成視頻，還可以模擬物理世界中的運(yùn)動(dòng)，從而生成更加真實(shí)和有用的視頻內(nèi)容。

這就是OpenAI 稱它為“世界模擬器”的原因。

二、Sora技術(shù)原理

首先簡(jiǎn)單概括一下Sora技術(shù)原理。

Sora是一種先進(jìn)的視頻生成模型，它能夠根據(jù)文本提示生成相應(yīng)的視頻。它的工作原理可以簡(jiǎn)單地理解為兩個(gè)主要步驟：編碼和生成。

1. 編碼

首先，Sora會(huì)將輸入的視頻數(shù)據(jù)進(jìn)行壓縮，將其轉(zhuǎn)化為一種低維的潛在表示形式。這個(gè)過程有點(diǎn)像我們把一個(gè)復(fù)雜的物體分解成簡(jiǎn)單的零件，方便我們后續(xù)處理。然后，這些被壓縮的數(shù)據(jù)會(huì)被進(jìn)一步分解成時(shí)空區(qū)塊，你可以把它們想象成視頻的“基因”，包含了視頻的所有基本信息。

2. 生成

接下來就是生成階段。Sora利用擴(kuò)散模型的思想，從簡(jiǎn)單的噪聲信號(hào)出發(fā)，逐步添加細(xì)節(jié)和模式，最終生成復(fù)雜的新數(shù)據(jù)。這就像我們根據(jù)零件重新組裝出一個(gè)新的物體，只不過Sora的版本更加復(fù)雜和高級(jí)。

在這個(gè)過程中，Sora還利用了變換器（Transformer）的技術(shù)，這是一種非常擅長處理序列數(shù)據(jù)的模型。無論是語言還是視頻，都可以看作是由一系列高維向量組成的序列，而變換器則能夠很好地預(yù)測(cè)下一個(gè)向量應(yīng)該是什么。

總的來說，Sora的工作原理就是先將視頻數(shù)據(jù)進(jìn)行壓縮和分解，然后利用擴(kuò)散模型和變換器技術(shù)逐步生成新的視頻內(nèi)容。

Sora 是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，相信這一功能將成為實(shí)現(xiàn) AGI 的重要里程碑。

三、Sora 視頻能力清單

Sora 的能力到底多厲害？根據(jù)OpenAI披露的技術(shù)文檔，盤點(diǎn)了14條之多，本文將針對(duì)每一條做更加深入的分析和理解，并且用通俗易懂的語言進(jìn)行解釋說明，并會(huì)增加該能力在可能的領(lǐng)域?qū)⒂惺裁礃拥膽?yīng)用?？赐瓯疚模嘈拍阋欢〞?huì)對(duì) Sora 有更深刻的認(rèn)識(shí)，并有可能結(jié)合自己的工作和生活，找到結(jié)合的場(chǎng)景，產(chǎn)生如何運(yùn)用它的創(chuàng)意。

Sora能力清單：

長視頻
多機(jī)位
多角色
多分辨率、任意寬高比尺寸
語言理解：準(zhǔn)確遵循用戶提示的高質(zhì)量視頻
圖片+提示=視頻
在時(shí)間上向前或向后擴(kuò)展視頻
無縫的無限循環(huán)視頻
視頻到視頻編輯：零鏡頭改變輸入視頻的風(fēng)格和環(huán)境。
連接視頻：兩個(gè)視頻穿插銜接
圖像生成能力：分辨率高達(dá) 2048×2048
3D 一致性
遠(yuǎn)程相干性和物體持久性
與世界互動(dòng)
模擬數(shù)字世界

四、Sora 的視頻能力詳解

接下來，讓我們來看看每一個(gè)能力的具體情況吧。

1. 長視頻

首先要申明的是，這里的長視頻，并不是電影電視劇級(jí)別的長視頻，而是相比其他文生視頻友商的 5s 、 10s、15s相比的，可以連續(xù)生成 1 分鐘的長視頻。

這個(gè) 1 分鐘在大模型生成視頻領(lǐng)域是什么概念呢？Sora之于視頻生成領(lǐng)域有多大的進(jìn)步呢？單單從生成長度這個(gè)維度來看，就已經(jīng)是吊打之前所有的模型了。

可以看下圖：

之前大火的Pika、Runway等模型只能生成3秒上下的視頻，最長的例如Kaiber也是只能生成16s的長度。而Sora可以實(shí)現(xiàn)1分鐘的視頻生成。

雖然1min對(duì)于抖音來說，也就是平常的短視頻，但是對(duì)于學(xué)界來說已經(jīng)是突破的進(jìn)展了。

2. 多機(jī)位

視頻的多機(jī)位是指使用兩臺(tái)或兩臺(tái)以上攝影機(jī)，對(duì)同一場(chǎng)面同時(shí)作多角度、多方位的拍攝。

多機(jī)位拍攝可使觀眾能夠從多個(gè)不同的角度觀看畫面，給人以身臨其境的感覺。它展現(xiàn)空間更全面、視點(diǎn)更細(xì)膩、角度更開放、長度更自由，給觀眾帶來全方位、多角度的觀賞體驗(yàn)。

Sora 可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，準(zhǔn)確地保留角色和視覺風(fēng)格。從 Sora 生成的這個(gè)視頻可以看出，畫面在不停地切換轉(zhuǎn)場(chǎng)，似乎有一種電影畫面鏡頭的感覺。

3. 多角色

Sora 能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。文生視頻中的多角色指的是在由文本生成的視頻中，能夠展現(xiàn)出多個(gè)具有不同特點(diǎn)和情感表達(dá)的角色。

多角色的存在意味著模型能夠理解和描繪出文本中提到的不同人物，并為他們?cè)O(shè)計(jì)合適的視覺形象和動(dòng)作，使得視頻內(nèi)容更加豐富和真實(shí)。具體來說：

角色的多樣性：模型能夠根據(jù)文本描述創(chuàng)造出不同的角色，每個(gè)角色都有其獨(dú)特的外觀、服裝和行為特征。
情感表達(dá)：角色能夠展現(xiàn)出與文本描述相匹配的情感狀態(tài)，如快樂、悲傷或憤怒等。
交互和動(dòng)作：在視頻中，這些角色可以進(jìn)行交互，執(zhí)行動(dòng)作，甚至參與到復(fù)雜的活動(dòng)中去。
背景和環(huán)境的融合：角色不僅僅是孤立存在，他們還會(huì)與視頻中的背景和環(huán)境相融合，形成一個(gè)連貫的故事情境。

例如下面的視頻例子：

大家可以看一下視頻，體會(huì)一下多角色的效果。

提示語：一位白發(fā)梳得整整齊齊的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插著無數(shù)蠟燭，臉上的表情是純粹的喜悅和幸福，眼中閃爍著幸福的光芒。她傾身向前，輕輕地吹滅蠟燭，蛋糕上有粉紅色的糖霜和糖珠，蠟燭不再閃爍，祖母穿著一件飾有花卉圖案的淺藍(lán)色襯衫，幾個(gè)幸福的朋友和家人坐在桌邊?？吹綉c祝，失去焦點(diǎn)。該場(chǎng)景拍攝精美，具有電影般的效果，展示了祖母和餐廳的 3/4 視圖。溫暖的色調(diào)和柔和的燈光增強(qiáng)了情緒。

從提示語和生成的視頻，我們來分析一下。

提示語說到需要有“白發(fā)梳得整整齊齊的老奶奶”、“幾個(gè)幸福的朋友和家人”等多個(gè)人物角色。視頻中都體現(xiàn)了，而且主次分明，有男有女，有老有少，層次豐富。

提示語也說到老奶奶就是祖母，祖母的表情是“純粹的喜悅和幸福，眼中閃爍著幸福的光芒”，從視頻中祖母表現(xiàn)出的笑容，我們確實(shí)能感受到她的喜悅和幸福，很有感染力。

家人的表情和動(dòng)作，也符合生日?qǐng)鼍?，和主題保持一致，和主角一起分享快樂。同時(shí)，提示語中的“祖母穿著一件飾有花卉圖案的淺藍(lán)色襯衫”，體現(xiàn)得很到位。

這個(gè)視頻很好地說明了，Sora 可以完成多角色的視頻任務(wù)生成。但是，我們也看到了它對(duì)物理世界交互處理上的不足，因?yàn)槔夏棠逃昧σ淮?，蠟燭并沒有熄滅。而提示詞也說了“蠟燭不再閃爍”，這一點(diǎn)，有待 Sora 繼續(xù)進(jìn)化升級(jí)。

4. 多分辨率，任意寬高比尺寸

其他友商或者過去的視頻訓(xùn)練方法是，通常會(huì)將用于訓(xùn)練的視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸，例如，分辨率為 256×256（正方形）的 4 秒視頻。也就是說，視頻尺寸是固定的，這種方式，可能導(dǎo)致主角不在畫面的中間或者合適的位置，可能會(huì)出現(xiàn)偏差。

Sora 采取的是保留原始視頻的大小和分辨率，用原始長寬比對(duì)視頻進(jìn)行訓(xùn)練。這樣訓(xùn)練出的Sora模型，可以在輸出和生成視頻的時(shí)候，改善視頻畫面的構(gòu)圖和取景。

也就是說，Sora可以直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。例如寬屏 1920x1080p 視頻、垂直 1080×1920 視頻，以及介于兩者之間的所有視頻尺寸。

不同尺寸的視頻對(duì)比播放效果：

原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容視頻效果展示：

畫面效果對(duì)比：

5. 語言理解：準(zhǔn)確遵循用戶提示的高質(zhì)量視頻

Sora之所以能根據(jù)語音指令生成高質(zhì)量的視頻，主要和他的訓(xùn)練模式有關(guān)，并且可以通過改變描述語言的局部信息，可以輸出不同風(fēng)格的高質(zhì)量視頻。

首先，他們訓(xùn)練了一個(gè)能夠生成詳細(xì)描述的字幕生成器模型，然后使用這個(gè)模型為所有的視頻生成相應(yīng)的文本字幕。這樣做的好處是可以提高視頻的文字準(zhǔn)確性和整體質(zhì)量。

想象一下，我們要教一臺(tái)電腦如何自己制作視頻。首先，我們需要給它很多有文字說明的視頻，好讓它學(xué)習(xí)怎么根據(jù)這些文字來制作相應(yīng)的畫面。但是，找到這么多正好配有詳細(xì)文字的視頻并不容易。

那我們?cè)趺崔k呢？我們先用一個(gè)特殊的軟件，這個(gè)軟件就像是一個(gè)超級(jí)聰明的作家，這個(gè)軟件就是Open的 DALL·E 3 中引入的重新字幕技術(shù)。

它能夠看視頻然后寫下非常詳盡的描述，就好像是在給視頻寫劇本一樣。我們把整個(gè)視頻庫都讓這個(gè)軟件過一遍，這樣每個(gè)視頻就有了一個(gè)詳細(xì)的文字版“劇本”。

接著，我們還用了一個(gè)像聊天機(jī)器人一樣的工具，這個(gè)工具能把我們給出的一些簡(jiǎn)單提示或者想法，擴(kuò)展成更長、更具體的故事。這就好比你給出一個(gè)故事的大綱，然后這個(gè)工具幫你把它填充成一個(gè)詳細(xì)的故事。

有了這些工具后，我們就可以告訴電腦：“嘿，我想看一段山間清晨的視頻”，然后電腦就會(huì)根據(jù)這個(gè)想法，利用之前生成的那些詳細(xì)的故事（也就是文字字幕），來創(chuàng)造出一段美麗的山景早晨視頻給你看。

總的來說，我們就是教了一臺(tái)電腦，通過閱讀詳細(xì)的文字描述來制作和這些描述匹配的視頻，而且還能用我們簡(jiǎn)單的提示來制作符合我們要求的視頻。

描述視頻的提示語中有4個(gè)變量，通過修改變量的描述，組合后就生成不同的視頻。而且，Sora能準(zhǔn)確理解描述的文字語言，在視頻中非常好的體現(xiàn)。不管改變的是主體角色，還是穿著打扮，或者是事情發(fā)生的地點(diǎn)和周圍環(huán)境。

例如OpenAI給出的效果示例。

第一個(gè)變量有4種情況，而后三個(gè)變量每個(gè)都有3種情況，那么總共可以組成的場(chǎng)景數(shù)量是 4 乘以 3 的 3 次方。

所以總的視頻場(chǎng)景數(shù)為：4 * 3^3 = 4 * 27 = 108

因此，Sora可以生成并輸出 108 個(gè)不同的視頻。

示例1：主角是一個(gè)女人

示例2：主角是一個(gè)老人

示例3：主角是一個(gè)玩具機(jī)器人

示例4：主角是一只可愛的袋鼠

6. 圖片+提示=視頻

除了提示語文字生成視頻外， Sora 也可以通過其他輸入進(jìn)行提示，例如預(yù)先存在的圖像或視頻。通過一張靜態(tài)的圖片+一段文字描述，Sora 可以生成一段視頻。

輸入：圖像+提示語

輸出：視頻

我們可以看一下Open AI 提供的示例效果展示：

展示基于DALL·E2生成的示例視頻和達(dá)爾·E3圖片。

示例 1：一只戴著貝雷帽和黑色高領(lǐng)毛衣的柴犬。

示例2：不同家族怪物的平面設(shè)計(jì)風(fēng)格的怪物插圖。該群體包括一個(gè)毛茸茸的棕色怪物、一個(gè)帶有天線的光滑黑色怪物、一個(gè)有斑點(diǎn)的綠色怪物和一個(gè)小圓點(diǎn)怪物，所有怪物都在一個(gè)有趣的環(huán)境中互動(dòng)。

示例 3：寫有“SORA”的現(xiàn)實(shí)云的圖像。

示例 4：在一座華麗的歷史大廳里，巨大的浪潮達(dá)到頂峰并開始崩塌。兩名沖浪者抓住時(shí)機(jī)，熟練地駕馭海浪。

7. 在時(shí)間上向前或向后擴(kuò)展視頻

Sora 還能夠在時(shí)間上向前或向后擴(kuò)展視頻。例如，從生成的視頻片段開始，向后延伸視頻，使得多個(gè)視頻的開頭都不同，但是結(jié)局都是相同的，也就是殊途同歸的感覺。這使得它能夠創(chuàng)造出多樣化的視頻內(nèi)容。

擴(kuò)展功能的進(jìn)一步解釋：

向后延伸：Sora可以從一個(gè)現(xiàn)有的視頻片段出發(fā)，通過學(xué)習(xí)其視覺動(dòng)態(tài)和內(nèi)容，生成新的幀來擴(kuò)展視頻的時(shí)長。這意味著，它可以制作出多個(gè)版本的視頻開頭，每個(gè)開頭都有不同的內(nèi)容，但都平滑過渡到原始視頻的某個(gè)特定點(diǎn)。
向前延伸：同樣地，Sora也能夠從視頻的某個(gè)點(diǎn)開始，向前生成新的幀，從而擴(kuò)展視頻至所需的長度。這可以創(chuàng)造出多種結(jié)局，每個(gè)結(jié)局都是從相同的起點(diǎn)開始，但最終導(dǎo)向不同的情景。
殊途同歸：利用Sora的時(shí)間擴(kuò)展功能，可以創(chuàng)造出具有”殊途同歸”感覺的視頻序列。這意味著多個(gè)視頻序列可能從完全不同的場(chǎng)景開始，但最終都匯聚到同一個(gè)終點(diǎn)，給人一種命運(yùn)共同、目標(biāo)一致的印象。
內(nèi)容創(chuàng)作與編輯：這種時(shí)間上的擴(kuò)展能力為視頻內(nèi)容創(chuàng)作者提供了強(qiáng)大的工具。他們可以創(chuàng)造出具有復(fù)雜情節(jié)和多變結(jié)局的視頻，或者為現(xiàn)有的視頻素材增添新的創(chuàng)意元素。

Sora模型的時(shí)間擴(kuò)展功能為視頻編輯和內(nèi)容創(chuàng)作提供了前所未有的靈活性和創(chuàng)造性。它不僅能夠生成無限循環(huán)的視頻，還能夠按照創(chuàng)作者的意圖制作出具有特定結(jié)構(gòu)和風(fēng)格的視頻作品。

8. 無縫的無限循環(huán)視頻

什么是無限循環(huán)視頻？

無限循環(huán)視頻是一種視頻格式，它能夠在播放結(jié)束后自動(dòng)重新開始播放，形成一個(gè)看似無休止的循環(huán)。這種視頻通常用于展示連續(xù)的動(dòng)作或者場(chǎng)景，比如動(dòng)態(tài)背景、滾動(dòng)圖片展示、動(dòng)畫角色行走等。

在視頻編輯和動(dòng)畫制作中，，非大模型生成的做法是，專業(yè)人士通過特定軟件如Adobe Premiere Pro（PR）、After Effects（AE）等來創(chuàng)建無限循環(huán)視頻。有學(xué)習(xí)成本和一定的門檻，也比較費(fèi)時(shí)費(fèi)力。

Sora生成無限循環(huán)視頻的方法：

Sora從一段現(xiàn)有的視頻片段出發(fā)，通過所謂的“視頻到視頻編輯”技術(shù)，實(shí)現(xiàn)視頻內(nèi)容的前后擴(kuò)展，從而創(chuàng)造出一個(gè)可以不斷重復(fù)播放的視頻流，這就是無限循環(huán)視頻。

以下是 OpenAI 給出的效果示例視頻：

具體來說，無限循環(huán)視頻有以下特點(diǎn)：

無縫連接：視頻的結(jié)尾能夠平滑過渡到開頭，沒有明顯的斷裂或不自然之處，給觀眾帶來連貫流暢的觀看體驗(yàn)。
可定制性：基于Sora模型的靈活性，用戶可以根據(jù)需要設(shè)計(jì)特定內(nèi)容或風(fēng)格的無限循環(huán)視頻，比如將某個(gè)場(chǎng)景或者動(dòng)作不斷重復(fù)。

Sora生成的無限循環(huán)視頻是一種創(chuàng)新的視覺媒體形式，它不僅展示了生成型AI模型的強(qiáng)大能力，也為視頻內(nèi)容創(chuàng)作提供了新的可能性。Sora 的這個(gè)能力，后續(xù)在落地應(yīng)用的時(shí)候，或許是有具體場(chǎng)景的。

9. 視頻到視頻編輯：零鏡頭改變輸入視頻的風(fēng)格和環(huán)境

Sora利用了先進(jìn)的深度學(xué)習(xí)模型，特別是擴(kuò)散模型的視頻編輯技術(shù)，能夠根據(jù)文本提示零鏡頭地改變視頻的風(fēng)格和環(huán)境。這種方法使得視頻編輯變得更加靈活和高效，用戶可以通過簡(jiǎn)單的文本描述來實(shí)現(xiàn)復(fù)雜的視覺效果。

以下是SDEdit技術(shù)的一些關(guān)鍵特點(diǎn)：

文本條件編輯：根據(jù)提供的文本提示來理解和執(zhí)行視頻編輯任務(wù)，提高了編輯的直觀性和易用性。
風(fēng)格和環(huán)境變換：利用這項(xiàng)技術(shù)，可以輕松改變視頻的風(fēng)格和環(huán)境，例如將一個(gè)場(chǎng)景轉(zhuǎn)換為另一個(gè)完全不同的環(huán)境，如從室內(nèi)轉(zhuǎn)到茂密的叢林中。

Sora的視頻編輯帶來了革命性的變化，它不僅提高了編輯的效率和準(zhǔn)確性，還為用戶創(chuàng)造了無限的可能性，使他們能夠在不需要專業(yè)視頻編輯技能的情況下，實(shí)現(xiàn)復(fù)雜和創(chuàng)意的視頻效果。

隨著技術(shù)的不斷進(jìn)步，未來我們可以期待更多類似SDEdit的創(chuàng)新應(yīng)用，進(jìn)一步推動(dòng)多媒體內(nèi)容創(chuàng)作和消費(fèi)的邊界。

10. 連接視頻：兩個(gè)視頻穿插銜接

Sora能夠通過插值技術(shù)，在兩個(gè)不同主題和場(chǎng)景的視頻之間創(chuàng)建無縫過渡。這種能力得益于Sora的高級(jí)插值技術(shù)，它可以在不同的視頻內(nèi)容之間進(jìn)行有效的混合和融合。

這項(xiàng)功能的特點(diǎn)和價(jià)值有：

視頻插值：Sora能夠在兩個(gè)視頻片段之間進(jìn)行逐漸的插值，這意味著它可以創(chuàng)造出一個(gè)過渡視頻，使得兩個(gè)截然不同的視頻平滑地融合在一起。
混合和融合視頻內(nèi)容：Sora展現(xiàn)了在有效混合和融合不同視頻內(nèi)容方面的強(qiáng)大能力，它可以在兩個(gè)視頻之間進(jìn)行插值，創(chuàng)造出一個(gè)中心視頻，這個(gè)視頻在左右兩個(gè)視頻之間實(shí)現(xiàn)了平滑過渡。
保持視覺質(zhì)量和忠實(shí)度：在進(jìn)行視頻插值和過渡的同時(shí)，Sora能夠保持視頻的視覺質(zhì)量，并且對(duì)用戶提供的指令保持高度忠實(shí)，確保生成的視頻內(nèi)容符合用戶的需求和預(yù)期。
無縫過渡：通過插值技術(shù)，Sora確保了即使在主題和場(chǎng)景構(gòu)成完全不同的視頻之間，也能夠?qū)崿F(xiàn)流暢的過渡效果，這對(duì)于視頻編輯和創(chuàng)作來說是一個(gè)非常有用的工具。

示例效果解析：

Sora的這些功能極大地?cái)U(kuò)展了視頻編輯的可能性，使得創(chuàng)作者能夠更加自由地表達(dá)自己的創(chuàng)意，同時(shí)也為視頻編輯領(lǐng)域帶來了新的技術(shù)和方法。

這種技術(shù)的應(yīng)用前景廣闊，從電影制作到廣告創(chuàng)作，再到社交媒體內(nèi)容的生產(chǎn)，都可以通過Sora來實(shí)現(xiàn)更加流暢和創(chuàng)新的視頻體驗(yàn)。

11. 圖像生成能力：分辨率高達(dá) 2048×2048

Sora的圖像生成能力是通過在時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來實(shí)現(xiàn)的。這種方法允許模型生成各種尺寸的圖像，分辨率高達(dá)2048×2048。

效果示例1：秋季女性特寫肖像照，極其細(xì)節(jié)，淺景深

官方示例圖片：

具體來說，Sora的圖像生成過程包括以下幾個(gè)關(guān)鍵步驟：

初始化空間網(wǎng)格：首先，Sora會(huì)在時(shí)間范圍為一幀的空間網(wǎng)格上進(jìn)行初始化，這個(gè)網(wǎng)格構(gòu)成了圖像生成的基礎(chǔ)結(jié)構(gòu)。
排列高斯噪聲塊：接著，Sora在這個(gè)空間網(wǎng)格中排列高斯噪聲塊，這些噪聲塊是隨機(jī)生成的，但會(huì)逐漸被模型轉(zhuǎn)化為有意義的圖像內(nèi)容。
應(yīng)用擴(kuò)散模型：Sora利用擴(kuò)散模型對(duì)噪聲塊進(jìn)行處理，通過一系列的迭代過程，逐步將噪聲轉(zhuǎn)化為圖像的細(xì)節(jié)和特征。
生成高分辨率圖像：通過深度學(xué)習(xí)模型的訓(xùn)練，Sora能夠生成高質(zhì)量、逼真的圖像。這些圖像不僅在視覺上吸引人，而且與現(xiàn)實(shí)世界中的物體和場(chǎng)景非常相似。
靈活性：Sora的圖像生成過程是可調(diào)整的，用戶可以通過改變模型的參數(shù)來控制生成圖像的風(fēng)格、細(xì)節(jié)程度等。
廣泛的應(yīng)用：由于其強(qiáng)大的圖像生成能力，Sora可以被用于多種應(yīng)用，包括但不限于藝術(shù)創(chuàng)作、游戲開發(fā)、媒體娛樂等。

總的來說，Sora的圖像生成能力展示了其在視覺創(chuàng)作領(lǐng)域的強(qiáng)大潛力，在落地應(yīng)用方面可滿足不同場(chǎng)景和需求。

12. 3D 一致性

Sora能夠生成具有3D一致性的視頻，確保了在動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)中人物和場(chǎng)景元素在三維空間中的一致性。

Sora的這一能力體現(xiàn)在其能夠模擬現(xiàn)實(shí)世界中的動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)。無論是攝像機(jī)的平移、傾斜還是旋轉(zhuǎn)，Sora生成的視頻都能保持物體和場(chǎng)景元素的連貫性和穩(wěn)定性，就像在真實(shí)的三維環(huán)境中一樣。這種3D一致性不僅增強(qiáng)了視頻的真實(shí)感，也是對(duì)視頻生成模型在理解和模擬現(xiàn)實(shí)世界方面能力的體現(xiàn)。

具體來說，Sora的3D一致性包括以下幾個(gè)方面：

長程一致性和物體永久性：在生成長視頻時(shí)，Sora能夠保持時(shí)間上的一致性，即物體和場(chǎng)景元素在視頻序列中持續(xù)存在，不會(huì)突然出現(xiàn)或消失。
模擬物理世界：Sora能夠在沒有明確的3D建?；蛭矬w識(shí)別的前提下，模擬現(xiàn)實(shí)世界中的人和動(dòng)物的動(dòng)作以及環(huán)境變化。
新興能力：這些3D一致性的特性并不是預(yù)先設(shè)計(jì)好的，而是在大規(guī)模訓(xùn)練數(shù)據(jù)上自然涌現(xiàn)出來的能力。

總的來說，Sora的3D一致性是其在視頻生成領(lǐng)域的一個(gè)重要突破，它不僅提升了視頻的真實(shí)感，也為未來視頻內(nèi)容的創(chuàng)作和編輯提供了更多的可能性。通過深度學(xué)習(xí)和大規(guī)模訓(xùn)練，Sora展現(xiàn)了人工智能在理解和生成復(fù)雜視覺場(chǎng)景方面的顯著進(jìn)步。

13. 遠(yuǎn)程相干性和物體持久性

Sora展現(xiàn)出了在視頻生成中的遠(yuǎn)程相干性和物體持久性，這體現(xiàn)在其能夠在長視頻中有效地對(duì)短期和長期依賴關(guān)系進(jìn)行建模。

遠(yuǎn)程相干性和物體持久性是視頻生成系統(tǒng)中至關(guān)重要的特性，它們確保了視頻內(nèi)容在時(shí)間上的連貫性和邏輯性。Sora的這些能力具體表現(xiàn)在以下幾個(gè)方面：

保留人、動(dòng)物和物體：Sora能夠在視頻中持續(xù)跟蹤人、動(dòng)物和物體的存在，即使這些元素被遮擋或暫時(shí)離開畫面，也能保持一致性。
多鏡頭生成：Sora能夠在單個(gè)視頻樣本中生成同一角色的多個(gè)鏡頭，這意味著它能夠處理和維持角色的不同視角和場(chǎng)景切換。
外觀保持：在生成的視頻中，Sora能夠保持特定物體或角色的外觀一致性，即使在視頻的時(shí)間跨度較長或場(chǎng)景變化較大的情況下。
解決遮擋問題：當(dāng)視頻中的對(duì)象被遮擋時(shí)，Sora能夠利用其對(duì)場(chǎng)景的理解來預(yù)測(cè)這些對(duì)象的運(yùn)動(dòng)和位置，從而保持場(chǎng)景的連貫性。

在這上面這個(gè)例子中，窗臺(tái)上的狗，即便被多次遮擋，還是會(huì)展示原本的樣子，并沒有改變主題的樣式，持久存在。

通俗的理解如下：

當(dāng)我們說Sora具有遠(yuǎn)程相干性和物體持久性時(shí)，我們是在談?wù)撍谱饕曨l的能力，特別是它如何處理視頻中隨時(shí)間發(fā)生的變化。想象一下，你正在看一部電影，電影中的角色或物體即使不是一直出現(xiàn)在屏幕上，你也記得他們。這就是遠(yuǎn)程相干性。

而物體持久性意味著即使東西暫時(shí)消失了，比如被其他物體遮擋，我們也能在心中記住它的存在，并且在它再次出現(xiàn)時(shí)，我們知道那還是同一個(gè)物體。

簡(jiǎn)單來說，Sora在制作視頻時(shí)能夠記住之前發(fā)生的事情，并且確保事情的連貫性。如果視頻中有個(gè)人走進(jìn)門后不見了，Sora可以做出這個(gè)人是繼續(xù)走路，而不是突然在別的地方出現(xiàn)或者消失不見。這就像是在講故事時(shí)保持故事線一致，讓聽眾不會(huì)感到困惑。

此外，如果視頻中有多個(gè)場(chǎng)景顯示同一個(gè)人，Sora能確保這些場(chǎng)景中的人的外觀和行為是一致的，就好像是在拍攝電影時(shí)從不同的角度拍攝同一個(gè)演員一樣。

這樣的能力對(duì)于制作看起來真實(shí)且連貫的視頻非常重要，尤其是在視頻很長或者包含許多復(fù)雜場(chǎng)景的時(shí)候。Sora通過復(fù)雜的計(jì)算和學(xué)習(xí)大量的數(shù)據(jù)來做到這點(diǎn)，使得它能生成高質(zhì)量的視頻，即使那些視頻中有很多動(dòng)作和變化。

14. 與世界互動(dòng)

Sora能夠模仿一些我們?cè)谌粘Ｉ钪械男袨楹蛣?dòng)作。比如說，就像一個(gè)畫家在畫布上畫畫，他每畫一筆，畫布上就會(huì)留下痕跡，這些痕跡會(huì)一直保持在那里；或者一個(gè)人在吃漢堡時(shí)，每咬一口，漢堡上就會(huì)留下咬過的痕跡。

Open AI提到的“索拉有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀況的動(dòng)作”里面的“世界狀況”可以理解為周圍環(huán)境的樣子或狀態(tài)。Sora能模擬出我們對(duì)這個(gè)世界做出的一些改變，比如添加新的東西（就像畫家的筆觸）或者改變已有東西的狀態(tài)（就像被咬過的漢堡）。

這些動(dòng)作改變了原本的狀況，并且這種改變是持久的。這就像是在一個(gè)視頻游戲中，你做出的行動(dòng)（比如移動(dòng)角色或建造東西）會(huì)改變游戲世界，并且這些改變會(huì)被記住，不是暫時(shí)的。

所以，簡(jiǎn)單來說，就是Sora可以模仿我們?cè)诂F(xiàn)實(shí)世界中的某些行為，并且讓這些行為在虛擬的世界里留下來，看起來就像是真的發(fā)生了一樣。

15. 模擬數(shù)字世界

當(dāng)我們說Sora可以模擬數(shù)字世界時(shí)，我們是在說它可以模仿像視頻游戲這樣的虛擬環(huán)境里發(fā)生的事情。比如，想象一下流行的視頻游戲《我的世界》（Minecraft），這是一個(gè)玩家可以在里面建造東西、探險(xiǎn)的游戲世界。

Sora能做到的酷事包括：

控制游戲中的玩家：Sora可以像游戲玩家一樣控制《我的世界》中的角色，就是在游戲中扮演玩家的角色，并且根據(jù)一套基本的規(guī)則或策略來操作，比如讓角色去跑步、跳躍或挖掘。
高質(zhì)量渲染：Sora還能夠?qū)崟r(shí)渲染游戲世界和其中的各種動(dòng)態(tài)效果，使得整個(gè)游戲體驗(yàn)既真實(shí)又細(xì)膩。就像是在高清電視上玩游戲一樣。
動(dòng)態(tài)處理：Sora還能處理游戲中的動(dòng)態(tài)變化，比如角色的動(dòng)作、物體的移動(dòng)，或者是時(shí)間的流逝（比如游戲中的日夜更替）。
零樣本能力：這個(gè)術(shù)語可能聽起來有點(diǎn)復(fù)雜，但它其實(shí)就是指Sora可以通過簡(jiǎn)單的提示（文本）——比如，只要給出含有“我的世界”這個(gè)關(guān)鍵詞的標(biāo)題或提示——Sora就能立刻理解并執(zhí)行相關(guān)的任務(wù)，無需事先進(jìn)行任何準(zhǔn)備。

所以，用更容易理解的話來說，Sora就像一個(gè)超級(jí)電腦玩家，能夠同時(shí)玩很多《我的世界》，并且讓這些游戲看起來和運(yùn)行得都非常棒，而且它還能很快地開始做這些事情，只需要給它一個(gè)簡(jiǎn)單的提示。

這些功能表明，視頻模型的持續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有前途的道路。

五、Sora 視頻處理上的弱點(diǎn)

當(dāng)前的Sora模型存在弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，并且可能無法理解因果關(guān)系的具體實(shí)例。例如，一個(gè)人可能咬了一口餅干，但之后餅干可能沒有咬痕。

Sora模型還可能會(huì)混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。Sora 目前作為模擬器表現(xiàn)出許多局限性。例如，它不能準(zhǔn)確地模擬許多基本相互作用的物理過程，例如玻璃破碎。其他交互（例如吃食物）并不總是會(huì)產(chǎn)生對(duì)象狀態(tài)的正確變化。

Sora 官網(wǎng) po 出了 5 個(gè)有缺陷的視頻，包含了比較典型的復(fù)雜屋里場(chǎng)景。包括：人體姿態(tài)處理錯(cuò)誤、多實(shí)體場(chǎng)景處理難、不準(zhǔn)確的物理建模和不自然的物體“變形”、物理交互不準(zhǔn)確、多個(gè)角色之間的復(fù)雜交互等。

不僅讓我們看到了大模型文生視頻目前存在的能力缺陷，也看到了更多創(chuàng)意的空間。一些對(duì)物理世界的扭曲變形，空間奇幻的情節(jié)，可以利用在更多具有創(chuàng)意的視屏中。

5 個(gè)視頻截圖預(yù)覽：

跑步的人
五只灰狼嬉戲
籃筐爆炸
椅子變形亂飛
吹不滅的生日蠟燭

六、Sora的優(yōu)缺點(diǎn)對(duì)比分析

1. 優(yōu)點(diǎn)

強(qiáng)大的視頻生成能力：Sora能夠?qū)⑽谋久枋鲛D(zhuǎn)化為高質(zhì)量的視頻內(nèi)容，具有強(qiáng)大的視頻生成能力。這使得它能夠滿足多種應(yīng)用場(chǎng)景的需求，如廣告創(chuàng)意、教育培訓(xùn)、娛樂產(chǎn)業(yè)和新聞傳媒等。
高效的生成速度：Sora在生成視頻時(shí)具有較高的效率，可以在短時(shí)間內(nèi)生成多種方案供用戶選擇。這大大提高了廣告創(chuàng)意、教育培訓(xùn)等領(lǐng)域的工作效率，降低了制作成本。
良好的可定制性：Sora具有一定的可定制性，用戶可以根據(jù)具體需求調(diào)整模型參數(shù)和輸入數(shù)據(jù)，以獲得更符合要求的視頻生成結(jié)果。這為各行各業(yè)的定制化應(yīng)用提供了可能。

2. 缺點(diǎn)

數(shù)據(jù)質(zhì)量和數(shù)量依賴：Sora的性能在很大程度上依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量。如果訓(xùn)練數(shù)據(jù)存在偏差或不足，可能會(huì)導(dǎo)致生成的視頻內(nèi)容存在質(zhì)量問題，如模糊、失真等。
泛化能力有限：盡管Sora可以在多種場(chǎng)景下生成視頻，但其泛化能力仍然有限。在某些特定領(lǐng)域或場(chǎng)景下，Sora可能無法生成符合要求的視頻內(nèi)容，需要進(jìn)行更多的數(shù)據(jù)收集和模型訓(xùn)練。
計(jì)算資源需求較高：生成高質(zhì)量的視頻內(nèi)容需要消耗大量的計(jì)算資源，包括高性能的CPU、GPU等。這可能會(huì)增加使用Sora的成本和門檻，限制其在某些資源受限場(chǎng)景下的應(yīng)用。

七、可能的應(yīng)用領(lǐng)域

Sora是一個(gè)能夠生成視頻的高科技模型，它可以用在很多不同的行業(yè)里。

1. 廣告創(chuàng)意

想象一下，你是個(gè)廣告設(shè)計(jì)師，想要快速做出很多酷炫的廣告視頻。你可以告訴Sora你想要什么樣的廣告，比如故事內(nèi)容、風(fēng)格等等，然后Sora就能幫你做出好幾個(gè)視頻供你選擇。這樣不僅節(jié)省時(shí)間，還能讓你的廣告看起來更專業(yè)、更有創(chuàng)意。

2. 教育培訓(xùn)

如果你是老師，想給學(xué)生們制作有趣的教學(xué)視頻，Sora也能幫忙。你只要輸入教學(xué)內(nèi)容的文字，Sora就能根據(jù)這些文字生成視頻。這樣的視頻能讓學(xué)習(xí)變得更有趣，也更容易吸引學(xué)生的注意力。而且，如果學(xué)生覺得太難或太簡(jiǎn)單，Sora還能調(diào)整視頻內(nèi)容，讓每個(gè)學(xué)生都能跟得上。

3. 娛樂產(chǎn)業(yè)

電影和電視劇制作人現(xiàn)在也可以利用Sora來制作視頻。比如說，如果你想做一個(gè)特效很棒的科幻電影，Sora可以幫助你生成一些看起來很真實(shí)的場(chǎng)景和角色動(dòng)畫，這樣你就不需要花大價(jià)錢請(qǐng)?zhí)匦Ч玖恕?/p>

4. 新聞傳媒

新聞機(jī)構(gòu)也可以用Sora來快速制作新聞視頻。當(dāng)有重大新聞發(fā)生時(shí)，記者可以輸入新聞的關(guān)鍵信息，Sora就能生成相關(guān)的視頻新聞，讓觀眾更快更直觀地了解發(fā)生了什么事。

八、Sora 對(duì)產(chǎn)品經(jīng)理的啟示

對(duì)于產(chǎn)品經(jīng)理來說，Sora的發(fā)布可能意味著新的機(jī)會(huì)和挑戰(zhàn)。

Sora就像是一個(gè)神奇的視頻制作機(jī)器人，產(chǎn)品經(jīng)理們可以考慮怎么把這個(gè)機(jī)器人的能力用到自己的產(chǎn)品上去。下面就是一些關(guān)于這個(gè)機(jī)器人能給我們帶來的點(diǎn)子和需要注意的地方，以在線教育產(chǎn)品為例：

1. 提速

咱們的產(chǎn)品要是需要快速輸出大量視頻內(nèi)容，比如短視頻平臺(tái)或者社交媒體，那Sora就能幫咱們省去不少拍攝和后期的時(shí)間和成本。

例子：想象一下，在線教育平臺(tái)需要為不同的學(xué)科制作大量的教學(xué)視頻。利用Sora，產(chǎn)品經(jīng)理可以快速生成這些視頻，比如把數(shù)學(xué)公式和解題步驟直接轉(zhuǎn)換成視頻教程，大大節(jié)省制作時(shí)間和成本。

2. 用戶參與

想讓產(chǎn)品的用戶互動(dòng)更活躍？咱們可以讓用戶輸入自己的想法，然后通過Sora生成視頻，這樣用戶就會(huì)覺得咱們的產(chǎn)品既有趣又新穎。
例子：為了讓學(xué)習(xí)體驗(yàn)更加個(gè)性化，教育產(chǎn)品可以讓學(xué)生描述他們想要學(xué)習(xí)的主題或問題，然后Sora就能生成一個(gè)定制化的教學(xué)視頻，讓學(xué)生感覺更像是一對(duì)一輔導(dǎo)。

3. 個(gè)性化推薦

如果咱們的產(chǎn)品涉及到視頻推薦，比如新聞APP或者視頻網(wǎng)站，Sora可以根據(jù)用戶的觀看歷史和喜好來生成他們可能感興趣的視頻內(nèi)容。

例子：基于學(xué)生的學(xué)習(xí)進(jìn)度和興趣，Sora可以生成適合他們當(dāng)前水平的視頻內(nèi)容。比如，如果一個(gè)學(xué)生在數(shù)學(xué)上遇到了困難，系統(tǒng)可以自動(dòng)生成更多關(guān)于基礎(chǔ)數(shù)學(xué)概念的視頻來幫助他。

4. 數(shù)據(jù)洞察

Sora用得好，就能給咱們提供一大堆用戶喜歡什么、不喜歡什么的數(shù)據(jù)分析材料。這些數(shù)據(jù)對(duì)于優(yōu)化產(chǎn)品設(shè)計(jì)、改進(jìn)算法都是金礦啊！
例子：通過分析Sora生成的視頻哪些被學(xué)生觀看最多次，哪些得到了最高的評(píng)價(jià)，產(chǎn)品經(jīng)理可以了解哪些教學(xué)內(nèi)容最受歡迎，從而調(diào)整課程內(nèi)容和推薦算法。

5. 創(chuàng)新驅(qū)動(dòng)

把Sora整合到產(chǎn)品中，能讓咱們的產(chǎn)品在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出，成為行業(yè)的焦點(diǎn)。作為產(chǎn)品經(jīng)理，得考慮怎么包裝這項(xiàng)技術(shù)，讓它成為咱們產(chǎn)品的賣點(diǎn)。
例子：在線教育市場(chǎng)競(jìng)爭(zhēng)激烈，但如果你的產(chǎn)品能提供即時(shí)生成的動(dòng)畫教學(xué)視頻，這就能成為一個(gè)巨大的賣點(diǎn)。比如，Sora可以根據(jù)課本內(nèi)容生成有趣的動(dòng)畫解釋視頻，讓學(xué)習(xí)變得更生動(dòng)。

6. 合規(guī)與安全

雖然Sora能做出很棒的視頻，但咱們也得注意版權(quán)、隱私這些問題。得確保生成的內(nèi)容不會(huì)侵犯別人的權(quán)益，也要保護(hù)用戶的個(gè)人信息不被濫用。
例子：雖然Sora可以生成各種視頻，但作為負(fù)責(zé)任的在線教育產(chǎn)品，我們需要確保所有內(nèi)容都是教育合適的，沒有版權(quán)問題。同時(shí)，也要保護(hù)學(xué)生的隱私，不泄露他們的學(xué)習(xí)數(shù)據(jù)。

作為產(chǎn)品經(jīng)理，你可以想想怎么利用Sora這個(gè)視頻制作的“黑科技”，讓你的產(chǎn)品變得更好用、更吸引人。同時(shí)，也要考慮如何讓用戶放心使用，畢竟用技術(shù)也得講究個(gè)度嘛。
九、總結(jié)

在這篇文章里，咱們可是把Sora這個(gè)牛氣的視頻制作工具給扒了個(gè)底朝天。咱們不僅搞懂了它能干啥，還看到了它的強(qiáng)大之處和有些小瑕疵。從廣告到教育，再到娛樂和新聞，Sora都能派上大用場(chǎng)。對(duì)于產(chǎn)品經(jīng)理來說，這玩意兒簡(jiǎn)直就是個(gè)神器，能讓產(chǎn)品更上一層樓。

看著Sora這么厲害，咱們也得想想，將來這技術(shù)還能怎么發(fā)展。對(duì)于產(chǎn)品經(jīng)理，抓住這個(gè)機(jī)會(huì)，用好了Sora，那產(chǎn)品絕對(duì)能火。希望Sora能越來越棒，做出更多酷炫的視頻，同時(shí)也得保證合法合規(guī)，讓用戶用得放心。

最后，希望這篇文章能給各位讀者帶來點(diǎn)靈感，不管你是做產(chǎn)品的還是對(duì)這技術(shù)感興趣的，Sora都證明了一點(diǎn)：未來的視頻制作，人工智能絕對(duì)是個(gè)大有可為的領(lǐng)域。咱們一起期待吧，看看這項(xiàng)技術(shù)還能給咱們的生活帶來哪些新奇的變化！

專欄作家

Echo 產(chǎn)品論，微信公眾號(hào)：產(chǎn)品經(jīng)理的邏輯與審美，人人都是產(chǎn)品經(jīng)理專欄作家。10年產(chǎn)品經(jīng)驗(yàn)，多個(gè)0~1的完整產(chǎn)品經(jīng)歷，前好未來智能學(xué)習(xí)內(nèi)容產(chǎn)品專家，目前聚焦在AI領(lǐng)域，專研AIGC行業(yè)應(yīng)用產(chǎn)品落地研發(fā)，對(duì)產(chǎn)品的邏輯和審美有獨(dú)到的思考。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Sora 官網(wǎng)演示視頻截圖

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App