7000字超全拆解|Sora提示詞秘籍及競品效果對比

1 評論 4049 瀏覽 20 收藏 21 分鐘

OpenAI 發布文本到視頻生成模型 Sora,讓互聯網再一次沸騰了起來。本文就 Sora 生成視頻來拆解提示詞秘籍公式,并對其競品效果進行比對,一起來看看吧。

2024年2月16日凌晨,OpenAI 正式發布了文本到視頻生成模型 Sora,直接生成60s視頻,多角色多鏡頭切換的視頻,還上了央視新聞。

目前 Sora 并未開放,只向少數導演藝術家開放邀請碼。

至此,好萊塢的時代結束了,人人可以做視頻電影的時代到來啦!

今天我們就 Sora 生成視頻來拆解提示詞秘籍公式,競品視頻生成效果對比,解析 Sora 優勢劣勢和 Sora 模型原理。

一、AIGC 視頻模型效果對比

首先讓我們看看,目前主流的AI 視頻工具 Runway、Pika、Stable Video Diffusion 與 Sora 基本參數對比。包括發布時間、特點風格、生成時長、每秒幀數和分辨率,如下圖所示。

受制于AI文本到視頻生成的物理和時空推理局限,目前主流的 AI 視頻工具 Runway、Pika、Stable Video Diffusion 生成視頻通常在4S左右,單個連貫性視頻的最大長度為16秒。這次,Sora 最大生成長度為60s ,直接秒殺全場。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

案例一

接下來,先來看一段 Sora 生成的視頻效果吧,以下是提示詞。

提示詞:「幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風中輕輕地吹著,遠處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠處的太陽形成了溫暖的光芒,低相機的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物?!?/p>

7000字超全拆解|Sora提示詞秘籍及競品效果對比

生成的是一段9秒視頻,我把整個視頻進行了拆解:

可以看到,在0秒的時候畫面上有兩只完整的大象在行走,并且有一只被遮擋的大象在行走,0~5秒的時候這只大象被遮擋且繼續前進行走,在第5秒時,這只大象開始顯示出來,慢慢走出來,身體很完整。

可以看出 Sora 在復雜的場景、多角色表情以及鏡頭連貫性上表現的很突出。

Runway 和 Pika 對比

接下來用相同提示詞在 Runway 和 Pika 中看看效果吧。

可以看到在大象走路時背后雪飄揚物理世界的真實性上、大象身體運動地連貫性上、畫面復雜性上,Sora 直接碾壓其他兩款視頻軟件生成效果。

案例X來源:https://twitter.com/keitowebai/status/1758384152670577136

案例二

提示詞:「美麗的、白雪皚皚的東京城熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。美麗的櫻花花瓣隨著雪花在風中飛舞?!?/p>

生成的是一段17秒視頻,我把整個視頻進行了拆解:

可以看到整個視頻是一鏡到底,高空跟隨俯拍,在0~2秒鏡頭是動態地高空拉到人物,3秒開始兩位主角進入,鏡頭跟著主角的腳步向前,街道和店鋪路面都符合邏輯的向前運動,且畫面中物體都高度統一,第5秒我都擔心女主會撞到前面的攤位,最后完美避讓。在第9秒兩位主角還對在對視聊天,第3秒和第11秒周圍的路人消失的時候還是比較詭異的。

視頻中的整個街道來的店鋪完全沒有變形,Sora 在復雜的場景以及鏡頭連貫性上表現真的很突出。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

Runway 、 Pika 、Stable Video 對比

接下來,使用以上相同的關鍵詞在 Pika、Runway、Stable Video 中進行了測試,可以看到以下效果。Sora 在生成時長、畫面連貫性和人物走路細節對視等方面也直接碾壓。

案例X來源:https://twitter.com/gabor/status/1758282791547232482

二、Sore 優勢與局限

1. Sora 的優勢

對比 Runway、Pika、Stable Video 這些主流AI視頻工具, Sora 的優勢很明顯:

能夠生成具有多個角色、特定類型動作和主題背景的復雜視頻,時長可達到 60秒;

可以在單個生成的視頻中創建多個鏡頭,模擬復雜的攝像機運鏡,同時準確地保持角色和視覺風格;

最重要的是,它不僅理解用戶在 prompt 中要求的內容,還能自己理解這些事物在現實世界中的存在方式;

?? 更多技術:https://openai.com/sora

2. Sora 的劣勢

Open AI 研究人員也提到 sora 仍存著一些缺點,比如可能無法精確描述隨著時間推移發生的事件。例如“五只灰狼幼崽在一條偏僻的碎石路上玩?!?,小狼的數量會發生變化,玩耍的狼會出現混淆或消失。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

比如可能無法精確描述物理世界運動特征。例如“籃球穿過籃筐然后爆炸”,籃球沒有正確被籃筐阻擋。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

三、Sore 提示詞拆解

在拆解四十八個 Sora 視頻案例后,我將提示詞進行分類歸納,總結出提示詞的五大維度包括:主體描述、場景設定、視覺細節、情感氛圍、攝影技術,這五大維度。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

主體描述:涉及人物、動物或物體的詳細描述,包括年齡、服裝、動作、表情、和與場景的互動。

場景設定:描述地點,如東京的街頭、海底世界;時間,如日落時分、藍色時刻;環境:如城市、自然景觀;特定的場景氛圍:如溫馨、神秘。

視覺細節:包括顏色、光影、天氣條件、紋理和任何特別的視覺效果,比如大象長長的毛、飛舞的櫻花花瓣。

情感氛圍:描述場景所要傳達的情緒、情感狀態或氛圍,利用視覺元素和場景設置加以強化,比如溫暖的感覺、神奇浪漫的感覺。

攝影技術:特定的攝影或影片拍攝技術,如70mm膠片、無人機拍攝、傾斜移位。

1. 舉例子

把提示詞「幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風中輕輕地吹著,遠處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠處的太陽形成了溫暖的光芒,低相機的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物?!惯M行拆解如下:

7000字超全拆解|Sora提示詞秘籍及競品效果對比

主體描述:幾頭巨大的長毛象,在雪地中踏步,長毛在風中輕輕吹動。

場景設定:雪地,遠處有被雪覆蓋的樹木和雪山,午后,有稀疏的云和遠處的太陽

視覺細節:長毛在風中的輕輕吹動,光線和云層形成溫暖光芒。

情感氛圍:自然之美和壯觀

攝影技術:低相機視角,景深

2. 案例拆解

這邊我把四個案例視頻進行了詳細的拆解,方便查看,可以看到視頻每秒畫質都很高清,畫面物體都很完整符合邏輯。

案例一

提示詞:Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風中輕輕地吹著,遠處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠處的太陽形成了溫暖的光芒,低相機的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

案例二

提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

美麗的、白雪皚皚的東京城熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。美麗的櫻花花瓣隨著雪花在風中飛舞。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

案例三

提示詞:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

一位時尚的女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和生動的城市標志。她穿著黑色皮夾克、紅色長裙和黑色靴子,手里拿著一個黑色錢包。她戴著太陽鏡和紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果。許多行人走來走去。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

案例四

提示詞:Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.

一位24歲女性的眼睛在馬拉喀什的魔法時刻進行極端特寫鏡頭的眨眼,以70毫米的電影膠片拍攝,具有景深,鮮艷的顏色,電影般的效果。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

3. Sora 秘籍公式

按照主體描述、場景設定、視覺細節、情感氛圍、攝影技術,這五大維度講以上提示詞進行分類可以得到如下提示詞秘籍公式。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

4. 小技巧:利用 AI工具快速得到上述表格

使用 ChatGPT 可以快速完成。首先把四個案例的提示詞文件放到輸入框,輸入指令「按照以上以下五個維度把上面4個案例進行拆解,并使用表格的形式展示出來?!咕涂梢缘玫饺缦卤砀窭?。大家可以利用 ChatGPT 對日常工作進行提效。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

四、提示詞大全

根據提示詞五大維度,匯總了一些關鍵詞如下。后期我也會及時整理更多資料發布到AIGC知識庫,歡迎加我微信了解更多,歡迎小伙伴加入一起學習。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

主體描述 (Subject Description)

職業(Occupation):教師(Teacher), 藝術家(Artist);興趣(Interests):閱讀(Reading), 旅行(Traveling);氣質(Temperament): 優雅(Elegant), 粗獷(Rugged);服飾細節(Clothing Details): 復古(Vintage), 現代(Modern)。

場景設定 (Scene Setting)

建筑風格(Architectural Style): 現代(Modern), 古典(Classical);城市特色(City Characteristics): 繁華(Bustling), 古老(Ancient);自然景觀(Natural Landscape): 湖泊(Lakes), 山脈(Mountains);社會背景(Social Background): 科技未來(Futuristic), 史前時代(Prehistoric Era)。

視覺細節(Visual Details)

明暗對比(Light and Dark Contrast): 強烈(Strong), 微妙(Subtle);視角(Perspective): 第一人稱(First Person), 第三人稱(Third Person);光影變化(Light and Shadow Changes): 日出(Sunrise), 夜晚(Night);空間感(Sense of Space): 開闊(Open), 壓抑(Oppressive)。

情感氛圍(Emotional Atmosphere)

情緒變化(Emotional Change): 從憂郁到喜悅(From Melancholy to Joy);故事情節(Plot): 冒險(Adventure), 成長(Growth);人物關系(Character Relationships): 友情(Friendship), 競爭(Competition);心理描寫(Psychological Description): 堅定(Determined), 猶豫(Hesitant)。

攝影技術(Photographic Techniques)

技術手段(Technical Means): 蒙太奇(Montage), 深焦點(Deep Focus);攝影風格(Photographic Style): 紀實(Documentary), 抽象(Abstract);畫面處理(Image Processing): 色彩飽和度(Color Saturation), 明暗調整(Light and Dark Adjustment);特殊效果(Special Effects): 慢動作(Slow Motion), 倒敘(Reverse Chronology);

五、Sore 模型原理

OpenAI 公布了sora詳細的技術報告。

總的來說,Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了Transformer架構,也就是一種“擴散型Transformer”。

?? 技術報告鏈接:https://openai.com/research/video-generation-models-as-world-simulators

7000字超全拆解|Sora提示詞秘籍及競品效果對比

英偉達AI科學家Jim Fan則認為:Sora應該是一個數據驅動的物理引擎。Sora是對現實或幻想世界的模擬,它通過一些去噪、梯度下降去學習復雜渲染、“直覺”物理、長鏡頭推理和語義基礎等。

紐約大學助理教授謝賽寧認為:Sora將改寫整個視頻生成領域。Sora應該是建立在DiT這個擴散Transformer之上的。簡而言之,DiT是一個帶有Transformer主干的擴散模型,它= [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。

謝賽寧猜測,關于視頻壓縮網絡,Sora可能采用的就是VAE架構,區別就是經過原始視頻數據訓練。而由于VAE是一個ConvNet,所以DiT從技術上來說是一個混合模型。

(1)視覺數據處理方式

Sora 創新性地采用“Patches(補片)”技術處理視覺數據,區別于大語言模型的 token 處理方式。通過將視頻內容壓縮到低維潛空間,進一步解構為時空補片,實現將視頻轉化為易于處理的補片形式。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

(2)視頻格式的靈活性

Sora 能夠生成多種格式的視頻,支持不同的分辨率、時長和寬高比,優化了視頻的構圖和布局。與常見的將視頻裁剪為正方形不同,Sora 能夠完整捕捉場景,得益于在視頻的原始尺寸上進行訓練。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

(3)圖像生成的能力

除了視頻,Sora 同樣具備生成圖像的能力。通過在空間網格中排列高斯噪聲補片,并設置時間范圍為單幀,Sora 能夠生成不同尺寸的圖像,最高支持 2048×2048 分辨率。

7000字超全拆解|Sora提示詞秘籍及競品效果對比

六、后記

總體而言,Sora 的出現預示著視頻創作領域的一次重大變革,無論是廣告行業、影視行業、短視頻從業者還是普通人,都提供了新的創作路徑,使大家能以更低的成本和更高的效率創作高質量視頻內容。

在AI技術日益成熟的今天,我們需要了解更多畫面構圖知識,攝影知識,沉淀自己,來擁抱 AI 將為我們帶來更多的機會。

本文由 @yaoyao 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Sora文生視頻官網

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 講真,走過雪地,地上積雪如沙塵般飛揚,你覺得合適?

    來自河南 回復