整整300天,Sora終于引爆了視覺核彈
經過300天的期待,Sora V2版本終于揭開了神秘的面紗,帶來了革命性的視頻生成技術。這篇文章將帶您深入了解Sora如何重新定義世界模型,以及它在視頻創作、電影生成和內容開發等領域的深遠影響。
從2024年2月15到2024年12月10日,整整間隔300天,最強期貨Sora從預告到終于面世。
在大洋彼岸,OpenAI打造的12天春晚的Day 3,山姆奧特曼終于正式發布了Sora V2版本。從未正式推出的V1版本,曾經通過演示視頻帶給過大家震撼。
這次OpenAI公布了更高端快速版本—Sora Turbo,帶給ChatGPT Plus 和 Pro 用戶。
就像1984年的Mac一樣重新定義影像創作,Sora重新定義了世界模型:“Sora 是理解和模擬現實的人工智能的基礎,這是開發能夠與物理世界互動的模型的重要一步?!?/p>
我們且看這次發布的 Sora 最終呈現的能力:
- 支持分辨率高達 1080p、時長最長 20 秒的視頻,格式可選寬屏、豎屏或方形。這點沒什么,國產AI都可以。相比國產最長的2分鐘,Sora這項指標還落后了。
- 但重要的是,Sora配備了分鏡工具,故事板工具(Storyboard)能讓用戶能夠精確指定每一幀的輸入,用戶可以通過在時間線上拖動和間隔卡片、添加字幕和上傳源媒體來控制節奏,同時確保適當的間距以避免突然切換。
- 提供文本生成視頻(text-to-video)、圖像生成視頻(text+image-to-video)、視頻編輯生成(text+video-to-video)。這點也沒什么,國產AI也都能實現。
- 覺得簡單生成不太好玩,OpenAI加入了Remix和Blend兩項新功能。這意味著用戶可以選擇自帶素材進行擴展、混音和混合,或者從文本生成全新的內容。換句話說,你可以使用Recut修剪和延長(重新剪輯)、重新混合以創建新變化、混合視頻之間的過渡。直播演示中,猛犸象和機器人混合在了一起,走在了沙漠上。
- Sora可以添加很多幀,連接兩個不相關的開頭和結尾。據說測試中的許多藝術家都非常喜歡這個視頻循環功能。
- 包含“精選”和“最近”內容板塊Explore,幫助大家從社區中汲取靈感。
實際上這次短短的直播中,并沒有過多呈現Sora生成的案例視頻有多精彩,而是重點介紹了Sora產品的功能特點。
此前在日本藝術家創作的80年代年輕人舞蹈和OpenAI創意專家ChadNelson 在倫敦展示的 Sora V2 視頻,體現了多主體,多視角、多變焦等環境中,Sora的畫面逼真清晰、人物一致性、視頻延展等能力。
大家可以在今天晚點時間開放后體驗Sora,是否是對目前所有的視頻生成模型的一次碾壓。
當然,在Sora閉關迭代的這一年中,國內AI視頻也經歷了很多變化。
1.Runway
Runway發布了第三代視頻生成模型Gen-3,該模型在保真度、一致性和運動方面有了重大改進。
Gen-3 Alpha模型使用視頻和圖像聯合訓練,特色包括90秒內快速生成10秒視頻、并行生成多個視頻、模型驅動新的文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I)等功能。
2.可靈(快手)
快手可靈在6月份發布,也是類Sora的DiT架構,能夠生成長達2分鐘的視頻,且幀率達到30fps。圖生視頻、文生視頻、視頻續寫都可,每天有6次免費機會。
可靈AI以其生成時長、效率,以及視頻質量位于AI視頻生成產品的第一梯隊,2分鐘的生成時長是現在所有產品里的第一,尤其在真實風格場景上的表現更好??焓挚伸`應該是目前商業化做的最好的,此前公布過營收過千萬。
3.即夢(字節跳動)
最開始的即夢大概也是采用SDXL模型,當時鯨哥體驗下覺得是runway1.0的水平。但是在10月份豆包發布視頻生成-PixelDance模型后,其實已經進化到,一度讓我們不再期待Sora了。
搭載這款模型的即夢AI 2.0,在對提示詞的捕捉和理解方面展現出高一致性,精確控制多個主體,可對連續動作,連續鏡頭做高度控制。超寫實效果媲美電影拍攝效果,還支持首幀到尾幀的變化動畫,這功能Sora今天也發布了。
4.騰訊混元
最近被熱議的則是騰訊混元正式上線文生視頻,并全面開源,參數量達到130億,是當前最大的視頻開源模型。
混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先,在人物、人造場所等場景下表現尤為出色。能夠實現在畫面主角保持不變的情況下自動切鏡頭。
綜合來說,AI視頻在影像創作、電影生成、短視頻內容開發等領域都具有重大意義。
AI視頻創作者“AI Talk”主理人汗青說道:“如果Sora能很快提供類似效果的民用服務,那確實是降維打擊,其實對創作者來說,這個視頻中多人物同屏,以及畫面的表現力運鏡才是最寶貴的,完全是另一個層面的東西。什么清晰度、鏡頭長度其實不太重要,這是真正做創作的人和技術狂熱者看待事物的不同角度?!?
Sora目前應該超出了很多人的預期,甚至是狂喜。
2023年好萊塢曾爆發上萬名從業人員走上街頭,他們抗議AI帶來的挑戰和工作機會減少。但現在隨著Sora面世,尤其官方說道并不希望一鍵生成,而是希望促進創意發展?,F實影響真的會是這樣嗎?
從實際來看,Sora這么延遲發布,很可能并不是技術上有很大難題,而是安全隱私保護等問題遲遲沒有解決。
現在終于有了解決方案,OpenAI在官網中提到:
所有 Sora 生成的視頻都帶有元數據,元數據會將視頻標識為來自 Sora,以提供透明度,并可用于驗證來源。雖然不完善,但我們默認添加了可見水印等保護措施,并構建了一個內部搜索工具,該工具使用第2代的技術屬性來幫助驗證內容是否來自 Sora。
而對于用戶很關心的價格,披露使用 openai plus 賬戶,您每月可獲得 50 次生成。使用專業賬戶,每月可以獲得 500 次快速生成(高分辨率下更少),并在較慢的生成模式下獲得無限制生成。
Sam Altman在直播結束時說道:回到GPT-1的類比,現在還處于早期階段,它會變得更好。
作者|楊曉鶴
本文由人人都是產品經理作者【AI鯨選社】,微信公眾號:【AI鯨選社】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!