亚洲欧美高清在线精品一区二区,国产在线无码制服丝袜无码

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

中國版Sora來了！Vidu是何方神圣？

雷科技

2024-04-30

1 評論 1225 瀏覽 0 收藏

12 分鐘

近日，生數科技與清華大學聯合發布了「Vidu」文生視頻模型，那么這一模型，是否可以和 OpenAI 的 Sora 實現對標？一起來看看本文的解讀。

2 個月前，OpenAI 發布了全新的文生視頻模型 Sora，瞬間引爆了全球科技圈，也讓馬斯克說出了「人類愿賭服輸」。在那之后，沒有任何一個大模型敢于在文生視頻領域「挑釁」Sora。

現在，事情有了變化。

在 4 月 27 日舉辦的 2024 中關村論壇上，生數科技與清華大學聯合發布了「Vidu」文生視頻模型，全面對標 OpenAI 的 Sora。

Vidu 生成，動圖經過壓縮。圖/生數科技

不僅是在視頻生成分辨率和時長上，最關鍵的根據官方放出的生成視頻，Vidu 已經實現了相當程度的「擬真」——模擬真實世界的物理原理，以及主體的一致性。這是 Vidu 真正對標 Sora 的底氣。

但 Vidu，離 Sora 到底還有多少差距？

一、對標 Sora，Vidu 還差「一點」

從這次發布可以看出，Vidu 處處都在對標 Sora。同樣是通過提示詞直接生成視頻，同樣支持最高 1080P，雖然 16 秒的生成視頻時長還明顯短于 Sora（最長 60 秒）。

最明顯的還是生成的視頻內容。

比如 Sora 街頭行走這一段，相信會看這篇文章的讀者應該都看過，一度刷爆了各大社交媒體。

Sora 生成，動圖經過壓縮。圖/ OpenAI

Vidu 也同樣生成了類似的視頻內容，開始展示了一男一女一熊走在街頭的畫面，隨后又重點展示了熊人的背景街道。

Vidu 生成，動圖經過壓縮。圖/生數科技

雖然相比 Sora 那段少了很多震撼和細節展示，但不管是皮衣的質感，還是路面的反射和倒影，Vidu 其實都展現了非常有說服力的效果。

更重要的是，背景、人物主體是一致的，并沒有在前后發生大的變形或變化。

類似的表現還出現在其他生成視頻上。

比如開車這一段，鏡頭一直跟隨著汽車前移，但路旁的樹木和汽車主體始終沒有發生變化，并不像很多擴散模型一樣，這一秒和下一秒的主體都可能出現明顯的差異。

Vidu 生成，動圖經過壓縮。圖/生數科技

不過在保真度上，Vidu 還是和 Sora 有比較明顯的差距。相似的提示詞（內容）下，Sora 開車這一段的背景明顯更接近真實世界，用比較通俗的話講，Vidu 有點「油畫」。

Sora 生成，動圖經過壓縮。圖/ OpenAI

但顯然，Vidu 作為國產大模型，還是更懂中國。

Sora 在之前曾經生成過一段街頭「舞龍」的視頻，而 Vidu 干脆直接生成了一段「真龍」的視頻，背景是輝煌的宮殿群。

Vidu 生成，動圖經過壓縮。圖/生數科技

如果 Sora 的重點與其說是舞龍，實則更像展現「圍觀群眾」的驚人模擬，那 Vidu 就是真真正正模擬了一條龍。

此外，Vidu 還生成了一段「熊貓在湖邊彈吉他」，除了主體上的擬真，背景部分的草地、湖水都相當程度地「真實」。

Vidu 生成片段截圖，非動圖。圖/生數科技

在人物生成上，Vidu 也有一組畫面充分展示了它的實力，從面部表情、眨眼到抬頭，都非常接近實拍鏡頭。就算比起 Sora 的人物鏡頭，也不遜色多少。

Vidu 生成，動圖經過壓縮。圖/生數科技

另外考慮到要參與視頻內容制作流程，這類文生視頻模型也繞不開「鏡頭調度」的能力，事實是 Vidu 依然展示了相當不錯的水平。

總的來說，雖然有 Sora 珠玉在前，但從目前公布的生成視頻來看，Vidu 依然展示了極高的視頻生成能力，或者說是模擬物理世界的能力。或許在生成復雜畫面、保真度等方面還差 Sora，但有一些鏡頭完全稱得上可用，這已經是一個很大的進步。

當然，Sora 的反方向跑步，Vidu 的「人物」突然長出第三條腿，都說明即便 AI 在視頻生成領域有了跨越性的進步，仍然還有很大的提升空間。

突然出現的第三條腿。圖/生數科技

正如 OpenAI 在 Sora 發布之初承認的，這類模型當前存在一定的局限性，比如無法模擬復雜場景的物理效應，理解某些特定因果關系等。

二、好飯不怕晚：如何制造 Vidu？

看起來，Vidu 就好像 Sora 一樣橫空出世，以相當驚艷的表現引起刷屏，而且同是基于對 Transformer 與 Diffusion 架構的融合。但很多人并不知道，生數科技聯合創始人兼 CEO 唐家渝上個月就透露過：

「今年內一定能達到 Sora 目前版本的效果。」

不僅如此，這家幾乎可以算是從清華大學人工智能研究所「孵化」出來的初創公司，在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架構，比 OpenAI 提出 DiT 架構（Sora 的底層架構）還要早。

甚至因為發布時間更早，計算機視覺頂會 CVPR 2023 提前收錄了清華大學的 U-ViT 論文，而以「缺乏創新」為由拒絕了 OpenAI DiT 論文。

但總的來說，這兩家公司的思路大體一致。

目前市面上大部分視頻生成模型都是基于 Diffusion 架構的擴散模型，比如 Stable Video Diffusion。OpenAI 和生數科技則是引入大語言模型底層的 Transformer 架構，在一定程度上，解決了文生視頻一直以來前后一致性和視頻長度過短的問題。

Vidu 生成，動圖經過壓縮。圖/生數科技

所以在 Sora 和 Vidu 生成的視頻中，你可以說有很多不完美，但在保證主體和背景一致性上，它們都有了實質性的飛躍，幾乎不會看到有人物邊走邊變形的情況，背景不會時刻在變，場景也不會在沒有任何轉場的情況下突變。

不過很多人可能還有一個問題：明明更早提出融合架構，生數科技為什么更慢？甚至效果還差一些？

事實上不難理解。要知道，生數科技正式成立于 2023 年 3 月，雖然在不久后獲得了阿里、百度、字節等公司和機構的多輪融資，但最多也就融到數億。相比之下，OpenAI 背靠微軟，在算力、數據、資金、人才等方面都有著更大的優勢。

同時，這也會影響到 Sora 和 Vidu 完全不同的發展路徑。

在接受 WSJ 記者采訪時，OpenAI 首席技術官 Mira Murati 公開表示，Sora 最快將會在今年年內面向公眾推出?？紤]到 Sora 生成視頻需要的海量算力，外界估計，可能將有限度地率先開放給 ChatGPT Plus 用戶。

而據唐家渝表示，生數科技目前要走兩條路。

一是打造覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型，面向 B 端提供模型服務能力；二是自己面向圖像生成、視頻生成等場景打造垂類應用，面向游戲制作、影視后期等需求提供訂閱制收費服務。

寫在最后

Sora 剛發布的時候，國內一片驚嘆，又是一片哀嚎。

360 創始人周鴻祎說，Sora 將人類實現 AGI（通用人工智能）的時間從 10 年拉小到了 1-2 年，同時也進一步拉大了中美在 AI 領域的差距。還有更多人認為，盡管國內大模型眾多，做視頻模型的也不少，卻看不到一個能夠追趕 Sora 的競爭對手。

而 Vidu 的發布，至少再次證明了一切皆有可能。但如果說 Sora 的發布是一個開始，那我相信 Vidu 不是結束，「甚至不是結束的開始。但這也許是開始的結束?！?/p>

編輯：冬日果醬；來源：雷科技AI硬件組

來源公眾號：雷科技（ID：leitech），聚焦科技與生活。

本文由人人都是產品經理合作媒體 @雷科技授權發布。未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

雷科技

專注AI硬科技

147篇作品 607752總閱讀量

07-176275 瀏覽

10-056999 瀏覽

04-262262 瀏覽

12-017342 瀏覽

03-066606 瀏覽

評論

??

1

最近來自廣東回復

中國版Sora來了！Vidu是何方神圣？

一、對標 Sora，Vidu 還差「一點」

二、好飯不怕晚：如何制造 Vidu？

寫在最后

中國版Sora來了！Vidu是何方神圣？

一、對標 Sora，Vidu 還差「一點」

二、好飯不怕晚：如何制造 Vidu？