欧洲精品码一区二区三区,亚洲精品国产v片在线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

剛發布就被對標Sora，這個國產模型來頭這么大？

差評

2024-04-30

0 評論 836 瀏覽 5 收藏

11 分鐘

在AI視頻生成領域，國產模型Vidu以其驚人的真實度和創新能力引起了廣泛關注。Vidu能夠根據簡短的提示詞生成長達16秒的逼真視頻，其效果足以媲美Sora，甚至在某些方面超越了它。讓我們跟隨作者的視角，一起來看看吧。

前幾天，世超上網沖浪的時候，刷到了幾個 AI 視頻片段。

大船駛來的壓迫感，被風吹起的發絲和絲巾，太空人直接走進現實菜園。。。一幕幕把我看得是一愣一愣的。

真實度也是一絕，在湖邊隨著鏡頭移動，不僅光線跟著變化，連天空、樹木的變化都跟咱肉眼看到的沒差。

要不是右下角有水印，我還差點以為是 Sora 的視頻又上新了。

所以這次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那幾個 Sora 競品，而是初出茅廬的國產視頻大模型 Vidu 。

咱看到的那些視頻，就是前幾天， Vidu 在中關村論壇的人工智能主題日上公布的。

它最長能生成16秒，一句“木頭玩具船在地毯上航行”的提示詞，就能生成下面這長長的一段，一鏡到底的絲滑程度，怕是路過的謀子導演看了都會點贊。

Sora號稱能真實模擬物理世界的拿手戲， Vidu 照樣也能實現。

讓它生成一段“汽車加速駛過森林里鄉間小路”的視頻，像是樹林縫隙透過的陽光，后輪揚起的灰塵，都很符合咱們的日常認知。

而且 Vidu 的想象力比咱人還要豐富，畫室里的一艘船駛向鏡頭的場景，它分分鐘就能給“拍”出來，看這效果，不知道該有多少動效師瑟瑟發抖了。

甚至在某些提示詞下， Vidu 的理解能力比 Sora 還強，比如“鏡頭繞著電視旋轉”的提示詞， Sora 壓根兒就沒 get 到旋轉的意思，反而是 Vidu 能輕松理解。

有一說一，在看完 Vidu 的這些視頻后，世超是真覺得它是目前市面上，唯一一個能在畫面效果上和 Sora 拼一拼的模型。

雖然現在 16 秒的 Vidu 在時長上還比不上 60秒的 Sora ，但它的進步也確實是肉眼可見的快，據極客公園消息，上個月， Vidu 在內部只能生成 8 秒的視頻，上上上個月，還只能生成 4 秒的視頻。

反正媒體們都把 Vidu 比作是“ Sora 級視頻大模型”，網友們也都在評論區喊話催他們趕緊開放內測。

不過這里面世超更好奇的是，咱之前壓根兒都沒聽說過 Vidu ，怎么突然平地一聲雷，搞出了這么大的陣仗？

我們也順藤摸瓜找了找資料，發現Vidu身上，值得說道的東西還挺多，甚至仔細咂摸下，還能從Sora身上找出點Vidu的影子來（世超可沒說反）。

它背后是一家名叫生數科技的公司，別看這個公司才剛滿一周歲，但它可是在娘胎里就開始攢勁兒了。因為它的親媽，是清華系AI 企業瑞萊智慧，背后的研究團隊，幾乎全是這里面的人。

而在成立生數科技之前，團隊就已經把視頻大模型研究得很深入了。

尤其是在圖像生成這塊很火的擴散（Diffusion）模型，他們算是業內第一批研究這個模型的，整出來的論文也在 ICML 、 NeurIPS 、 ICLR 各種頂會發了個遍。

正是因為有這么好的底子，早在2022年9月的時候，團隊就找到了做 Vidu 的靈感，就是下面這篇論文。

世超讓AI幫咱解讀了下，大概的思路就是，擴散模型在生成圖像這塊挺強，而大語言模型里用的Transformer有個規模（Scale）效應，參數堆得越多，性能就越好。團隊就想著，能不能把這兩個的優點結合一下，整個融合架構，提升圖像生成的質量。

于是他們轉頭把擴散模型里面的 U-Net 給換成 Transformer ，還起了個名字叫 U-ViT （ Vision Transformers ）。結果試下來發現這么一結合還真有用，光是相同大小的 U-ViT ，性能就比 U-Net 強了。

那好嘛，既然這條路走得通，他們也順勢把技術路線定在了 U-ViT 上。

然鵝。。。在團隊悄悄醞釀 Vidu 的時候，大洋彼岸的UC伯克利的一個研究，卻讓 OpenAI 的 Sora 捷足先登了。

就在清華小分隊提交論文的兩個月后，UC伯克利也在預印平臺ArXiv上提交他們的論文了，一樣說要把Transformers揉在擴散模型里面，只不過名字起的更直白了點，叫DiT（ Diffusion Transformers ）。

看著是不是挺眼熟，沒錯， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技術路線。

但因為清華小分隊早發了兩個月，當年的計算機視覺頂會CVPR 2023還以“缺乏創新”的由頭，拒了 Sora 的 DiT ，收錄了 U-ViT 。

而且早在2023年年初的時候，清華小分隊還用U-ViT，訓練出了一個近10億參數量的開源大模型 UniDiffuser 。

算是第一個用行動證明了，融合架構也遵守 Scaling Law 這一套規則，也就是說隨著計算量、參數量越來越大，模型的性能就會隨指數級上升。而這個 Scaling Law ，同樣也是 Sora 這么強的秘密武器。

所以照這么來盤算，Sora其實還得叫Vidu一聲祖師爺才對。。。

但現實世界卻是， DiT 被 OpenAI 帶著一路飛升。

清華小分隊呢，計算資源沒 OpenAI 那么到位，也沒 ChatGPT 這種珠玉在前，總之就是啥啥都不完善，他們只能慢慢來，先做圖像、 3D 模型，等有家底兒了，再去做視頻。

好在他們身上還是有點實力在的，穩扎穩打慢慢也趕上來了。去年 3 月，清華小分隊們成立了生數科技后，就在馬不停蹄地搞自家的產品，現在圖像生成和 3D 模型生成大伙兒都能免費用了。

并且靠著這兩個產品，剛滿一周年，它就攢了好幾億的家底。

像是成立 3 個月的時候，就完成了一波近億級的天使輪投資，上個月，又完成了新一輪的數億元融資。參與投資的，也都是智譜 AI 、 BV 百度風投等等業內大佬。

反正看這波架勢， Vidu 還真有可能成為國內的黑馬，去對標 OpenAI 的 Sora 。

不過生數科技那邊，倒是覺得只把 Vidu 看作國產版的 Sora ，實在是有點缺乏想象力了，因為他們給 Vidu 的定位，可不僅僅是個視頻模型，而是圖、文、視頻全都要，只不過現在視頻暫時是重點。

當然了，好聽話誰都會說，能不能搞出來，咱還得實打實地看成品。

世超已經去排了隊，等拿到內測資格，再跟大伙兒同步一波。。。

圖片、資料來源：

Scalable Diffusion Models With Transformers

All are Worth Words：A ViT Backbone for Diffusion Models

機器之心，專訪生數科技唐家渝：清華系團隊拿到上億融資，用Transformer來做多模態大模型

界面新聞，生數科技完成新一輪融資，國內多模態大模型廠商著力追趕Sora

極客公園，國產 Sora 的秘密，藏在這個清華系大模型團隊中

新智元，圖靈諾獎得主等大佬齊聚海淀！清華版Sora震撼首發，硬核AI盛會破算力黑洞

撰文：松鼠；編輯：江江 & 面線

來源公眾號：差評（ID：chaping321），Debug the World。

本文由人人都是產品經理合作媒體 @差評授權發布，未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協議。

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

差評

Debug the World

95篇作品 300312總閱讀量

用一篇文章講清楚：如何設計線上患者健康管理產品

12-132800 瀏覽

ChatGPT是云計算的iPhone時刻

03-162567 瀏覽

9.9元AI寫真“敲醒”了三群人，一次公眾隱私意識的覺醒

07-262929 瀏覽

產品信息架構梳理如何入手？

12-251603 瀏覽

“買了個寂寞”的店鋪，有近萬人在這里尋開心

07-122538 瀏覽

評論

目前還沒評論，等你發揮！

剛發布就被對標Sora，這個國產模型來頭這么大？

剛發布就被對標Sora，這個國產模型來頭這么大？