欧美天天综合色影久久精品 ,婷婷伊人久久大香线蕉AV

中文字幕无码av不卡一区,亚洲综合AV永久无码精品一区二区,黑人巨大白妞出浆,黄色高清无码免费看,久久久久免费精品国产,久久无码人妻丰满熟妇区毛片,欧美日韩国产综合草草,久久福利网站,亚洲一区二区三区中文字幕在线,av国内精品久久久久影院

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

能看懂的Sora實現原理

楠説

2024-02-26

1 評論 1589 瀏覽 6 收藏

14 分鐘

近幾日，OpenAI發布視頻生成模型Sora，各大自媒體的營銷內容更是為Sora增加了神秘色彩。本文詳細闡述了Sora實現原理，希望對你有所幫助。

近幾日，關于OpenAI發布視頻生成模型Sora的消息甚囂塵上，各類自媒體的營銷內容更為Sora增加了神秘色彩。

就說Sora有多火吧，生成的視頻上線一個，瘋傳一個。

能看懂的Sora實現原理

人類向貓王朝拜

能看懂的Sora實現原理

無人機穿越古建筑

明顯能看出來Sora生成的視頻中的各項細節都讓人驚嘆，一如去年的ChatGPT，Sora被認為是AGI（通用人工智能）的又一個里程碑時刻。

然而，大眾所看到的文生視頻也僅僅是一個表象而已，Sora模型之所以如此轟動，并不只是因為AI生成的視頻時間更長、清晰度更高，而是OpenAI已經超越過去所有AIGC的能力，生成了一個與真實物理世界相關的視頻內容。

在OpenAI官方出具的技術報告中，對Sora的定位是“作為世界模擬器的視頻生成模型”，“我們的研究結果表明，擴展視頻生成模型是構建物理世界通用模擬器的一條可行之路?！?/strong>

由于Sora的技術原理和細節尚未公開，而Sora也沒有進行公測。我僅從現有OpenAI公布的的技術報告以及AI領域的專家和學者對其分析來了解Sora如何是處理多樣化視覺數據的，我會用通俗的語言和一些好理解的例子來解釋Sora是如何完成視頻創作的。

在這之前，我們先想一下我們自己是如何理解這個世界？

當你日常從各類渠道或者新聞媒體，短視頻平臺上獲取信息時，即使沒去過的地方，沒見過人或物。盡管你所掌握的這些信息內容和風格各異，但你仍能在需要時輕松地辨識提取每一個信息片段（Token），因為你的大腦能夠將這些不同的視覺信息統一理解。所以你可以通過獲取的信息并在腦海里構想物品或者畫面；你可以在夢境中見到從未見過的人或物；你甚至在夢境中可以出現一些違背物理常識體驗，比如自己在空中騎著掃帚飛。

現在，讓我們將這個過程與Sora處理多樣化視覺數據的方式進行對比。Sora首先通過自學習理解來自世界各地、不同設備拍攝的數以百萬計的圖片和視頻。這些視覺數據在分辨率、寬高比、色彩深度等方面都存在差異。為了讓Sora能夠像人類大腦那樣理解和生成這么豐富的視覺內容，OpenAI開發了一套將這些不同類型視覺數據轉換為統一表示形式的方法。

對，沒錯，Sora就是像人理解世界一樣去構建模擬一個屬于Sora的世界。不同于 Runway 、Stable Video Difusion 等擴散模型主要采用經典的 U-Net架構，Sora 用 Transformer 架構替換 U-Net 架構，大幅提升模型擴展性。

Sora 的訓練受到了大語言模型（Large Language Model）的啟發。這些模型通過在互聯網規模的數據上進行訓練，從而獲得了廣泛的能力。——引自OpenAI對Sora模型技術報告詳解

首先，Sora通過“視頻壓縮網絡”。

技術，將這些輸入壓縮為較低維度的表示形式。隨后，這些壓縮數據被進一步分解為“空間時間潛在補丁”（Spacetime Patches）并處理為一致的格式。在接收到我們的文本條件，即最小信息片段（Token）后，Sora通過理解這些信息片段，從時間和空間維度逐步勾勒出視頻畫面。

請注意，上述無論是通過該“視頻壓縮網絡”技術對輸入進行壓縮的過程，還是進一步分解為“空間時間潛在補丁”（Spacetime Patches）的過程。這并不意味著會忽略原始數據的獨特性，而是將它們轉換成一個對Sora來說更容易理解和操作的格式。而分解補丁則可以看作是視覺內容的基本構建塊，就像是我們把一副拼圖打散后，拼圖的每一塊卡片都是包含獨特景觀、顏色和紋理的小片段。這樣，不管原始視頻的長度、分辨率或風格如何，Sora都可以將它們處理成一致的格式。

這就像你在將拼圖復原時，盡管拼圖卡片有幾千個之多，但你依然能通過已有的參照和相同的方式去復原它們。

上面我們闡述了Sora如何對輸入進行分解到最基本的構建塊“空間時間補丁”（Spacetime Patches），接下來我們順著這一概念來探討Sora如何根據文本提示生成內容的機制。這一過程核心依賴于一種名為“文本條件化的Diffusion模型”。

現在設想你手握一本繪畫本，初始時，本子上僅有一些雜亂無章的線條，看似毫無意義。然而，當被告知主題，例如“描繪一座花園”時，你腦海中便會自發地搜索與“花園”相關的所有信息片段。接著，你將這些零散的信息逐步呈現在繪畫本上，并不斷修改和優化已有的筆觸。最終，這些混亂的線條漸變為一幅精致的花園畫卷。在此過程中，“指定的主題”類比為文本提示，而你逐步完善草稿的過程則與Diffusion模型的運作方式相似。

就像你畫一幅“花園”時，這個過程并不是一蹴而就的，而是通過數百個漸進的步驟完成的，每一步都會讓視頻離最終目標更進一步。這種方法的一個關鍵優勢在于其靈活性和創造性：同一段文本提示，通過不同的噪聲初始狀態或通過稍微調整轉化步驟，可以生成視覺上截然不同、但都與文本提示相符的視頻內容。這就像是多個畫家根據同一主題創作出風格各異的畫作。通過這種基于文本條件的Diffusion模型，Sora不僅能生成具有高度創造性的視頻和圖片，還能確保生成內容與用戶的文本提示保持高度一致。

具體到Sora的實現，這個過程開始于一段與目標視頻同樣時長、但是內容完全是隨機噪聲的視頻?？梢园堰@段噪聲視頻想象成草稿本上那些毫無意義的線條。隨后，Sora根據給定的文本提示（比如“一只小狗站在草坪上，伸著舌頭”）開始“涂改”這段視頻。在這個過程中，Sora利用了大量的視頻和圖片數據學習到的知識，來決定如何逐步去除噪聲，將噪聲視頻轉變成接近文本描述的內容。

這種處理多樣化視覺數據的能力，使得Sora在接收到如‘一只小狗站在草坪上，伸著舌頭’類似這樣的文本提示時，正如OpenAI的技術報告中提到“Sora 的訓練受到了大語言模型（Large Language Model）的啟發。這些模型通過在互聯網規模的數據上進行訓練，從而獲得了廣泛的能力。”使得Sora不僅能理解這個提示背后的意圖，還能利用它的內部表示形式，綜合利用不同類型的視覺信息，生成與文本提示相匹配的視頻或圖片。就好比是從全世界的視覺數據中找到那些能夠拼湊出你想象中的“一只小狗站在草坪上，伸著舌頭”場景的片段，并將它們組合起來，創造出一個全新的視覺作品。

引自《Scalable Diffusion Models with Transformers》論文

文本條件化的Diffusion模型賦予了Sora強大的理解和創造力，讓它能夠跨越語言與視覺之間的障礙，將抽象的文字描述轉化成具體的視覺內容。這一過程不僅展示了AI在理解自然語言方面的進步，也開辟了視頻內容創造和視覺藝術領域的新可能性。

而其他文生視頻的平臺如Runway、Pika等還停留在通過像素來構建視頻畫面，這也是為什么其他像Runway，Pika等生成的視頻扭曲會這么嚴重的原因，他們僅僅是通過讓靜態圖片的部分元素動起來進而生成視頻的。

Sora生成的小狗玩雪活靈活現，而Runway則是像定格動畫

以上我用?通俗的語言解??釋了Sora的原理和與其他平臺的差異。先不用管上述描述中一些陌生的概念，你只需要用你是如何理解這個世界的方式來理解Sora的實現原理，當?然Sora的原理也不僅僅是如我所說的這么簡單，我只是在已有研究的基礎上，通過這幾天的學習和理解加上一些生活中的例子來試圖解釋S??ora。

?????這次 Sora 的發布又讓很多人對 AGI 的實現更加樂觀了。360董事長周鴻祎作出預判——Sora的發布意味著AGI實現將從10年縮短到1年。

Sora的發布是否會真正開?啟AGI（Artificial General Intelligence 人工通用智能）時代的大門，我們還不可知。但是肯定會對視頻制作，游戲畫面等行業產生影響，試想一下以往制作一部電影制作特效需要花費的時間和人力以及制作游戲需要對游戲世界進行建模，模擬真實世界的物理規律，這些雖然我們已經可以做到，但是是通過一種最笨的方式去構建我們想象的世界的樣子，但是Sora在大語言模型的基礎上，以一種全新的思路為我們提供了另一種方式來構建和模擬真實世界，而且這種方式還是更簡單，更快捷的。??

正如OpenAI 技術報告的結尾是一個《我的世界》的游戲視頻，旁邊寫著這樣一句話：“ Sora可以通過基本策略同時控制Minecraft中的玩家，同時高保真地呈現世界及其動態。只需在Sora的提示字幕中提及‘Minecraft’，就能零距離激發這些功能。??

Sora 如果真能實現對物理世界的模擬、能夠跟 LLM 代表的虛擬世界無縫融合，那它必然是通往 AGI 路上的里程碑。

今天就寫這么多吧。手動碼字，還請點個贊吧?。?/p>
本文由@楠説原創發布于人人都是產品經理，未經作者許可，禁止轉載。

題圖來自Sora文生視頻演示截圖

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

Sora 大語言模型實現原理文生視頻視頻畫面

視頻生成模型：Sora文章被收錄于該專欄

共 13 篇文章12069 人已學習

楠説

產品，健身所思所想

2篇作品 3645總閱讀量

為你推薦

欲罷不能的微短劇何去何從

12-14968 瀏覽

從苦情戲直播到“免費”評書機，為什么騙子專盯老年人？

03-194917 瀏覽

人美聲甜GPT，數學題哪里不會講哪里

04-211983 瀏覽

90%品牌的「IP營銷」都在瞎搞，這個品牌卻火到全球！

03-095757 瀏覽

互聯網上演出來的東西，別當真

09-124652 瀏覽

評論

評論請登錄

超超

以后會不會出現一個直接說出需求繪制原型圖的AI

最近來自河南回復

為你推薦

【AI公開課】互聯網職場人的基本素養“數據分析”，如何被 AI 重塑？

11-281272 瀏覽

客戶洞察，真不是“洞察”這么簡單（一）

02-058784 瀏覽

北上廣的年輕人，在深夜蹲點搶剩菜盲盒

06-072402 瀏覽

快訊
查看更多

熱門文章

AI行動派：我寫了一個解放雙手的瀏覽器插件，更高效的使用騰訊文檔

01-02

AI創新加速：揭秘Coze、元器、Dify、千帆、百煉如何推動Agent開發新紀元

01-05

騰訊音樂網易云混戰多年，會被汽水音樂“摘果子”嗎？

01-17

2024的沉淀：創業第二年，磨出3條思考

01-02

戲說互聯網產品：產品和運營到底哪個重要？

01-15

回滾，是產品經理都可能經歷的痛！

01-05

關于
人人都是產品經理（woshipm.com）是以產品經理、運營為核心的學習、交流、分享平臺，集媒體、培訓、社群為一體，全方位服務產品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產品經理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網易等知名互聯網公司產品總監和運營總監，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產品經理導航

起點課堂

豬八戒網

人才熱線

伙伴云表格

網易易盾

個推

友盟+

糧倉

創業邦

每日報告

鳥哥筆記

慕課網

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產品經理 - 粵ICP備14037330號-粵公網安備 44030502001309號
 廣播電視節目制作經營許可證（粵）字第03109號增值電信業務經營許可證粵B2-20190788 版權所有 ? 深圳聚力創想信息科技有限公司