Sora,實現Vision Pro“空間視頻”自由?

1 評論 2709 瀏覽 2 收藏 13 分鐘

就在最近,OpenAI宣布推出首個文生視頻大模型——Sora,圍繞Sora的話題討論有很多,更有網友將OpenAI的案例視頻轉化成了適用Vision Pro的空間視頻。有關空間視頻的未來想象,也再一次被拓寬了邊界。

Sora 的問世,將接近尾聲的春節假期推向高潮,讓互聯網的帕魯們提前進入“工作狀態”。

當地時間 2 月 16 日,OpenAI 宣布推出首個文生視頻大模型——Sora,該模型可以“根據文本指令創建逼真且富有想象力的場景”,并且最長可達一分鐘。

Prompt:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅,她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果,許多行人走來走去。

圖源:網絡

在官方展示的宣傳視頻中,很難想象這是 AI 大模型生成的效果,如此極具時尚風格的人物、光影交錯的街道背景,熙熙攘攘的行人,仿佛從大制作的電影中走出來一般。

圍繞 Sora 的話題討論不絕,在其生成內容的基礎上,有 github 網友@AndrewMayne 將 OpenAI 案例視頻轉化成了適用 Vision Pro 的空間視頻。github 視頻下載地址:https://github.com/AndrewMayneProjects/Spatial

一、通過雙目視差轉換,用Sora彌補空間視頻空白

AndrewMayne 創建了兩個視頻軌道,一個用于左眼,一個用于右眼,并根據視頻移動的方向稍微改變了軌道的時間。這會創建模擬立體 3D 效果,并且僅適用于存在橫向運動的視頻。

為了將視頻轉換為適用于 Vision Pro 的 Apple Spatial 視頻格式,其使用了 Mike Swansons 的空間視頻轉換工具( https: //blog.mikeswanson.com/spatial)。

據介紹,Spatial 是一款免費的 macOS 命令行工具,用于處理 MV-HEVC 視頻文件(目前由 iPhone 15 Pro 和 Apple Vision Pro 拍攝形成)。它將 MV-HEVC 文件導出為常見立體格式(例如上/下、左右以及單獨的左眼和右眼視頻),可與標準立體/3D 播放器和視頻編輯器一起使用。它還可以制作相同立體格式的 MV-HEVC 視頻,以便在 Apple Vision Pro 和 Meta Quest 等 XR 硬件設備上播放。

圖源:網絡

在 Apple Vision Pro 上的實際體驗也相當不錯,雙目視差帶來的立體感,在海浪的沖擊中帶來更加身臨其境的體驗。在不追求非常細致的視覺效果下,憑借批量化、高效率的 Sora 生成的 AI 視頻可以有效填補空間視頻的空白市場。

目前,在大多數體驗 Apple Vision Pro 的用戶中,公認的最熱門,甚至說是殺手級應用,其實是附帶 3D 深度效果的“空間視頻”。比如:蘋果一方應用:《遇見恐龍》(Encounter Dinosaurs) ,3D 深度內容+混合現實的場景,帶來了一聲聲“哇哦”。這種區別于傳統文字、圖片、視頻的新內容形式,正在得到大家喜愛。

空間視頻體驗截圖(圖源:VR陀螺)

目前,Sora 的 AI 生成視頻還處于較為早期的階段。OpenAI 也承認當前模型存在弱點,例如混淆左右或因果等空間細節。例如,一個人可能咬了一口餅干,但之后餅干可能沒有咬痕。在擴展普通左右視差的空間視頻方面,理論上僅僅只是時間問題。

對于三維信息的視頻內容,OpenAI 在官網的 Sora 中也有相關的介紹:

我們發現,視頻模型在大規模訓練時表現出許多有趣的新興功能。這些功能使 Sora 能夠模擬現實世界中人、動物和環境的某些方面。這些屬性的出現對 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現象。

其中包括:3D 一致性。Sora 可以生成帶有動態攝像機運動的視頻。隨著攝像機的移動和旋轉,人和場景元素在三維空間中一致移動。

事實上,這種類似于第一人稱的拍攝手法,可以帶來更深層次的“空間感”,即使在轉換空間視頻之前的 2D 視頻,依舊擁有一定沉浸感。

二、iPhone、Vision Pro、AIGC,誰是空間視頻最佳工具?

雖然 Sora 生成的 AI 視頻通過轉換后可適用于 Vision Pro,不過仔細對比之下,可以發現其于蘋果官方支持的拍攝工具之間,還是存在些許差異。

分辨率方面:Vision Pro 與 iPhone 15 Pro 拍攝的空間視頻為特定分辨率,分別為 2200×2200(方屏)、1920×1080(寬屏),而 Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080×1920 視頻以及介于兩者之間的所有視頻。

幀率方面:可以發現蘋果官方拍攝的兩種工具的空間視頻皆為動態幀率(VFR),即擁有最低幀率與最高幀率。用 iPhone 拍攝的普通 HDR 視頻,以及 Sora 轉換后的空間視頻都是恒定幀率(CFR)。

相關資料顯示:靜態幀率是指固定的幀率,即每秒顯示的圖像幀數。這意味著在每一幀之間的時間間隔是固定的,并且不會隨著畫面的復雜度和性能的變化而變化。動態幀率則相反,它是可變的。它根據畫面的復雜度和當前的硬件配置進行調整,以確保每秒顯示的幀數始終保持在一個可接受的范圍內。動態幀率可以提高視頻的流暢度,減少視頻的文件大小和傳輸帶寬要求。

當然,即使空間視頻采用動態幀率,因為深度信息等原因,內存占用方面依舊對比普通視頻多兩倍左右。

圖源:VR陀螺

視差體驗方面:參考 reddit 部分用戶,以及陀螺君的實際體驗來看,Vision Pro 拍攝的空間視頻似乎更具“空間感”。

除上述圖片對比中的基礎信息外,有觀點認為這還與拍攝設備的兩顆鏡頭距離相關。

iPhone 15 Pro 的鏡頭間距約為 20 毫米,僅為成人瞳距的三分之一左右。因此,理論上使用 iPhone 15 Pro 拍攝的空間視頻,只能獲得與小狗類似的視差和深度感知。(不排除蘋果通過算法改善,以形成更大視差的空間視頻)

而 Vision Pro 的攝像頭間距更接近成人 IPD,可能約為 60-65 毫米,因此事物將具有與成人現實生活相似的深度和視角。再加之頭戴式“第一人稱”拍攝視角,在實際觀看中,也就更加身臨其境了。

圖源:網絡

單從空間視頻相關參數、以及實際觀影 3D 深度、清晰度效果來看,作為原生工具的 Vision Pro 顯然更勝一籌。雖是方形,但是其視覺深度效果好于 iPhone 15 Pro 拍攝與 Sora 等普通視頻轉換后的空間視頻,似乎相比之下,層次感更多一些(僅肉眼感知)。

而 iPhone 15 Pro 的優勢則主要體現在其便攜性上,隨時隨地可以拍攝空間視頻。實際在 Vision Pro 上觀看的沉浸感效果與清晰度也相當不錯,遠遠大于在手機上直接觀看的形式,層次感也比較分明。并且通過 AirDrop 還能一鍵投送到 Vision Pro 上,傳輸方式暴力簡單。

Sora 等 AI 大模型生成的視頻、普通視頻通過轉換后,雖然也有一定層次與深度感,但在實際觀看時,總有一種說不出的違和感,就像是你在看 3D 電影那樣,有一定沉浸感,但放大后并不是很特別清晰與沉浸。當然,這可能取決于不同的視頻內容,它們會產生不同的觀感。正如前面說到的第一人稱視角那樣,也許更適合做空間視頻。AI 大模型生成視頻,是一個大趨勢,特別是在市場空白的空間視頻上,AI 使之能夠具備量產化、定制化、低門檻的賦能。

P.s.:由于空間視頻在 2D 平面上較難展示三維信息,所以下方圖片僅供參考,用于展示三種形式拍攝的視頻在 Vision Pro 上的播放:

Vision Pro拍攝的空間視頻截圖(圖源:VR陀螺)

iPhone 15 Pro拍攝的空間視頻截圖(圖源:VR陀螺)

Sora 生成視頻空間版(圖源:VR陀螺)

三、結語

時代變革的鐘聲,似乎已經敲響。

Apple Vision Pro 帶來了空間計算革命的全新愿景,將人們的現實體驗提升到了一個全新的層次。通過結合 3D 空間場景與混合現實的內容展示形式,它不斷地挑戰和刷新人們對于視覺認知的界限。

從生成式人工智能文字對話工具 ChatGPT、圖像生成器 DALL-E,到視頻生成的王炸 Sora,OpenAI 正在重塑互聯網內容生產形式。

硬件+內容之間變革,正在加速走向交融的十字路口。

參考來源:

https://zhuanlan.zhihu.com/p/648353681

作者:VR陀螺

來源公眾號:VR陀螺(ID:vrtuoluo),XR行業垂直媒體,關注VR/AR的頭部產業服務平臺。

本文由人人都是產品經理合作媒體 @VR陀螺 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這個東西很厲害啊

    來自廣東 回復