国产一区二区精品久久,一区二区三区无码av

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

Sora，實現Vision Pro“空間視頻”自由？

VR陀螺

2024-02-20

1 評論 2946 瀏覽 2 收藏

13 分鐘

就在最近，OpenAI宣布推出首個文生視頻大模型——Sora，圍繞Sora的話題討論有很多，更有網友將OpenAI的案例視頻轉化成了適用Vision Pro的空間視頻。有關空間視頻的未來想象，也再一次被拓寬了邊界。

Sora 的問世，將接近尾聲的春節假期推向高潮，讓互聯網的帕魯們提前進入“工作狀態”。

當地時間 2 月 16 日，OpenAI 宣布推出首個文生視頻大模型——Sora，該模型可以“根據文本指令創建逼真且富有想象力的場景”，并且最長可達一分鐘。

Prompt：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅，她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果，許多行人走來走去。

圖源：網絡

在官方展示的宣傳視頻中，很難想象這是 AI 大模型生成的效果，如此極具時尚風格的人物、光影交錯的街道背景，熙熙攘攘的行人，仿佛從大制作的電影中走出來一般。

圍繞 Sora 的話題討論不絕，在其生成內容的基礎上，有 github 網友@AndrewMayne 將 OpenAI 案例視頻轉化成了適用 Vision Pro 的空間視頻。github 視頻下載地址：https://github.com/AndrewMayneProjects/Spatial

一、通過雙目視差轉換，用Sora彌補空間視頻空白

AndrewMayne 創建了兩個視頻軌道，一個用于左眼，一個用于右眼，并根據視頻移動的方向稍微改變了軌道的時間。這會創建模擬立體 3D 效果，并且僅適用于存在橫向運動的視頻。

為了將視頻轉換為適用于 Vision Pro 的 Apple Spatial 視頻格式，其使用了 Mike Swansons 的空間視頻轉換工具（ https: //blog.mikeswanson.com/spatial）。

據介紹，Spatial 是一款免費的 macOS 命令行工具，用于處理 MV-HEVC 視頻文件（目前由 iPhone 15 Pro 和 Apple Vision Pro 拍攝形成）。它將 MV-HEVC 文件導出為常見立體格式（例如上/下、左右以及單獨的左眼和右眼視頻），可與標準立體/3D 播放器和視頻編輯器一起使用。它還可以制作相同立體格式的 MV-HEVC 視頻，以便在 Apple Vision Pro 和 Meta Quest 等 XR 硬件設備上播放。

圖源：網絡

在 Apple Vision Pro 上的實際體驗也相當不錯，雙目視差帶來的立體感，在海浪的沖擊中帶來更加身臨其境的體驗。在不追求非常細致的視覺效果下，憑借批量化、高效率的 Sora 生成的 AI 視頻可以有效填補空間視頻的空白市場。

目前，在大多數體驗 Apple Vision Pro 的用戶中，公認的最熱門，甚至說是殺手級應用，其實是附帶 3D 深度效果的“空間視頻”。比如：蘋果一方應用：《遇見恐龍》(Encounter Dinosaurs) ，3D 深度內容+混合現實的場景，帶來了一聲聲“哇哦”。這種區別于傳統文字、圖片、視頻的新內容形式，正在得到大家喜愛。

空間視頻體驗截圖（圖源：VR陀螺）

目前，Sora 的 AI 生成視頻還處于較為早期的階段。OpenAI 也承認當前模型存在弱點，例如混淆左右或因果等空間細節。例如，一個人可能咬了一口餅干，但之后餅干可能沒有咬痕。在擴展普通左右視差的空間視頻方面，理論上僅僅只是時間問題。

對于三維信息的視頻內容，OpenAI 在官網的 Sora 中也有相關的介紹：

我們發現，視頻模型在大規模訓練時表現出許多有趣的新興功能。這些功能使 Sora 能夠模擬現實世界中人、動物和環境的某些方面。這些屬性的出現對 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現象。

其中包括：3D 一致性。Sora 可以生成帶有動態攝像機運動的視頻。隨著攝像機的移動和旋轉，人和場景元素在三維空間中一致移動。

事實上，這種類似于第一人稱的拍攝手法，可以帶來更深層次的“空間感”，即使在轉換空間視頻之前的 2D 視頻，依舊擁有一定沉浸感。

二、iPhone、Vision Pro、AIGC，誰是空間視頻最佳工具？

雖然 Sora 生成的 AI 視頻通過轉換后可適用于 Vision Pro，不過仔細對比之下，可以發現其于蘋果官方支持的拍攝工具之間，還是存在些許差異。

分辨率方面：Vision Pro 與 iPhone 15 Pro 拍攝的空間視頻為特定分辨率，分別為 2200×2200（方屏）、1920×1080（寬屏），而 Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080×1920 視頻以及介于兩者之間的所有視頻。

幀率方面：可以發現蘋果官方拍攝的兩種工具的空間視頻皆為動態幀率（VFR），即擁有最低幀率與最高幀率。用 iPhone 拍攝的普通 HDR 視頻，以及 Sora 轉換后的空間視頻都是恒定幀率（CFR）。

相關資料顯示：靜態幀率是指固定的幀率，即每秒顯示的圖像幀數。這意味著在每一幀之間的時間間隔是固定的，并且不會隨著畫面的復雜度和性能的變化而變化。動態幀率則相反，它是可變的。它根據畫面的復雜度和當前的硬件配置進行調整，以確保每秒顯示的幀數始終保持在一個可接受的范圍內。動態幀率可以提高視頻的流暢度，減少視頻的文件大小和傳輸帶寬要求。

當然，即使空間視頻采用動態幀率，因為深度信息等原因，內存占用方面依舊對比普通視頻多兩倍左右。

圖源：VR陀螺

視差體驗方面：參考 reddit 部分用戶，以及陀螺君的實際體驗來看，Vision Pro 拍攝的空間視頻似乎更具“空間感”。

除上述圖片對比中的基礎信息外，有觀點認為這還與拍攝設備的兩顆鏡頭距離相關。

iPhone 15 Pro 的鏡頭間距約為 20 毫米，僅為成人瞳距的三分之一左右。因此，理論上使用 iPhone 15 Pro 拍攝的空間視頻，只能獲得與小狗類似的視差和深度感知。（不排除蘋果通過算法改善，以形成更大視差的空間視頻）

而 Vision Pro 的攝像頭間距更接近成人 IPD，可能約為 60-65 毫米，因此事物將具有與成人現實生活相似的深度和視角。再加之頭戴式“第一人稱”拍攝視角，在實際觀看中，也就更加身臨其境了。

圖源：網絡

單從空間視頻相關參數、以及實際觀影 3D 深度、清晰度效果來看，作為原生工具的 Vision Pro 顯然更勝一籌。雖是方形，但是其視覺深度效果好于 iPhone 15 Pro 拍攝與 Sora 等普通視頻轉換后的空間視頻，似乎相比之下，層次感更多一些（僅肉眼感知）。

而 iPhone 15 Pro 的優勢則主要體現在其便攜性上，隨時隨地可以拍攝空間視頻。實際在 Vision Pro 上觀看的沉浸感效果與清晰度也相當不錯，遠遠大于在手機上直接觀看的形式，層次感也比較分明。并且通過 AirDrop 還能一鍵投送到 Vision Pro 上，傳輸方式暴力簡單。

Sora 等 AI 大模型生成的視頻、普通視頻通過轉換后，雖然也有一定層次與深度感，但在實際觀看時，總有一種說不出的違和感，就像是你在看 3D 電影那樣，有一定沉浸感，但放大后并不是很特別清晰與沉浸。當然，這可能取決于不同的視頻內容，它們會產生不同的觀感。正如前面說到的第一人稱視角那樣，也許更適合做空間視頻。AI 大模型生成視頻，是一個大趨勢，特別是在市場空白的空間視頻上，AI 使之能夠具備量產化、定制化、低門檻的賦能。

P.s.:由于空間視頻在 2D 平面上較難展示三維信息，所以下方圖片僅供參考，用于展示三種形式拍攝的視頻在 Vision Pro 上的播放：