Sora翻車引發對視頻生成AI的思考
隨著人工智能技術的飛速發展,視頻生成AI成為了當下科技領域的熱門話題。Sora,這款備受矚目的視頻AI大模型,在發布之初便吸引了眾多目光,被寄予厚望。然而,經過一系列的測試與對比,Sora的表現似乎并未達到預期,甚至在多個方面不如國產的可靈。
Sora已經發布快一個月了,小的結合公司內的業務進行了不少案例的測試,也逐漸對這個2月15日發布、被號稱“平等創飛每個人”的視頻AI大模型祛魅了,其綜合表現甚至不如國產的AI視頻(沒錯,就是指可靈)。
于是,我便打算將我測試過程中對Sora的評價、對其功能的思考小小匯總一下,形成這篇文章,與各位大佬分享一二。
一、Sora對比國內AI
目前整體測試起來,Sora在“指令遵循”、“畫面邏輯BUG”、“前后細節不一”、“前后畫風割裂”、“非真人畫風處理”等問題上都不如國產的視頻大模型可靈。
下面用一些例子來說明。(為了更清晰地對比兩者的能力,我還是會分“低”、“中”、“高”多個難度檔位進行測試,難度的提升以“控制主體數量”、“細節描述豐富度”、“動作復雜度”、“是否與場景互動”為大致的邊界。)
圖生視頻 – 案例一:人物奔跑
1. 低難度
左側為sora,右側為可靈
提示詞:
人物在奔跑
2. 中難度
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物在一片黑暗中奔跑
3. 高難度
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物在奔跑,背后煙霧繚繞
小結:
1.Sora似乎有自己的想法,對于上傳的圖片基本不會遵循,背景、人物都沒有很好地保持“一致性”。而可靈能很好地做到前后保持一致。
2.Sora生成的動作更活躍,動作連貫,不像可靈,生成的是慢動作的內容。
圖生視頻 – 案例二:孫悟空騰云駕霧
1. 低難度:
左側為sora,右側為可靈
提示詞:
人物站在云上飛行
2. 中難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站在云上飛行,衣服飄動
3. 高難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站在云上飛行,背后煙霧繚繞,背景越來越遠
小結:
1.同樣基本不用對比,Sora完全沒有遵循原本圖片的內容,直接從某一幀開始展現自己的無關畫面內容。
2.可靈雖然在高難度下沒有遵循到遠景遠離的需求,但是在中低難度下,基本完成了“騰云駕霧”的要求。
圖生視頻 – 案例三:二次元展示圖片
1. 低難度:
左側為sora,右側為可靈
提示詞:
人物站立不動,衣服隨風飄動
2. 中難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站立不動,衣服隨風飄動,武器輕微晃動
3. 高難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站立不動,衣服隨風飄動,人物周圍環繞著藍色火焰
小結:
不說了,在這個場景上,可靈完爆……
圖生視頻 – 案例四:人物打架
1. 低難度:
左側為sora,右側為可靈
提示詞:
兩人開始打架
2. 中難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,兩人開始瘋狂打架,拳頭速度飛快
3. 高難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,兩人開始瘋狂打架,拳頭速度飛快,地上濃煙滾滾,石頭飛濺,背后房屋倒塌
小結:
1.Sora,你小子……無法在原視頻上做到指令遵循,你自己變一個視頻來遵循指令……
2.提示詞不充分的情況下,可靈不會執行“打架”的指令,但是也比Sora好了,至少做到“濃煙滾滾”。
文生視頻 – 案例五:人在馬路上行走
1. 低難度:
左側為sora,右側為可靈
提示詞:
一個人在路邊行走。
2. 中難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,一個人在路邊行走,馬路上車很多。
3. 高難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,一個人在路邊行走,馬路上車很多。突然一輛車把人給撞了。
小結:
1.Sora中低難度下,指令遵循得很好,畫面也很清晰,大體上任務動作、物理邏輯都沒啥大問題。(除了有個人在反復往前走、往后退)
2.可靈在現實類場景的生成上,效果會比Sora差一些,會有一種“油油”的效果,而且部分畫面上會存在物理漏洞(比如路人的手消失了、一輛車逆行停在馬路上)。
3.兩位AI同學都沒有遵循到高難度下的“撞車”指令。
文生視頻 – 案例六:人在云上飛行
1. 低難度:
左側為sora,右側為可靈
提示詞:
人物站在云上飛行
2. 中難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站在云上飛行,衣服飄動
3. 高難度:
左側為sora,右側為可靈
提示詞:
鏡頭固定,人物站在云上飛行,背后煙霧繚繞,背景越來越遠
小結:
在這個場景上,可靈比起Sora就差點意思了。
首先,可靈生成的畫面不夠Sora好看。其次,可靈的畫面效果有一種怪異的感覺,特別是低難度下的那個人物(不過也怪我提示詞沒有描述到人物主體)。
二、匯總小結
1.在圖生視頻領域,目前是可靈相對領先??伸`能夠做到“尊重”用戶上傳的圖片,不給到過多跳躍的想法。(這里批評Sora自己無法在原圖片上遵循指令,會自己變出一個畫面來遵循指令)不過在相對復雜一點的提示詞下,可靈還是做得不是很到位,僅僅起到“讓圖片穩定地動起來”的效果。
2.在文生視頻領域,兩者指令遵循效果差不多。但是個人感覺,Sora的生成效果會更具“美感”,相對來說畫面效果會更好看。
此外,Sora還有一個優點——“快”,平均一分鐘內能產出視頻。不過這個和使用人數有一定關系。因此,目前Sora整體上還是比不過國產的可靈,只有在文生視頻效果和生成速度上有優勢。
三、銳評Sora的“創新”功能
除了視頻生成能力,Sora還提出了不少新的視頻生成輔助功能,相比起目前市面上的AI視頻工具能力,也頗為創新,下面一一列出來簡單銳評下。生成參數設置
其中參數設置功能基本上涵蓋了市面上都有的能力,比如視頻比例、清晰度、時長、抽卡次數。值得一提的是,這里看起來頗為創新的“預設風格”能力,本質上與PixVerse、PIKA的“特效玩法”是一樣的。這些都是對某個場景的定向訓練結果,用以做到某類固定的特效,比如Pika的“捏碎一切”、PixVerse的“毒液變身”。
目前Sora支持“氣球世界、定格動畫、檔案、黑色電影、紙板和紙藝”這些風格(機翻結果),相比起PixVerse和PIKA,Sora的風格有點保守,不夠好玩。
emm,不是很能欣賞。
四、故事板及其衍生應用
值得一提的是,Sora推出了故事板功能。故事板功能允許用戶導入腳本,按分鏡進行視頻創作,從而生成符合需求的視頻片段。
雖然即夢也有類似的能力,但是即夢是基于上傳的多個分鏡 或者 圖片描述進行生成,一致性較差。而Sora本質上是基于一個視頻生成,會保持一定的視頻一致性。
如示例視頻,我想生成“一個人走路,然后停下來,最后沖著鏡頭微笑”的視頻。雖然并不能完全遵循三個要求,但是也捉到了一定的“一致性保持”。
基于Sora的故事板能力,Sora還提供了“重新剪輯”功能,能夠對一個已經生成的視頻進行修改,實現“控制每一秒”的生成內容。
比如示例這里,我可以對一個已經生成的視頻進行切割,在中間補充上一個畫面進行重新生成。(雖然執行效果不咋地。)
五、視頻二次修改
除了可以通過故事板對視頻進行二次修改,Sora還提供了重混(Remix)、混合(Blend)、循環(Loop)這三個視頻二次編輯功能。
重混(Remix)支持對于已生成的視頻使用文字進行修改,支持7個檔位的修改。實際測試下來,會存在指令遵循不到位的情況。
比如我想把下方左圖的視頻變成右圖的冬天黑人,結果人物、運鏡和動作等已有的結果都丟失了,直接前功盡棄,把我的視頻mix得一團糟。
混合(Blend)支持把兩個視頻融合,融合模式支持3種,分別為過渡、混合、樣本、自定義,本質上是控制兩個視頻的過渡曲線,控制B視頻什么時候開始侵入A視頻、侵入程度如何。
實際測試下來,這個能力會先結合兩個視頻的特點,生成一個前后兩種“不同但又互相融合特征”的視頻,然后加上過度的效果。不過測試了幾個案例,發現它的“過度效果”基本都是“發光”,然后漸變過渡,頗為生硬(如中間的圖)。甚至有的會直接播一半時候切換到下一個視頻(如最右的圖)。
六、小結
整體看下來,Sora的新功能大部分都能在別的廠商的AI視頻工具上找到對應。其中較為突出的是在“精準控制生成視頻結果”方面的創新,比如:
1.故事板的分鏡控制能力。其保持一致性的前提下,控制每一秒的生成內容。
2.視頻二次修改能力。通過文本對視頻進行二次修改,以保證生成結果符合要求。
但是由于現在Sora底層大模型能力還不夠,這些創新方案并沒有發揮它們想象的水平,所以看起來“沒什么作用”。
不過Sora這里的對于“如何更準確地生成目標視頻”這個問題的解題思路,值得參考與學習。但是這類能力估計會對“視頻一致性”能力做出一定要求,就算放出相關功能,效果也可能不會很好??伸`還會持續領先嗎?
那既然目前測試到Sora整體上不如可靈,那么可靈在未來也會持續保持領先地位嗎?小的將沿著之前幾篇AI視頻相關的思考文章的結論捋一捋。
1.可靈目前能服務更廣泛的用戶需求,而這是當前階段競爭的關鍵。
之前《淺談當前的AI剪輯工具》提到過未來AI視頻廠商更容易卷成的特點,分別是:
1)有用戶:用AI視頻工具能吸引到足夠的目標用戶。
2)能賺錢:能夠跑通與用戶價值交換的商業邏輯。
3)有壁壘:在前兩個過程中構建自己的競爭壁壘,以源源不斷進行價值交換。
目前AI視頻廠商的商業模式基本上都是“能賺錢”的,除非搞“比較離譜”的價格戰。所以目前可靈和Sora基本上都不會是“沒錢賺的”,但是是否盈利就暫且未知了,可能前期訓練成本大于收入。
而隨著大模型能力、用戶量級、行業方案解決的積累,“有壁壘”這一點是會自然而然就能滿足的。
那么小的覺得,目前階段“誰能領先”的關鍵應該在于“有用戶”這點上。
之前提到過,AI廠商必須圍繞目標用戶群體的需求進行大模型訓練,才能積累到足夠的目標用戶。而我們可以發現,可靈是相對擅長“圖生視頻”領域的,而“圖生視頻”領域覆蓋的用戶面更廣。
為什么會有如此結論?下面是我分析。
如果我們可以按“文生視頻”和“圖生視頻”對AI視頻能力進行分類,可以發現:
1)“文生視頻”目前適用于“不需要與前后分鏡保持一致的”視頻生成場景。比如“生成一個風景畫面”、“生成只會出現一次的人物”。
2)“圖生視頻”目前適用于“有一定的基礎物料,且需要生成的視頻與這些物料保持一致”的視頻生成場景。比如“廣告介紹畫面”、“手辦動起來”、“圖片動起來”。
相對來說,“圖生視頻”所適用范圍會更廣,因為“文生視頻”更適合在故事創作的場景,通過適用“文生視頻”來補齊畫面。而“圖生視頻”不僅僅能用在娛樂,也可被廣告、營銷等場景使用,可以生成一些商品的宣傳物料、補齊一些視頻的片段。(雖然現在有一個“文生視頻”分支,允許上傳一張圖片,讓AI參考圖片的主體進行文字控制生成,目前在vidu、pika上有這類能力,但是由于現在效果不太行,暫且不提。)
所以,即便可靈目前沒法處理“相對復雜的指令”、“相對較大的動作幅度”、“復雜的主體交互邏輯”等需求,僅僅能做到基于“相對簡單的指令”執行“幅度一般的動作和偏簡單的交互”,但是這也能“賦能”一定范圍的視頻生產場景了。這比起Sora來說,可靈能服務于更廣泛的用戶需求,這也意味著擁有獲取“更多用戶”的潛力。
2.Sora一定程度摧毀了用戶的信心,這或許成為后續Sora的阻力。
AI工具有一個特點,就是“黑盒”特征十分明顯。用戶在進行具體的抽卡之前,都不一定知道“AI能否做好我這個需求?”而且有時候效果不行,并不一定是AI不行,而是抽卡姿勢不對(提示詞、參數設置不對)。因此要用好AI工具,必須要要有十足的耐心去反反復復地進行抽卡。
然而并不是所有用戶都有這么充足的耐心的,大部分用戶只會嘗試1~2次,看到不行就不管了。所以個人覺得,AI工具廠商需要給到用戶充足的“信心”,讓其相信“不是工具不行,是我不行”,這樣才能讓用戶拼命抽卡。而構建信心的途徑可以是“行業口碑”、“用戶案例”、“用戶自身經驗”等等,這也是廠商們吸引用戶以及用戶留存的關鍵因素。
這么說來,Sora的失敗營銷就是一定程度對“用戶信心”進行了打擊,這無疑成了后續其發展的阻力。雖然OpenAI這塊招牌或許還有點含金量,但是至少相比之前,國內AI視頻廠商的競爭難度無疑是下降了的。
基于上面兩點,小的認為,能夠獲取到目標用戶群體的AI工具,需要具備以下特點:
1)能滿足用戶需求:AI工具要先具有解決某類的用戶需求的”真本事”,后續才能夠真正地獲取目標用戶。否則,即便營銷得再好,工具不能發揮作用,用戶也必定流失。
2)能構建用戶信心:在“真本事”的基礎上,廠商就需要構建足夠的用戶信心,從而吸引用戶來使用工具,并在這個過程中給廠商提供收益。構建信心的過程包括但不限于市場營銷、用戶運營等獲客手段,也可以是在用戶使用工具過程中的使用指引、案例展示等能力展示手段。只要用戶有足夠的信心,便能換來一定量的用戶和留存。
3)能提供良好體驗:當擁有一定量級的用戶后,廠商則可通過“更優秀的用戶體驗”來促進用戶的進一步留存、付費、傳播。良好體驗包括但不限于工具操作的便捷性、更精準的控制參數等,這些內容能讓用戶更充分發揮AI工具的能力,從而對工具產生好感,并為此持續活躍、持續付費,甚至是幫廠商推廣。
由此可以看到,目前在“滿足用戶需求”、“構建用戶信心”上,可靈是相對做得較好的。這說明可靈目前是相對優勢的,但是這也并不意味著可靈是會一直保持優勢,因為說不定Sora技術成長速度更快,能夠解決更多的“用戶需求”,從而做到趕超。畢竟工具產品并沒有太高的沉沒成本,誰能滿足更多需求,誰的性價比更高,用戶就用誰的。
所以未來怎么樣,小的怎么可能知道。靜觀其變,擁抱變化。
本文由人人都是產品經理作者【檸檬餅干凈又衛生】,微信公眾號:【檸檬餅干凈又衛生】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Sora生成視頻截圖
- 目前還沒評論,等你發揮!