口述視頻,中國廠商參戰
過去半年,AI生成視頻一直被處于斷斷續續推進狀態,口述視頻也成為了中國廠商不斷入局的一大賽道。
視頻也能口述?這個正在奔現。
在OpenAI文生視頻大模型Sora發布后,國內企業爭相入局,國產文生視頻大模型邁入加速階段。
過去半年,AI 生成視頻一直處在斷斷續續推進的狀態。
號稱國內首個自研視頻大模型的 Vidu,以及后續字節、騰訊等多家國產廠商推出視頻生成模型,都在時不時引發外界的關注。
近日,又一國產視頻大模型加入戰局,快手“可靈”視頻生成大模型官網正式上線。
21日,快手可靈大模型發布重磅更新:正式開放圖生視頻功能,支持將靜態圖像轉化為5秒鐘視頻,用戶可通過提示詞文本控制圖像中物體的運動;同時推出視頻續寫功能,支持對生成視頻一鍵續寫和連續多次續寫,最長可生成約3分鐘視頻。
相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對標Sora,且已在快手旗下的快影App開放邀測體驗。
據快手方面介紹,可靈大模型為快手AI團隊自研,采用Sora相似的技術路線,結合多項自研技術創新,其生成的視頻分辨率達1080p,時長最高可達2分鐘(幀率30fps),支持自由的寬高比。
此外,官方還宣稱,可靈大模型能夠生成大幅度的合理運動,并使其符合客觀運動規律。
在官方給出的視頻范例中,一位宇航員在月球上奔跑,隨著鏡頭慢慢抬升,宇航員的步態和影子都能保持合理恰當。
幾乎同時,美圖宣布將在7月底上線新品MOKI,該產品基于美圖奇想大模型的視頻生成能力,可幫助用戶生成AI短片。
然而, 也有觀點認為,相比一擁而上的大語言模式,視頻大模型更慢熱,且少了巨頭的身影。
為什么會如此?
大廠們不感興趣嗎?
同時,在上一輪大語言模型競爭中,快手和美圖的存在感較低。
而在視頻大模型賽道,這兩家企業最大的優勢又是什么?
對此,北京商報記者魏蔚和書樂進行了一番交流,本猴以為:
還在沖刺“高考”的大廠,不會直接進擊“博士后”。
做視頻,不是一堆圖組成PPT,大廠不急于這一塊發力,且實用性不強,只是一個肌肉展示。
畢竟,視頻生成不是將一堆AI繪圖連在一起變成動畫片。
除了考慮形象一致、符合描述、光影分割、分鏡表現等更多細節外,還有對劇情的理解能力、再創造能力。
這些都需要對視頻結構、內容解析、拍攝技巧和敘事手法等多個垂直領域進行深度學習。
其難度遠不是聊天、繪畫或專精于下棋之類靠數據堆積和用戶糾錯來完成的。
即使是影視領域的大師也常有敗筆,讓還處在“高考階段”的人工智能出片,其難度可想而知。
但快手和美圖,則需要秀肌肉,哪怕只是一個秀。
快手也好,美圖也罷,在視頻大模型賽道上,最大的優勢只是他們擁有讓人工智能深度學習的豐富“學習資料”。
依靠這些“學習資料”,可以規避一定的版權問題,并且通過多年在視頻領域的內容積累、垂直細分和標簽標注,都讓大模型能夠更好地“檢索”知識,也讓其在算法設計上多少有一定的視頻專業素養。
但也僅此而已,在技術上依然缺少在人工智能算法上的原始積累。
此外,視頻大模型即使成熟,也很難在影視領域有大的突破。
無論是短劇、廣告還是長視頻或電影,盡管都會內卷“大片特效”。
但受眾最終被吸引的還是內容(從編劇到運鏡,以及演員演技)。
這些才是大規模商業變現的關鍵。
愚以為,視頻大模型或許更容易在動畫領域找到一些商機。
本文由人人都是產品經理作者【張書樂】,微信公眾號:【張書樂】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!