黄色网站无码高清,精品国产乱码一区二区三区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

淺談AI視頻廠商都在卷的拓展能力

檸檬餅干凈又衛生

2024-11-25

0 評論 754 瀏覽 0 收藏

44 分鐘

在人工智能的浪潮中，AI視頻工具正成為內容創作的新寵。文章從可靈AI的獨立APP發布，到各大AI視頻廠商的新功能盤點，揭示了AI視頻工具如何在提高視頻制作效率、降低成本的同時，也為內容創作者帶來新的挑戰和機遇。

前言

最近（24/11/11）刷到一個AI新聞，說可靈AI已經正式推出了獨立的APP（原本掛載在快手的剪輯APP快影下方），并對外聲稱“目前可靈AI已經有超過360萬用戶，累計生成3700萬個視頻、超一億張圖片”。

3700個視頻什么概念？如果全都按標準質量、5秒視頻算，3700萬個視頻需要花費價值2590萬的靈感值（可靈的抽卡貨幣）。不過這樣算并不準確，因為：

1.存在額外增項：例如高質量生成需求、10s視頻生成需求、拓展功能使用需求、1.5版本可靈使用需求等增購項目，這些內容會提高單個視頻的收費。

2.存在靈感值贈送機制：可靈抽卡并非直接使用RMB，而是使用靈感值這個貨幣。除了充值獲取，非會員每月登錄都會送靈感值，而會員每天都會送靈感值。

所以實際收入多少，在缺乏更多數據的情況下，我這個門外漢也說不準。

但這讓我想起三個月前（24年7月底）寫的AI剪輯相關的分析《淺談當前的AI剪輯工具》，當時俺對AI生成視頻概括為“能一定程度上解決業務的需求，節省視頻畫面制作的成本”，但是存在諸如“指令識別不準”、“無法修改”、“模糊”、“人物動作合理性”、“身體細節錯誤”、“主體不一致”、“物理運動BUG”等問題，所以整體的使用上還“差點意思”。

而如今短短3個月過去，可靈就取得了一定的成績。這一定程度上歸功于可靈在近期發布的1.5版本，其中引入了新一代模型，畫質和動態質量都得到提升，并且加入了運動筆刷、對口型、外放API等能力，生成效果和使用場景得到了加強和拓展。

同時隨著各家AI視頻能力的發展，網上AI視頻相關的內容越來越多，這也說明用戶們也在逐漸挖掘掘到的AI視頻的應用場景。諸如小的在網上沖浪時候刷到的以下各種形式的AI視頻：

1.人物轉換視頻：經常在短視頻平臺上刷到這種A轉換成B，然后再轉換成C的視頻，給人一種很炫酷的感覺。這類視頻主要是通過AI視頻平臺的首尾幀功能實現的，通過在首尾幀放上AB圖片（也可以是AI生成的），就可生成A轉換成B的視頻。如此生成B轉C、C轉D……這些的視頻后，通過剪輯拼接合成，就可以生成ABCD無縫轉換的效果。

圖片來自于抖音

2.人物互動：如果圖片里面有兩個人物，也可讓AI視頻生成兩個互動的視頻。如下圖的A和B擁抱、A和B打架。擁抱的視頻也經常被用于“和過世親人互動”的場景，讓人也能感受到AI的溫度。

圖片來自于百度

3.搞怪表情：最近有個比較火的AI魔法貓貓表情包，就是用圖生視頻能力實現的，還怪可愛咧~

截圖來自于公眾號“表情兔Bot”

4.超自然視頻：小的看到有些人用AI生成一些超自然的視頻，在微信上混淆視聽。就比如有一天，家里長輩發了一個聊天記錄，說“給大家開開眼”，結果俺點開一看是AI生成的。一開始長輩還不信，因為“視頻沒法P，所以是真的”。

不得不感慨，AI視頻仍舊對于大部分人來說，是超出認知的黑科技。萬一這被利用來進行“針對老年人的詐騙”，那危險程度可想而知……

5.AI短片：這是AI視頻一開始被認定的主流場景，用來進行視頻的生產，也有不少廠商用其來生成AI短劇，比如抖音的《三星堆》。在可靈的“創意圈”上，我們也能看到有不少人生成的AI視頻短片。

這些旺盛的用戶需求說明隨著會玩AI視頻的人越來越多，這歸功于各家AI視頻廠商的共同努力，使得AI視頻也開始走向真正走向“越來越多用戶轉化成消費者“的爬坡期。

圖片來源于百度

但是AI視頻生成的“指令識別不準”、“無法修改”、“模糊”、“人物動作合理性”、“身體細節錯誤”、“主體不一致”、“物理運動BUG”等問題還是阻礙其進一步發展的，這說明到達“成熟期”還有好長一段路要走。但是從各家AI視頻公司的更新迭代中，我們也可以發現他們都是有嘗試去通過各種各樣的功能去解決當前階段的“缺陷”的，而且除此之外，還會卷一些額外的拓展能力。

他們有嘗試怎么樣解決這些“缺陷”？這些功能又意味著什么？要下面這段就讓小的來盤點一下。

當前的視頻AI的能力

我們先分別講講每家AI視頻廠商最近新增加的能力，拆解下他們是如何嘗試解決AI視頻的問題的?？伸`AI

首先就是文首提到的可靈了，可靈最新的版本是1.5版本，其中引入了新一代模型，提高了畫質和動態質量。

下面用一張圖來分別對比1.5和1.0的效果，由于之前測試到可靈僅在真人視頻上效果較好，所以測試的樣本同樣放了動漫和真人兩種類型。

在動漫圖片中，可靈1.0存在“生成的臉和手變形”、“手指和領帶也穿?！钡葐栴}。而1.5雖然也有“嘴部動畫瑕疵”、“電鋸人拉環斷了的物理BUG”等問題，但是手指變形和臉部變現問題得到了優化，可見其進步。

在真人圖片中，可靈1.0存在“人物動作毫無邏輯”（這一堆人在干啥呢）、“米國旗飄動不自然”等問題。但是在1.5中可以看到，人物動作明顯有一定的進步，自然且合理多了，而且米國旗的飄動顯得十分自然。雖然還是存在“人物主體不一致”（女保鏢變成了男的、人群中出現了兩個未知的人）的問題。

可見，可靈1.5也一定程度上優化了“人物動作合理性”、“身體細節錯誤”、“主體不一致”、“物理運動BUG”的問題。

而且可靈還提供了以下額外的功能，以優化AI視頻生成的效果和工具的能力邊界：

1.尾幀：

該功能僅支持在1.0上使用，支持上傳尾幀，以控制AI視頻的走向，使得生成的視頻不至于“太魔幻”。當然，這也是文首提到的生成A轉B視頻的工具。

2.運動筆刷：

該功能僅支持在1.0上使用，該功能支持涂抹一定區域，并設定該區域的運動軌跡。也支持設定靜止區域，該區域會保持不動。

其中還提供了區域快捷選擇的功能支持，方便快速選擇區域。

基于這個功能，就算是生成結果較差的可靈1.0，也能生成類似于1.5中的成品效果。（雖然存在“主體不一致”的問題，川建國的臉變現了。）

值得一提的是，使用該功能時，靜止區域需要盡量選擇多一點，否則會像下面一樣，在莫名其妙的地方出現“物理運動BUG”。

3.參數控制：

然后是可靈支持了參數控制，包含“想象力/相關性”、“生成品質”、“生成時長”、“生成數量”。

其中“生成品質”參數一定程度緩解了原本AI生成視頻比較糊的問題。而“生成條數”解決了“AI生成準確度不足，需要多次抽卡”的問題，雖然解決方案是“讓用戶花N倍的錢抽多幾次”，但是也能在使用時候，大大節省用戶的操作時間。

4.運鏡控制：

該功能可惜不支持圖生視頻，僅支持文生視頻。該問題能一定程度解決AI亂運鏡的情況。

先前在使用其他AI視頻工具的時候，讓人抽卡到崩潰的原因之一是“經常生成的謎之運鏡”，比如：

5.不希望呈現的內容：

這個就好像AI生圖的負面提示詞一樣，通過描述不希望出現的畫面內容，從而提高生成的準確度。

6.成品拓展修改：

對于已完成的成品，抖音支持二次進行拓展修改，其中支持“對口型”和“延長5s”。

“對口型”支持識別到人臉的視頻進行使用，可以自定義輸入的文本，利用文生音技術和音頻驅動口型技術生成說話的視頻?；蛘咦孕猩蟼鞅镜氐呐湟?，實現生成說話的視頻。

整體來說，說話的效果十分自然，比市面上能找到的開源方案效果更好。（川建國不能生成對口型的視頻，看來風控做得還行啊哈哈。）

右圖是人物在說話“你們吃了嗎？”

7.API：

為了滿足B端場景的大批量生成需求，可靈還提供了API接入服務。雖然價格有點貴，但是在AI準確度不夠需要多次抽卡的當下，是一個能夠讓AI生成視頻在業務場景上發揮價值的重要能力。因為這能避免人肉進行大批量的繁瑣操作，也能避免生成后的超長時間等待，從而大大提高了B端場景上的AI視頻使用效率。（BTW，花錢效率也上來了hhh。）

8.創意圈：

這是可靈推出的社區功能，用戶可以在上面上傳高質量的視頻，也可以直接打開別人的視頻，一鍵生成同款。

該功能同時起到了AI能力展現、用戶教育、創作者挖掘的作用。即夢AI

緊接著是字節系的即夢AI，其在11/8號宣布了使用全新的視頻模型S2.0，宣稱其能有更快的生成速度和更高的品質效果。

我們來用同樣的圖片來驗證下其效果。

在動漫圖片中，1.2（舊版本模型）生成的結果基本都有問題，人物毫無動作，就算在2.0上也并沒有優化這個問題，反而是生成了“謎之運鏡”。

在真人圖片中，1.2生成結果較為“保守”，人物動作基本沒有BUG，但是“米國旗飄動不自然”。而2.0上反而有點“大膽到抽象了”，我不信邪地抽多了幾次，得到的都是較為抽象的結果。其中存在較為明顯的“人物動作合理性”、“身體細節錯誤”、“主體不一致”、“物理運動BUG”的問題。

由于測試樣本有限，未能看到較為明顯的提升，但是可能是我的測試樣本并未在升級的方向上。

即夢也同樣提供了以下額外的功能，以優化AI視頻生成的效果和工具的能力邊界：

1.尾幀：

和可靈一樣，拓展功能暫不支持最新的模型使用。也是通過首尾幀圖片來控制視頻的走向，以保證成品的準確度。

2.動效畫板：

該功能同樣僅支持1.2版本使用，用于框選主體位置，然后控制運動軌跡，以提高成品的準確度。

不過即夢僅支持控制主體的位置，不像可靈可以控制多個區域的動與靜。

雖然BUG很多，但是手還是動起來了hhh。

3.運鏡控制：

該功能同樣僅支持1.2版本使用，用于控制運鏡方向，減少謎之運鏡的生成。

4.參數控制：

即夢提供了如“運動速度”、“生成模式”、“生成時長”、“視頻比例”、“生成次數”、“閑時生成”等的參數，相比起可靈多了速度和模式的控制項目。

5.對口型：

即夢也有對口型能力，相比起可靈，該能力可以單獨上傳一張人物肖像進行口型生成，整體來說會更方便。（但是也增加了風險，因為非AI生成的人物也能用來對口型，可以用于一些侵權/造謠的違法場景上。）

6.成品拓展修改：

對于已生成的視頻，即夢支持“視頻延長”、“對口型”、“補幀”、“提高分辨率”、“AI配樂”，這里的能力會相對比可l靈更多點，方便視頻制作者生成滿足其需求的視頻內容。

值得一提的是其中的AI配樂能力，可以由AI自由發揮，或者人工指定音樂的場景、流派、情感、樂器進行生成，以生成更符合需求的配音。

7.故事創作：

故事創作功能允許用戶導入腳本，按分鏡進行視頻創作、圖片創作，配合上音頻編輯能力，以一鍵生成AI視頻。

該能力與LTX Studio、SkyReels等AI視頻短劇的建設思路是一致的，用腳本把多個AI視頻串聯起來，以生成一個完整的AI視頻，節省用戶二次剪輯的工作量。但是在AI生成的準確性不足的情況下，這個方式也會疊加各個視頻的不準確性問題，從而降低成品質量，或者翻倍其中的“抽卡成本”。

8.探索：

與可靈一致，即夢提供了類似于創作圈的功能，用于展示高質量的成品，用于能力展現、用戶教育、創作者挖掘。

Luma

Luma最新的版本是9月左右更新的1.6版本，其中發布了運鏡控制功能。

為了驗證其效果，我拿出了4個月前的抽卡結果進行對比。

無論是動漫還是真人圖片，Luma兩個版本的表現都存在很大的問題，并沒有較好的優化。

Luma用于“優化AI視頻生成的效果和工具的能力邊界”的功能有：

1.尾幀：

和前面提到的可靈、即夢一樣，Luma也支持上傳尾幀，以控制AI視頻的走向。

2.運鏡控制：

相比起可靈和即夢的運鏡控制，Luma的運鏡相比起來十分簡陋，僅支持輸入文本進行控制，不能進行精細的幅度控制。

3.循環功能：

個人理解這個功能其實就是“尾幀”的一種應用，而且選擇“Loop”之后，也不允許上傳尾幀了。該設置項能讓視頻首尾一致，以進行循環播放。

4.API：

Luma支持API，可供大規模調用。

Runway

Runway在更新Gen-3 Alpha 和 Gen-3 Alpha Turbo之后，更新了一個Act-One的能力。

我們來用同樣的圖片來驗證下其效果。

在動漫圖片中，Gen-2存在“畫面模糊”、“人物臉部異常變現”等問題。但是在Gen-3 Alpha上，這些問題被很好地解決掉了，雖然存在“電鋸人拉環斷了的物理BUG”，但是人物主體保持得很好。

在真人圖片中，Gen-2的結果有點慘不忍睹，“主體不一致”（川建國都成國旗了）、“人物動作毫無邏輯”（他們在下沉？）。而這些問題，在Gen-3中的帶了很好的解決，雖然還有點動作僵硬。

相比來說，Runway新版本的能力提升還是比較明顯的。

那么下面小的匯總下Runway上的拓展功能點：

1.尾幀：

本質上和前面的功能一致，不贅述。

2.運動筆刷：

和前面的“運動筆刷”、“動效畫板”一致，不贅述。

不過這個軌跡控制是用坐標參數控制的，有點反人類。

3.參數控制：

Runway的參數支持“清晰度”、“種子”、“水印”、“插幀”、“生成時長”……

不像國內那樣支持多輪抽卡，屬實難受。

4.運鏡控制：

和前面的“運鏡控制”類似，不贅述。

5.Act-one：

這是Runway最新推出的一個能力，可以上傳一個“臉部清晰”、“身體動作較少”的視頻，然后使用AI驅動一張目標圖片進行臉部動作學習。

該能力其實和轉口型能力是同源的，都同樣是臉部動作轉換。

（哈哈，2次元動漫圖片的效果還是差點意思。）

6.成品拓展修改：

對于已完成的視頻，Runway支持“視頻拓展”（生成多N秒）、“對口型”（不贅述，和國內一致）、“視頻生視頻”（適用于重繪、轉畫風、細節補充等場景）、“時間剪輯”（改視頻長度or速度）等拓展修改能力。

7.API：

Runway支持API，可供大規模調用。

8.Runway watch：

等同于國內的“創意圈”，用于進行AI能力展現、用戶教育、創作者挖掘。

其他特殊能力

本來還想把PixVerse、清影、PIKA、海螺等視頻生成AI也都看一遍，但是普遍都需要充值會員，且拓展的功能除了上面提到的，主要就是以下這些了。下面列舉一下：

1.特效玩法：

目前該能力僅看到在PixVerse和PIKA上出現，該玩法支持生成各類好玩的特效視頻，比如“捏碎一切”、“毒液變身”……

2.角色控制：

這是PixVerse上的能力，支持選定一個角色，然后AI會生成該角色的視頻，以保證主體的一致性。

小結

為了方便對比各家的能力，我這邊列了一個表格：

通過以上的調研，我們可總結出，各廠商為了解決AI視頻的問題，推出的功能可以分為以下幾類。

1.更牛的AI大模型解決根本問題：

針對AI視頻的問題進行大模型訓練，能從根本上解決視頻AI的問題。這個雖然是個完美的解決方案，但也有問題，就是成本太高、周期太長。

特別是在如今這么多家同時競爭的情況下，如果把希望全部都放在“成本高、周期長”的新一代模型上，對一家企業來說風險很高。很有可能由于回收周期太長，看不到未來可行性，股東先行撤資?；蛘邉e家的“新一代模型”投入更多、速度更快，通過先發優勢使得企業的投入全部白費。

2.更多的控制項目提高生成準確度：

在AI不能完全理解我們輸入的意圖前，需要通過一些固定格式的參數來控制AI輸出的質量。這些固定格式的參數在“大語言模型”的使用上，又可稱為“提示詞工程”。

而在視頻生成AI領域，我們可以利用“控制項目”來提高生成結果的準確度，以保證AI能盡可能滿足業務的需求。雖然目前部分AI模型并不能完全遵循全部指令，但是也能一定程度上減少AI的“發散”，生成相對穩定的結果。

目前常見的控制項目有“首尾幀”、“運動筆刷”、“生成品質”、“生成時長”、“特效”、“運鏡控制”等等。這些功能在AI大模型新版本出來之前，一定程度上能緩解視頻AI的問題，并解決一定程度的需求。

目前AI視頻越來越多，一定程度歸功于這些功能的發明。就比如“首尾幀”功能造就的“A轉B轉C”這類視頻。

3.拓展的視頻能力滿足更廣泛的場景：

按照俺之前的梳理，視頻制作流程分成了尋找靈感、制作草稿、收集素材、剪輯成稿。

而前AI生成視頻技術僅僅能解決“制作草稿”、“收集素材”環節的部分需求。因此部分AI視頻廠商開始嘗試拓展視頻制作業務的上下游場景，從而提高視頻AI工具的能力邊界，以滿足更多的用戶需求。

比如，大部分廠商都推出了“對口型”能力，這是在試圖滿足視頻制作過程中的“配音制作”需求，使得視頻制作的效率更高

又比如，即夢推出的故事創作能力，這里將“尋找靈感、制作草稿、收集素材、剪輯成稿”環節全部整合到了系統上，包含了分鏡稿、畫面生成、配音生成環節，最終一鍵生成AI視頻。

4.用戶教育以讓用戶用得更好：

AI視頻畢竟是一個復雜的工具，并不是所有用戶都能用好的，如果無法完全發揮工具的全部實力，那么所有的開發成本、訓練成本都會被白白浪費，因此需要一定程度的用戶教育手段。目前各廠商主要是通過“創意圈”這類功能來實現用戶教育目的的。

所謂創意圈，即創作者社區。通過在上面發布高質量的AI視頻來展現AI的能力，讓用戶了解到“這個AI能做到這種程度”，并產生嘗試的欲望。

同時，創意圈還會支持用戶“一鍵生成同款”，這個過程中就起到對AI工具參數設置的教育作用。

此外，平臺方還需要不斷挖掘其中的KOL創作者，以打造優質的內容生成，并將其中的優質內容發布在社交媒體上，打造平臺的影響力，吸引自然量用戶。

5.大批量的調用方式以提升使用效率：

由于視頻生成AI存在準確度問題，所以目前AI生成視頻是必定需要多次抽卡的。

為了避免人肉手動操作進行多次抽卡而產生的“超長等待時間成本”，目前部分廠商提供了“一次性生成多個視頻”和“API調用”這些方案。

雖然這些方式會增加平均的抽卡的費用，但是能提升抽卡的效率，也能提高“AI最終生成目標視頻”的概率。為什么要卷這些拓展能力

整體來說，目前視頻AI廠商拓展的這些能力都是共同為了“更好地滿足視頻制作需求”這個目的。

其中，更牛的AI大模型、更多的控制項目能夠提升成品視頻的質量，拓展的視頻能力能夠滿足更廣泛的視頻制作場景，用戶教育、大批量的調用方式能輔助用戶更好地運營AI視頻工具。

當用戶的視頻制作需求被滿足時，用戶就會留存在AI視頻工具平臺上，從而給廠商貢獻充值收入。這就構成了“視頻制作需求”與“充值收入”的價值交換模型。

但是“滿足視頻制作需求”這個其實是可以分為三個層次的，可以稱之為視頻制作需求的“點、線、面”。

1.視頻制作需求的“點”：

所謂“點”，即僅僅滿足視頻制作環節的某個單點需求。比如“尋找靈感、制作草稿、收集素材、剪輯成稿”中的單個視頻片段制作、配音生成、剪輯合成等。

個人理解目前大部分的AI視頻廠商都處于這個層次，即AI視頻能力的積累階段。

2.視頻制作需求的“線”：

所謂“線”，即通過多個單點需求的同時滿足，滿足了一整條工作流的需求，實現從0~1的工具輔助。即夢AI的“故事創作”功能就承載了即夢“點連成線”的野心，只不過由于AI視頻的準確度問題，目前該能力只能滿足極其有限的需求。

目前大部分AI視頻廠商都在試圖通過布局各種能力點，從而滿足某個工作流的需求。

3.視頻制作需求的“面”：

所謂“面”，即通過同時滿足多個工作流程的需求，從而形成的一整套“視頻行業解決方案”。這應該是所有AI視頻廠商的終極愿景——用AI顛覆&壟斷整個領域。

但是廠商是不可能一下子就發展成某個“面”的視頻需求解決工具，而是需要逐漸積累，點連成線、線連成面，這也是我們看到不少廠商在拓展各種AI視頻能力。

此外，部分能力還起到的一定的營銷作用。通過其好玩的、有新意的新能力，吸引各種用戶使用，并在社交媒體上發布，形成裂變效果。

就比如Pika的“捏爆一切特效”、PixVerse的“毒液變身特效”，這些新能力能結合熱點（毒液電影），或者其本身足夠好玩，能吸引一定的基礎熱度。其次能夠讓用戶制作自身的專屬視頻，滿足用戶的好奇心、自我表達欲望。這些因素的疊加構成了一定程度的“裂變營銷”，為AI視頻平臺積累了一定的知名度和影響力，吸引一定量的用戶以及賺取一定量的會員收入。