Meta 新模型:如果我每14秒生成一個高清視頻,好萊塢的各位要如何應對|「變壓器」

0 評論 3557 瀏覽 3 收藏 12 分鐘

在12月末,Meta發(fā)布了一篇論文,論文中提出了一個新的模型——Fairy,這個模型可以在14秒內(nèi)生成120幀的512x384分辨率視頻(30 FPS,時長為4秒),超過了之前的方法至少44倍的速度。如此看來,F(xiàn)airy的出現(xiàn),是不是會對視頻編輯行業(yè)帶來巨大的沖擊呢?

利用人工智能來合成視頻一直是該領域的難題,因為其中最關(guān)鍵的一環(huán)——映射與合成,缺乏優(yōu)秀的模型算法,只能利用卷積神經(jīng)網(wǎng)絡(CNN)和生成對抗網(wǎng)絡(GAN)來不斷提取特征、生成、判斷,直至最后結(jié)果。比如此前曾大火的Deepfake技術(shù),俗稱人工智能換臉,生成一個短短幾秒的“換頭”視頻也需要10分鐘左右的時間。

以后就不一樣了,Meta在12月的月末發(fā)布了一篇論文《Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis》。論文提出了一個新的模型,也就是標題中的Fairy。Fairy能夠在僅14秒內(nèi)生成120幀的512×384分辨率視頻(30 FPS,時長為4秒),超過了之前的方法至少44倍的速度。

原圖Fairy合成的視頻

這是一種比較另類的圖像編輯擴散模型,使其搖身一變,成為了視頻編輯應用。

Fairy的技術(shù)核心是“錨點式跨幀注意力”機制,它可以在幀之間隱式傳播擴散特征,確保時間上的連貫性和高保真度合成。有了這個機制后,F(xiàn)airy不僅解決了以前模型中的內(nèi)存和處理速度限制,還通過獨特的數(shù)據(jù)增強策略改進了時間一致性。這種策略使模型對源圖像和目標圖像中的仿射變換保持等變性。

“錨點式跨幀注意力”說的直白一點,就是允許模型在不同幀之間建立時間對應關(guān)系。

比如下面這幾張圖,左邊的貓和右邊的船上面都有一個紅點,代表模型定位了圖中物體的特征,F(xiàn)airy模型中,這個紅點叫做查詢點(query point)。物體開始移動,途中的紅點會跟隨其移動,這是模型將要分析的另一幀,目的是找到與查詢點相對應的區(qū)域或特征,而這個幾幀后的紅點叫做目標幀(target frame)。所謂錨點式跨幀注意力,正是評估查詢點在當前幀中的特征,并將這些特征與目標幀中的特征進行比較,以估計最佳匹配。

查詢點

那么“錨點”又是指什么呢?如果放在其他模型里,錨點指的是用來參考的點。圖片以及視頻中的錨點,則特指用于穩(wěn)定識別、追蹤或定位特征的固定參考點。比如上文提到的貓鼻子,就是特定的面部特征錨點(如眼角或嘴角)。視頻是有多個連續(xù)的圖片組成的,在Fairy模型中,會從某一幀圖片里的K個錨點幀中提取擴散特征,并將提取出的特征定義為一組全局特征,以便傳播到后續(xù)幀。

在生成每個新幀時,F(xiàn)airy模型用跨幀注意力替換自注意力層,這種注意力是針對錨點幀的緩存特征。通過跨幀注意力,每個幀中的token取用錨點幀中展示出相似語義內(nèi)容的特征,從而增強了一致性。

Fairy通過結(jié)合跨幀注意力和對應估計,改進了擴散模型中的特征跟蹤和傳播方法。模型把跨幀注意力當成是一種相似性度量,以評估不同幀之間token的對應關(guān)系。這種方法使得相似的語義區(qū)域在不同幀中獲得更高的注意力。通過這種注意力機制,F(xiàn)airy在幀間對相似區(qū)域進行加權(quán)求和,從而細化和傳播當前特征,顯著減少幀間特征差異。

這也是為什么Fairy能夠那么快就合成出一個新的視頻,因為從技術(shù)原理上來看,它只合成了一張圖片,剩下所有的內(nèi)容都是這張圖片連續(xù)擴散的結(jié)果。很像是一種討巧,其實更多的像是“偷懶和投機”。人工智能和人理解世界的方式不同,它所表現(xiàn)出來的,就是對“最低勞動力成本”的完美詮釋。

Fairy將原視頻轉(zhuǎn)換為新的風格

革視頻特效行業(yè)的命

Fairy對于視頻編輯行業(yè)來說,可能會帶來一場革命性的變化。當下視頻合成最主要的用途是制作特效,我們熟悉的特效大片每一幀都是單獨制作的,因此每一幀所耗費的成本大約數(shù)百到數(shù)千美元,平均下來相當于每分鐘燒掉4萬美元。

試想一下,一旦采用Fairy,特效大片動輒幾千萬幾百萬的特效費用,將會直接減少至幾千美金,且制作周期大幅度縮短,以前需要花費幾個月來渲染,以后興許只需要幾個禮拜。

有可能你會有疑惑,現(xiàn)在的一些視頻軟件也可以做到類似的功能,比如抖音、快手,就可以實時美顏,或者添加道具跟隨視頻中物體移動,為什么他們就不能沖擊視頻合成行業(yè)呢?首先是商業(yè)場景對技術(shù)的需求不同,需要滿足直播、手機等內(nèi)存比較小的設備這些先天的條件下,就沒辦法使用像Fairy一樣的擴散方法,最后技術(shù)產(chǎn)出的表現(xiàn)力也就沒辦法做到那么出色。

就以論文提到的貓舉例,F(xiàn)airy將視頻里的貓變成獅子、給貓配上墨鏡、或者把白貓變成黑貓,最多也就花費幾秒鐘而已。你仔細看,合成后的視頻特效是會跟隨貓的面部朝向而改變的,在墨鏡那張圖上,這點表現(xiàn)的最明顯。

對同一視頻合成不同風格的心視頻

而且Fairy目前還只是個“寶寶”。因為任何一個模型從誕生到使用,中間必不可少的一個環(huán)節(jié)叫做“調(diào)試”。調(diào)試主要由兩件事組成,第一個是調(diào)整模型訓練、推理以及最后的輸出,將其變成更符合實際商業(yè)場景化的形式。這個過程可以讓模型表現(xiàn)出更好的性能。第二件事是壓縮、優(yōu)化模型,提高模型的運行效率,縮減運行成本,用最短時間完成業(yè)務。

另外Fairy除了能夠生成高質(zhì)量視頻,還能夠以前所未有的速度生成高分辨率的視頻,這個提升也是巨大的。論文用生成的1000個視頻和現(xiàn)有的方法進行比較,包括TokenFlow、Renderer和Gen-1等方法。評估結(jié)果顯示,F(xiàn)airy在質(zhì)量上超過了之前的最先進方法。因此研究團隊對此稱道“這是迄今為止視頻/視頻生成文獻中最大規(guī)模的評估?!?/p>

與其他模型的比較,占比越高代表質(zhì)量越好

Fairy的出現(xiàn)可能會開啟一波視頻生成熱,就像GPT開啟文字生成熱潮,DALL·E開啟圖片生成熱潮那樣。視頻合成領域雖然有Deepfake那樣的先鋒,不過在結(jié)合實際的訓練、推理、交互、生成等等一系列綜合體驗來說,F(xiàn)airy是獨樹一幟的存在。畢竟它太快了,快到讓人覺得有些不可思議。好萊塢的好日子好像又變短了一些。

2017年,來自谷歌的幾個研究員寫下《Attention is All you need》的題目,給世界帶來了Transformer模型架構(gòu),它成為了今天“大模型”繁榮背后無可爭議的根基,OpenAI的GPT,Meta的Llama以及一眾最主流大語言模型都是在Transformer的基礎上生長起來,今天還有一批又一批聰明的研究者在不停嘗試提出比Transformer更強的模型架構(gòu)。

某種程度上,今天所有AI模型層面的研究都在圍繞對Transformer的掌控與超越展開。但這樣一個劃時代的研究在當時并未立刻引起所有人的重視,而這種“嗅覺”的差異也很大程度決定了今天的AI格局——OpenAI在這篇論文出現(xiàn)第二天就立刻徹底轉(zhuǎn)向了Transformer架構(gòu),然后2020年5月OpenAI基于Transformer架構(gòu)的GPT-3論文發(fā)表,2年后ChatGPT出現(xiàn),一切都不再相同。

「變壓器」這個欄目名來自對Transformer的直譯,我們會拆解和介紹關(guān)于AI及相關(guān)技術(shù)的最新論文和最前沿研究,希望像OpenAI當年看到Transformer一樣,幫助更多人遇到自己的「變壓器」時刻,比一部分人更早進入生成式AI的世代。

作者:苗正

來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!