GAN已死?GAN萬歲!布朗康奈爾新作爆火,一夜碾壓擴散模型

0 評論 603 瀏覽 0 收藏 30 分鐘

GAN已死?不,它卷土重來了!布朗大學和康奈爾大學的研究者剛剛提出了R3GAN,充分利用現代架構設計,徹底摒棄臨時技巧,一半參數就能碾壓擴散模型。網友驚呼:游戲規則要改變了!

GAN已死?

不,GAN又回來了!

此前曾掀起AI圈巨大風暴的GAN,后來卻逐漸沉寂了,甚至有人發出了「GAN已死」的論調。

2022年,「GAN已經過時、被擴散模型取代」的論調激起熱議

原因有很多,比如人們普遍覺得GAN很難訓練,文獻中的GAN架構也充斥著經驗技巧。

但就在剛剛,布朗大學和康奈爾的研究者在這篇論文中,要徹底為GAN正名!

論文地址:https://arxiv.org/abs/2501.05441

論文中,作者提出了一種突破性的新型GAN架構——R3GAN(Re-GAN),其最大核心亮點在于,引入了全新的正則化相對性損失函數。

它不僅在理論上證明了局部收斂性,更在實踐中顯著提升了模型訓練的穩定性。

這一突破,使得模型能夠摒棄傳統GAN中必須依賴的各種技巧,轉而采用了更加現代化的深度學習架構。

結果證明,一個不使用任何技巧的極簡GAN,能夠以一半的模型參數,以及單步生成的方式達到與EDM(擴散模型)相當的性能。

就看這個R3GAN的出圖質量是多么地穩定!

圍觀網友們表示,這絕對是改變游戲規則的一項研究——如果能正確地訓練GAN,那簡直就是一場噩夢。

在智能體非常爆火的當下,GAN顯得前途無量。

因為GAN非常適合需要速度的專門任務,而Transformer則適用于其他所有任務。智能體就可以使用GAN,來加速部分流程,或做出時間關鍵的決策。

一、擴散模型風生水起,GAN卻陷困境

還記得2014年,當Goodfellow等人首次提出GAN時,整個AI界都為之震動。

一個能夠通過單詞前向傳播生成高質量的模型,簡直就是一場革命。

論文地址:https://arxiv.org/pdf/1406.2661

然而,隨之而來的困擾也接踵而至——訓練不穩定性,成為了揮之不去的陰影。

對于研究人員來說,他們擔憂的是害怕模型訓練隨時會「暴走」,或者生成的圖像千篇一律,失去了應有的多樣性。

盡管這些年,GAN的目標函數不斷改進,但在具體實踐中,這些函數的問題是始終如影隨形,一直以來對GAN研究產生了持久的負面影響。

隨后,2019年,著名的StyleGAN架構誕生了。它就像是一個「補丁大師」,為了提高穩定性,使用了梯度懲罰的非飽和損失;同時又為了增加樣本多樣性,又不得不采用小批量標準差的技巧。

論文地址:https://arxiv.org/pdf/1812.04948

這些看似矛盾的做法,實際上反映了GAN架構本身的局限性。

更有趣的是,如果去除這些技巧,StyleGAN的骨干網絡竟和2015年的DCGAN驚人地相似!

這就不禁讓人思考:為什么其他生成模型,比如擴散模型,都能得到快速改進,而GAN卻似乎停滯不前?

在擴散模型中,多頭自注意力等等現代計算機視覺技術,以及預激活ResNet、U-Net和視覺Transformer(ViT)等骨干網絡已成為常態。

考慮到這些過時的骨干網絡,人們普遍認為GAN在FID等定量指標方面無法擴展,也就不足為奇了。

好消息是,布朗大學和康奈爾大學的研究人員在這個領域取得了重大的突破。他們提出了一個創新性的解決方案,包含兩個關鍵要素:

1)新型目標函數

將相對配對GAN損失(RpGAN)與零中心梯度懲罰相結合,提高了穩定性。他們在數據上證明了,帶梯度懲罰的RpGAN,享有與正則化經典GAN相同的局部收斂性。

2)現代化改造

摒棄StyleGAN反鎖技巧,轉而采用簡潔而高效的現代架構設計。結果發現,適當的ResNet設計、初始化和重采樣,同時加上分組卷積和無歸一化,就能達到甚至超越StyleGAN的性能。

總的來說,新論文首先從數學上論證了通過改進的正則化損失,讓GAN的訓練不必那么棘手。

然后,在實驗中開發了一個簡單的GAN基準,在不使用任何技巧的情況下,在FFHQ、ImageNet、CIFAR和Stacked MNIST數據集上,其FID表現優于StyleGAN、其他最先進的GAN和擴散模型。

那么,研究人員具體是如何做到的呢?

二、RpGAN+R_1+R_2穩定性和多樣性

在定義GAN的目標函數時,研究人員面臨這兩個挑戰:穩定性和多樣性。

先前的研究中,有的專攻穩定性問題,而有的則處理處理模式崩塌問題。

為了在這兩個方面都取得進展,團隊將一個穩定的方法與一個基于理論的簡單正則化器相結合。

1. 傳統GAN

傳統GAN是在判別器D_ψ和生成器G_θ之間的極小極大博弈中形成的。給定真實數據x ~ p_D和G_θ生產的虛假數據x ~ p_θ,GAN最一般的形式可以表示為:

其中G試圖最小化L,而D試圖最大化G,f的選擇是靈活的。特別地,當

時,就得到了Goodfellow等人提出的經典GAN。

實踐已經證明,當p_θ可以直接優化時,該方程具有凸性質。然而,在實際實現中,經驗GAN損失通常會將虛假樣本推到D設定的決策邊界之外,而不是直接更新密度函數 p_θ。

這種偏差導致了一個顯著更具挑戰性的問題,其特征是容易出現兩種普遍的失敗情況:模式崩塌/丟失和不收斂。

2. 相對f-GAN(Relativistic f-GAN)

這時,研究人員采用了由Jolicoeur Martineau團隊提出的一種略有不同的極小極大博弈,稱為相對配對GAN(RpGAN),用于解決模式丟失問題。

一般的RpGAN定義如下:

雖然方程2(RpGAN)和方程1(傳統GAN)看起來只有細微差別,但評估這種判別器差異對損失函數L的整體形態有根本性影響。

RpGAN通過耦合真實和虛假數據,引入了一個簡單的解決方案,即通過將虛假樣本相對于真實樣本的真實性來進行評判,這有效地在每個真實樣本的鄰域中維持了一個決策邊界,從而防止了模式丟失。

3. RpGAN的訓練動態

盡管RpGAN的景觀結果,讓研究人員能夠解決模式丟失的問題,但RpGAN的訓練動態還有待研究。

等式2的最終目標是找到平衡點(θ^?, ψ^?),使得p_θ^? = p_D且Dψ^?在p_D上處處為常數。

這里,作者提出了兩個命題:

命題 I.(非形式化表述):使用梯度下降法時,未正則化的RpGAN并不總是收斂。

命題 II.(非形式化表述):在與Mescheder等人類似的假設條件下,使用R_1或R_2正則化的RpGAN能夠實現局部收斂。

對于第一個命題,他們通過分析表明,對于某些類型的p_D,比如接近于delta分布,RpGAN是不會收斂的。因此,為了構建一個表現良好的損失函數,進一步的正則化是必要的。

對于第二個命題,研究的證明類似地分析了在點(θ^?,ψ^?)處正則化RpGAN梯度向量場的雅可比(Jacobian)矩陣特征值。他們證明了所有特征值都具有負實部;因此,對于足夠小的學習率,正則化RpGAN在(θ^?,ψ^?)的鄰域內是收斂的。

4. 實際演示

如下圖1展示了,使用R_1正則化的傳統GAN損失函數,會快速發散。雖然從理論上來說,僅使用R_1正則化的RpGAN足以實現局部收斂,但它也會表現不穩定并且會快速發散。

同時使用R1和R2正則化后,傳統GAN和RpGAN的訓練都變得穩定。

如下表1所示,在穩定的情況下,可以看到傳統GAN存在模式丟失問題,而RpGAN則實現了完整的模式覆蓋,并將D_KL從0.9270降低到0.0781。

作為對比,StyleGAN使用小批量標準差技巧來減少模式丟失,在StackedMNIST數據集上將模式覆蓋從857提高到881,但在D_KL上幾乎沒有改善。

三、全新基線路線圖——R3GAN

精心設計的RpGAN+R_1+R_2損失緩解了GAN的優化問題,使研究者能夠以最新的網絡骨干進展為基礎,構建一個極簡的基準模型——R3GAN。

在這項工作中,研究者并不是簡單地陳述新方法,而是從StyleGAN2基準模型出發繪制路線圖。

該模型包括生成器 (G) 的VGG風格骨干網絡、判別器 (D) 的ResNet結構、一系列促進基于風格生成的技術,以及許多彌補弱主干網絡缺陷的技巧。

隨后,他們移除了StyleGAN2的所有非必要特性,應用了所提出的損失函數,并逐步對網絡骨干進行現代化改造。

研究者在FFHQ 256×256數據集上評估了每種配置。

所有配置的網絡容量大致保持相同——生成器 (G) 和判別器 (D) 的可訓練參數均約為2500萬。

每種配置的訓練均持續到判別器 (D) 處理了500萬張真實圖像。除非另有說明,訓練的超參數(例如優化器設置、批大小、EMA衰減長度)均沿用自配置A。

研究者針對最終模型調整了訓練超參數,并將在第4節中展示其收斂結果。

最小基線(配置B)

研究者移除了所有StyleGAN2的特性,僅保留原始的網絡骨干和基礎的圖像生成能力。

這些特性可分為三類:

  1. 基于風格的生成:映射網絡、風格注入、權重調制/去調制、噪聲注入 。
  2. 圖像操作增強:混合正則化、路徑長度正則化。
  3. 技巧:z歸一化、小批量標準差、均衡學習率、延遲正則化。

遵循以上做法,研究者將z的維度降低至64。由于移除了均衡學習率,學習率需進一步降低,從原來的2.5×10?3降至5×10??。

盡管與配置A相比,簡化后的基線模型的FID更高,但它仍能生成質量較好的樣本,并實現穩定的訓練效果。

研究者將其與DCGAN進行比較,主要區別包括:

a) 使用R1正則化的收斂訓練目標。

b) 較小的學習率,避免使用帶動量的優化器。

c) 在生成器 (G) 和判別器 (D) 中均不使用歸一化層。

d) 通過雙線性插值進行正確的重采樣,而非使用步幅(反卷積)操作。

e) 在G和D中使用leaky ReLU激活函數,G 的輸出層中不使用tanh。

f) G使用4×4常量輸入,輸出跳躍連接,D使用ResNet結構。

1. StyleGAN的實驗發現

違反a)、b) 或 c),通常會導致訓練失敗。前人研究表明,負動量可以改善 GAN的訓練動態。

然而,由于負動量的最優設置是一個復雜的超參數,因此研究者選擇不使用任何動量,以避免惡化GAN的訓練動態。

研究表明,歸一化層對生成模型有害。批歸一化通常會由于跨多個樣本的依賴性而破壞訓練,并且與假設每個樣本獨立處理的R_1、R_2或 RpGAN不兼容。

早期的GAN雖然可能違反a)和c),但仍能成功,這或許是因為它們對方程1提供了一個滿秩解。

違反d)或e)雖然不會顯著影響訓練的穩定性,但會對樣本質量產生負面影響。

不正確的反卷積可能導致棋盤偽影,即使使用子像素卷積或精心調整的反卷積也無法解決,除非應用低通濾波器。

插值方法可以避免該問題,為了簡化,研究者采用雙線性插值。

在激活函數的選擇上,研究者選擇使用leaky ReLU。

所有后續配置均遵守a)到e)。f)的違反是可以接受的,因為它涉及到 StyleGAN2的網絡骨干,在配置D和配置E中已經現代化。

表現良好的損失函數(配置C):研究者采用第2節提出的損失函數,將 FID降低到11.65。他們推測,配置B的網絡骨干是性能的限制因素。

通用網絡現代化(配置D):研究者首先將1-3-1瓶頸ResNet 架構應用于G和D。該架構是所有現代視覺骨干網絡的直接前身。

圖 2:架構對比。在圖像生成中,生成器 (G) 和判別器 (D) 通常都是深度卷積網絡 (ConvNets),且架構部分或完全對稱。(a) StyleGAN2的生成器 (G) 使用一個網絡將噪聲向量z映射到中間風格空間W。(b) StyleGAN2的構建模塊層次復雜,但其本質仍然簡單,采用了2015年的卷積網絡架構。(c) 研究者去除了各種技巧并對架構進行了現代化設計,如更干凈的層次結構,更強大的卷積網絡架構

研究者還結合了從配置B中發現的原則,以及ConvNeXt的各種現代化設計。他們將ConvNeXt的發展路線分為以下幾類:

i. 持續有益的改進:

– i.1) 使用深度卷積增加網絡寬度,

– i.2) 反轉瓶頸結構,

– i.3) 減少激活函數,

– i.4) 獨立的重采樣層。

ii. 性能提升有限:

– ii.1) 較大卷積核的深度卷積配合更少的通道數,

– ii.2) 用GELU替換ReLU,

– ii.3) 減少歸一化層,

– ii.4) 用層歸一化替換批歸一化。

iii. 與模型無關的改進:

– iii.1) 改進的訓練策略,

– iii.2) 階段比率,

– iii.3) 「patchify」的網絡輸入層。

研究者計劃將i)中的改進應用于他們的模型,特別是針對經典ResNet應用的i.3 和i.4,而i.1和i.2則留待配置E。

2. 神經網絡架構細節

基于i.3、i.4以及原則c)、d)和e),研究者將StyleGAN2的骨干替換為現代化的 ResNet。

生成器(G)和判別器(D)的設計完全對稱,參數量均為2500萬,與配置A相當。

架構設計極簡:每個分辨率階段包含一個轉換層和兩個殘差塊。

– 轉換層:由雙線性重采樣和一個可選的1×1卷積層組成,用于改變空間尺寸和特征圖通道數。

– 殘差塊:包括以下五個操作:Conv1×1→Leaky ReLU→Conv3×3→Leaky ReLU→Conv1×1,其中最后的Conv1×1不帶偏置項。

對4×4分辨率階段,轉換層在G中被基礎層替代,在D中被分類頭替代:

– 基礎層:類似于StyleGAN,使用4×4可學習特征圖,通過線性層調制z。

– 分類頭:使用全局4×4深度卷積去除空間維度,然后通過線性層生成D的輸出。

四、實驗細節

1. FFHQ-256的路線圖見解

如表2所示,配置A(原始 StyleGAN2)在FFHQ-256數據集上使用官方實現,達到了7.52的FID。

移除所有技巧的配置B,實現了12.46的FID,性能如預期有所下降。

配置C使用表現良好的損失函數,FID降至11.65,訓練穩定性也得到了顯著提升,為改進架構提供了可能。

Config D基于經典ResNet和ConvNeXt的研究改進了G和D,FID進一步降至9.95。

在研究者的新架構下,StyleGAN2生成器的輸出跳躍連接不再有用,保留它反而會使FID升高至10.17。

對于Config E,研究者進行了兩個實驗,分別對 i.1(通過深度卷積增加寬度)和 i.2(反轉瓶頸結構)進行消融。

通過反轉輸入層和瓶頸維度以增強分組卷積的容量,最終模型達到了7.05的 FID,性能超過了StyleGAN2。

2. 模式恢復實驗 – StackedMNIST

研究者在StackedMNIST數據集上重復了早期的1000模態收斂實驗,但這次使用了更新后的架構,并與當前最先進的GAN和基于似然的方法進行了比較(見表3和圖5)。

基于似然的模型(如擴散模型)的一個優勢是能夠實現模式覆蓋。

研究者發現,大多數GAN都難以捕獲所有模態。然而,PresGAN、DDGAN和他們的方法在這方面都取得了成功。

3. FID — FFHQ-256(優化版本)

研究者在FFHQ數據集上,以256×256 分辨率訓練Config E模型,直至收斂,并使用了優化的超參數和訓練計劃(見表4,圖4和圖6)。

他們的模型在該常見實驗設置下,性能優于現有的StyleGAN方法以及四種最新的基于擴散模型的方法。

4. FID — FFHQ-64

為了直接與EDM進行比較,研究者在FFHQ數據集上以64×64分辨率評估了模型。

為此,他們移除了256×256模型中兩個最高分辨率的階段,從而使生成器的參數數量不到EDM的一半。

盡管如此,模型在該數據集上的表現仍優于EDM,且僅需一次函數評估。

5. FID — CIFAR-10

研究人員在CIFAR-10數據集上訓練Config E模型,直至收斂,并使用了優化的超參數和訓練計劃(見表6,圖8)。

盡管模型容量相對較小,但在FID指標上仍優于許多其他GAN方法。

例如,StyleGAN-XL的生成器參數量為1800萬,判別器參數量為1.25億,而新模型的生成器和判別器總參數量僅為4000萬(如下圖3所示)。

與基于擴散模型的方法(如LDM、ADM)相比,GAN推理顯著更高效,因為GAN僅需一次網絡函數評估,而擴散模型在沒有蒸餾的情況下通常需要數十到數百次評估。

許多當前最先進的GAN都源于Projected GAN,包括StyleGAN-XL和同時期的StyleSAN-XL。這些方法在判別器中使用了一個預訓練的ImageNet分類器。

已有研究表明,預訓練的ImageNet判別器可能會將ImageNet的特征泄露到模型中,從而導致模型在FID評估中表現更好,因為它依賴于預訓練的ImageNet分類器來計算損失。

然而,這并未在感知研究中提升結果。新模型無需任何ImageNet預訓練,即可實現較低的FID。

6. FID — ImageNet-32

研究人員在ImageNet-32數據集(條件生成)上訓練Config E模型,直至收斂,并使用了優化的超參數和訓練計劃。

如下表7,對比了新方法與近期的GAN模型和擴散模型。

作者調整了生成器的參數數量,使其與StyleGAN-XL的生成器匹配(84M參數),具體來說,他們將模型顯著加寬以達到這一目標。

盡管判別器的參數量比StyleGAN-XL小了60%,且未使用預訓練的ImageNet分類器,新方法仍然達到了與其相當的FID。

7. FID — ImageNet-64

研究人員在ImageNet-64數據集上評估了新模型,以測試其擴展能力。

他們在ImageNet-32模型的基礎上增加了一個分辨率階段,使生成器的參數量達到了104M。

這一模型的規模僅為基于ADM骨干的擴散模型的三分之一(ADM骨干約有300M參數)。

盡管新模型規模更小,且僅需一步即可生成樣本,但在FID指標上仍然優于許多需要大量網絡函數評估(NFE)的更大型擴散模型(如下表8所示)。

8. 召回率

研究人員又在每個數據集上評估了模型的召回率,以量化樣本的多樣性。總體而言,新模型達到了與擴散模型相似或略差的召回率,但優于現有的GAN模型。

對于CIFAR-10,新模型的召回率最高達到0.57;作為對比,StyleGAN-XL盡管FID更低,但其召回率更差,僅為0.47。

對于FFHQ,新模型在64×64分辨率下獲得了0.53的召回率,在256×256分辨率下獲得了0.49的召回率,而StyleGAN2在FFHQ-256上的召回率為0.43。

研究者的ImageNet-32模型達到了0.63的召回率,這與ADM相當。

另外,ImageNet-64模型達到了0.59的召回率。雖然這略低于許多擴散模型達到的約0.63的水平,但仍優于BigGAN-deep所達到的0.48的召回率。

作者介紹:

Yiwen Huang

Yiwen Huang(Nick Huang)目前是布朗大學計算機科學博士生。他曾于2023年獲得了布朗大學碩士學位。

Aaron Gokaslan

Aaron Gokaslan是康奈爾大學的四年級博士候選人,導師是Volodymyr Kuleshov。此前,他在Facebook AI Research工作,由Dhruv Batra指導。

在此之前,他布朗大學完成了碩士和本科學業,師從James Tompkin。

Gokaslan的研究重點是識別、設計和構建高效、可擴展、可持續且經濟的生成建模研究抽象和基礎設施。我也在數據、法律和AI政策的交叉領域開展工作。

Volodymyr Kuleshov

Volodymyr Kuleshov目前是康奈爾大學計算機科學系助理教授。他曾在斯坦福大學獲得博士學位,并獲得了Arthur Samuel最佳論文獎。

他的研究主要關注機器學習及其在科學、健康和可持續性方面的應用。

James Tompkin

James Tompkin是布朗大學助理教授,專注于計算機視覺、計算機圖形學和人機交互領域。

參考資料:

https://x.com/iScienceLuvr/status/1877624087046140059

https://huggingface.co/papers/2501.05441

https://x.com/multimodalart/status/1877724335474987040

https://x.com/SkyLi0n/status/1877824423455072523

編輯:Aeneas 桃子

本文由人人都是產品經理作者【新智元】,微信公眾號:【新智元】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!