聊聊Stable Diffusion 1
為了更好地?fù)肀I時(shí)代,不少設(shè)計(jì)師或許需要接觸AI應(yīng)用軟件,比如本文作者就開(kāi)始學(xué)習(xí)并使用Stable Diffusion。這篇文章里,作者聊了聊自己的理解,一起來(lái)看一下。
AIGC已經(jīng)是大勢(shì)所驅(qū),設(shè)計(jì)師要如何不被AI所替代,是我經(jīng)常思考的問(wèn)題,“覺(jué)得會(huì)被替代、對(duì)AI產(chǎn)生恐懼”,產(chǎn)生這種情緒只因我們不了解AIGC,因此我想我們應(yīng)該大膽迎接,深入了解?;诖?,我早已投入到學(xué)習(xí)的行列中了,這段時(shí)間以來(lái),我學(xué)習(xí)stable diffusion以及comfyui的相關(guān)知識(shí),并且想通過(guò)寫(xiě)文章的方式將這些知識(shí)總結(jié)復(fù)盤(pán)。
本文章優(yōu)先介紹下stable diffusion,理解了stable diffusion原理,comfyui就比較簡(jiǎn)單了,兩者原理是互通的。再加上現(xiàn)在市場(chǎng)很多AI生成圖片的軟件工具也是基于stable diffusion的邏輯去設(shè)計(jì)的,所以了解stable diffusion的運(yùn)行原理,幫助我們掌握其他AI生成圖片的軟件工具。
一、Stable Diffusion的來(lái)源
Stable Diffusion(簡(jiǎn)稱SD)是2022年發(fā)布的一個(gè)深度學(xué)習(xí)文本到圖像生成模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體首先提出,并與初創(chuàng)公司Stability AI、Runway合作開(kāi)發(fā),同時(shí)得到了EleutherAI和LAION的支持。
二、Stable Diffusion的功能
它可以實(shí)現(xiàn)的功能有很多,可以根據(jù)文本的描述生成指定內(nèi)容的圖片(圖生圖),也可以用于已有圖片內(nèi)容的轉(zhuǎn)繪(圖生圖),還可以用作圖像的局部重繪、外補(bǔ)擴(kuò)充、高清修復(fù),甚至是視頻的“動(dòng)畫(huà)化”生成。
三、Stable Diffusion的原理
Stable Diffusion使用的是Latent Diffusion Model(潛在擴(kuò)散模型),它通過(guò)使用經(jīng)過(guò)訓(xùn)練的編碼器(VAE中的E)將全尺寸圖像編碼為較低維度的圖像,然后再在潛空間內(nèi)進(jìn)行正向擴(kuò)散過(guò)程和反向擴(kuò)散過(guò)程。再經(jīng)過(guò)訓(xùn)練的解碼器 (VAE中的D),將圖像從其潛在表示解碼回像素空間。
該模型由下圖所示的3個(gè)部分組成:pixel space(像素空間)、latent space (潛空間)、conditioning(條件)。
穩(wěn)定擴(kuò)散過(guò)程:
- 感知圖像壓縮(Perceptual Image Compression):圖3中最左側(cè)紅框部分是一個(gè)VQ-VAE,用于將輸入圖像x編碼為一個(gè)離散特征z。
- LDM:圖3的中間綠色部分是在潛變量空間的擴(kuò)散模型,其中上半部分是加噪過(guò)程,用于將特征Z加噪為ZT 。下半部分是去噪過(guò)程,去噪的核心結(jié)構(gòu)是一個(gè)由交叉注意力(Cross Attention)組成的U-Net,用于將ZT還原為Z 。
- 條件機(jī)制(Conditioning Mechanisms):上圖的右側(cè)是一個(gè)條件編碼器,用于將圖像,文本等前置條件編碼成一個(gè)特征向量,并將其送入到擴(kuò)散模型的去噪過(guò)程中。
四、Stable Diffusion(Latent Diffusion Model)的特點(diǎn)
與Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具備更快速、更穩(wěn)定的特點(diǎn)。
- 更快速:與Diffusion Models相比,Latent Diffusion Model模型通過(guò)減少噪聲的數(shù)量和步驟,從而減少模型的訓(xùn)練時(shí)間。
- 更穩(wěn)定:與GAN相比更穩(wěn)定,GAN作為是早期的圖像生成模型,通過(guò)生成器(Generato)與判別器(Discriminator)不斷對(duì)抗進(jìn)行訓(xùn)練。但生成的圖片存在對(duì)輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機(jī)圖像、分辨率比較低的問(wèn)題。
最后,這篇文章初步介紹了Stable Diffusion的原理和特點(diǎn),下一篇文章我想聊一聊自己是如何使用Stable Diffusion這個(gè)工具以及后續(xù)的一些實(shí)戰(zhàn)案例。敬請(qǐng)期待!
數(shù)據(jù)來(lái)源:
https://zhuanlan.zhihu.com/p/667057805
https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/
https://developer.baidu.com/article/details/3222941
本文由 @bwyw 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于CCO協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!