聊聊Stable Diffusion 1

0 評(píng)論 539 瀏覽 1 收藏 6 分鐘

為了更好地?fù)肀I時(shí)代,不少設(shè)計(jì)師或許需要接觸AI應(yīng)用軟件,比如本文作者就開(kāi)始學(xué)習(xí)并使用Stable Diffusion。這篇文章里,作者聊了聊自己的理解,一起來(lái)看一下。

AIGC已經(jīng)是大勢(shì)所驅(qū),設(shè)計(jì)師要如何不被AI所替代,是我經(jīng)常思考的問(wèn)題,“覺(jué)得會(huì)被替代、對(duì)AI產(chǎn)生恐懼”,產(chǎn)生這種情緒只因我們不了解AIGC,因此我想我們應(yīng)該大膽迎接,深入了解?;诖?,我早已投入到學(xué)習(xí)的行列中了,這段時(shí)間以來(lái),我學(xué)習(xí)stable diffusion以及comfyui的相關(guān)知識(shí),并且想通過(guò)寫(xiě)文章的方式將這些知識(shí)總結(jié)復(fù)盤(pán)。

本文章優(yōu)先介紹下stable diffusion,理解了stable diffusion原理,comfyui就比較簡(jiǎn)單了,兩者原理是互通的。再加上現(xiàn)在市場(chǎng)很多AI生成圖片的軟件工具也是基于stable diffusion的邏輯去設(shè)計(jì)的,所以了解stable diffusion的運(yùn)行原理,幫助我們掌握其他AI生成圖片的軟件工具。

一、Stable Diffusion的來(lái)源

Stable Diffusion(簡(jiǎn)稱SD)是2022年發(fā)布的一個(gè)深度學(xué)習(xí)文本到圖像生成模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體首先提出,并與初創(chuàng)公司Stability AI、Runway合作開(kāi)發(fā),同時(shí)得到了EleutherAI和LAION的支持。

二、Stable Diffusion的功能

它可以實(shí)現(xiàn)的功能有很多,可以根據(jù)文本的描述生成指定內(nèi)容的圖片(圖生圖),也可以用于已有圖片內(nèi)容的轉(zhuǎn)繪(圖生圖),還可以用作圖像的局部重繪、外補(bǔ)擴(kuò)充、高清修復(fù),甚至是視頻的“動(dòng)畫(huà)化”生成。

三、Stable Diffusion的原理

Stable Diffusion使用的是Latent Diffusion Model(潛在擴(kuò)散模型),它通過(guò)使用經(jīng)過(guò)訓(xùn)練的編碼器(VAE中的E)將全尺寸圖像編碼為較低維度的圖像,然后再在潛空間內(nèi)進(jìn)行正向擴(kuò)散過(guò)程和反向擴(kuò)散過(guò)程。再經(jīng)過(guò)訓(xùn)練的解碼器 (VAE中的D),將圖像從其潛在表示解碼回像素空間。

該模型由下圖所示的3個(gè)部分組成:pixel space(像素空間)、latent space (潛空間)、conditioning(條件)。

穩(wěn)定擴(kuò)散過(guò)程:

  • 感知圖像壓縮(Perceptual Image Compression):圖3中最左側(cè)紅框部分是一個(gè)VQ-VAE,用于將輸入圖像x編碼為一個(gè)離散特征z。
  • LDM:圖3的中間綠色部分是在潛變量空間的擴(kuò)散模型,其中上半部分是加噪過(guò)程,用于將特征Z加噪為ZT 。下半部分是去噪過(guò)程,去噪的核心結(jié)構(gòu)是一個(gè)由交叉注意力(Cross Attention)組成的U-Net,用于將ZT還原為Z 。
  • 條件機(jī)制(Conditioning Mechanisms):上圖的右側(cè)是一個(gè)條件編碼器,用于將圖像,文本等前置條件編碼成一個(gè)特征向量,并將其送入到擴(kuò)散模型的去噪過(guò)程中。

四、Stable Diffusion(Latent Diffusion Model)的特點(diǎn)

與Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具備更快速、更穩(wěn)定的特點(diǎn)。

  • 更快速:與Diffusion Models相比,Latent Diffusion Model模型通過(guò)減少噪聲的數(shù)量和步驟,從而減少模型的訓(xùn)練時(shí)間。
  • 更穩(wěn)定:與GAN相比更穩(wěn)定,GAN作為是早期的圖像生成模型,通過(guò)生成器(Generato)與判別器(Discriminator)不斷對(duì)抗進(jìn)行訓(xùn)練。但生成的圖片存在對(duì)輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機(jī)圖像、分辨率比較低的問(wèn)題。

最后,這篇文章初步介紹了Stable Diffusion的原理和特點(diǎn),下一篇文章我想聊一聊自己是如何使用Stable Diffusion這個(gè)工具以及后續(xù)的一些實(shí)戰(zhàn)案例。敬請(qǐng)期待!

數(shù)據(jù)來(lái)源:

https://zhuanlan.zhihu.com/p/667057805

https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/

https://developer.baidu.com/article/details/3222941

本文由 @bwyw 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于CCO協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!