国产真人无码作爱免费视频APP,亚洲男人的天堂最新网站喷水,中文字幕无码成人免费视频

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

白話科普 | 一次性搞懂AI繪畫是如何生成圖像的！

楠柯

2023-09-26

4 評論 6631 瀏覽 23 收藏

36 分鐘

為什么我們輸入一句話，人工智能便能產出一幅畫作呢？AI繪畫究竟是如何生成圖像的？這篇文章里，作者將AI繪畫過程拆解成了5個核心問題，或許搞清楚這5個核心問題，你就能明白AI繪畫的工作原理了，一起來看看吧。

寫在前面

前段時間和Leader聊AIGC時，提到了關于AI繪畫原理的話題，一直只知道人工智能是降噪畫圖的原理，但是很多細節不是很清楚，挺好奇為什么輸入一句話，人工智能就能理解，并且畫出來一幅“可圈可點”的畫作。

趁著周末爬了些資料，也找學術界朋友給推薦了一些研究論文，大概明白了AI繪畫是如何工作的，分享給大家，共勉。

Ps：主要通過白話的方式闡述AI繪畫原理，手動繪制了插圖和流程圖作為示意，算法原理略去了很多細節，適用于泛AIGC愛好者閱讀和學習了解。

整個AI繪畫過程，我拆解成了五個核心問題，搞清楚這五個問題，AI繪畫也就清晰了：

我只輸入了一句話，AI是怎么知道這句話描述的是什么？
AI繪畫流程里提到的噪聲圖是哪里來的？
就算有了噪聲圖，噪聲圖是怎么被一點一點去掉“馬賽克”的？
那AI是怎么去掉無用的“馬賽克”的，最終去掉后是符合效果的？
就算有了最終效果，為什么重新作畫的結果不一樣？

是不是看到這五個問題也有點懵，別著急，下面我們先看下AI繪畫的繪制過程，就清楚這五個問題都是在問什么了。

先看總述：AI繪畫的繪制過程

AI繪畫發展很快，最典型的就是去年的《太空歌劇院》，獲得科羅拉多州藝術一等獎，當時還是蠻震撼的。

因為再往前看幾年，其實AI繪畫的效果是這樣的（12年吳恩達和團隊用1.6萬GPU和上萬張數據，花了3天時間畫出來的貓…）：

我們再看下現在AI繪畫的效果（普通人輸入一句話，幾秒鐘畫出來的作品）：

Source: https://liblib.ai/ 官網

可以看出畫質高清、精致，寫實感很強，甚至可以比得上攝影師的作品了。

所以AI到底是怎么越來越優秀，根據一句話和幾個參數就能畫出這么好的作品呢？

先拋結論，AI繪畫原理就是：

去除馬賽克，就能看清了。

其實N多年前某些成人網就有了類似的技術，不過那個是1vs1還原，AI繪畫本質是1vsN還原，核心就是把馬賽克一點一點抹掉，最終“漏出”底圖，完成所謂的“AI繪畫”。

圖像繪制：Designed byLiunn

我們先看下，AI繪畫的使用場景，所有的軟件或模型，基本上第一步都是讓用戶輸入繪畫關鍵詞，也就是Prompt。

以Diffusion Model的示意如下，我們把最右邊的當做正常圖片，從右到左是不斷模糊的，直至最后看不出來是什么，這個過程就是算法的疊加噪聲。

你可以理解為不斷對圖片進行馬賽克處理，這就是最著名的“擴散（Diffusion）”過程。

Source:https://mp.weixin.qq.com/s/ZtsFscz7lbwq_An_1mo0gg

打個比喻，我們把這個過程想象成你在發朋友圈照片時，想屏蔽一些信息，所以使用“編輯”功能不斷地對某些區域進行涂抹，直到這個區域看不清原本的內容了。

并且每一次的噪聲迭代其實僅僅和上一次的狀態相關聯，所以這本質上也是一個馬爾科夫鏈模型（簡單理解為隨機模型，細節可以移步google）。

此時，如果把這個過程倒過來，從左到右做處理，那么就是一步步把一個圖片逐漸去除噪聲，變清晰的過程。

也就是你的朋友圈照片馬賽克越來越少，這個過程就是Diffusion Model的原理。

OK，看到這里，我們明白了大概流程和原理，接下來，我們來依次看五個核心問題。

第一個問題：如何理解文本信息

你輸入的文字，AI是怎么知道你想要描述的是什么？

按照上面所說的原理，圖片是被一點點抹去馬賽克的，但是我寫的文本信息是怎么匹配到某一個馬賽克圖片的呢？

我們都知道，目前AI繪畫最主流的使用方式就是在模型或軟件里，輸入一句話（俗稱Prompt），可以寫主體、背景、人物、風格、參數等等，然后發送，就可以得到一張圖。

比如，“一個穿背帶褲打球的雞”，效果如下：

圖像繪制：Source: Designed byLiunn

AI繪畫底層也是大模型，是一個圖像模型。

最早的時候文本控制模型的做法是讓模型生成一堆圖片，然后再讓分類器從中選出一個最符合的，這種方式沒什么不好，唯一的缺點就是當數據量大到一定程度的時候，就會崩潰（想象一下，用excel處理上百億行的數據，是不是負擔很大）。

所以一方面需要非常多的圖片數據來訓練，另一方面又需要高效且快捷的處理，能承擔這個任務的，就是Openai在21年推出的OpenCLIP。

CLIP的工作原理其實可以簡單理解為：爬蟲、文本+圖片的信息對。

第一，先看CLIP的爬蟲和數據庫。

CLIP的最大亮點之一就是采用了非常多的數據，構成了一個龐大的數據庫。

每次CLIP爬取到一張圖片后，都會給圖片打上對應的標簽以及描述（實際CLIP 是根據從網絡上抓取的圖像以及其 “alt” 標簽進行訓練的）

Source:https://jalammar.github.io/illustrated-stable-diffusion/，引自Jay Alammar博客

然后從768個維度重新編碼這些信息（你可以理解為從768個不同的角度來描述這個圖）。

然后根據這些信息構建出一個超多維的數據庫，每一個維度都會和其他維度交叉起來。

同時相似的維度會相對靠攏在一起，按照這種方式CLIP不斷爬取，最終構建了一個大概4~5億的數據庫。

圖像繪制：Source: Designed byLiunn

第二，再看CLIP的文本圖像匹配能力。

OK，有了數據庫，庫里的圖像怎么和輸入的文字匹配呢？這里又分兩個步驟：

步驟01，怎么具備文本-圖像匹配的能力。

先看下圖，是算法的原理圖，看不懂沒關系，我在下面重新繪制了一幅降維版的示意圖。

Source: https://github.com/openai/CLIP

我們來看下面這幅示意圖，CLIP是如何識別文本和圖像的關聯。

作圖繪制參考Source: https://jalammar.github.io/illustrated-stable-diffusion/，Designed By Liunn

這里是一個簡化的算法模型，其本質是不斷地通過大量數據來訓練CLIP去關聯、認識圖片和文字，并且根據和答案的比對，不斷地矯正，最后達到精確匹配關鍵詞和特征向量。

步驟02，如何去做文本-圖像匹配的關聯。

好了，我們再來看CLIP是如何做到文本圖像的匹配的。

當我們開始作畫時，會錄入文本描述（即Prompt），CLIP模型就會根據Prompt去上面的數據庫里從768個維度進行相似度的匹配，然后拿圖像和文本編碼后的特征去計算出一個相似性矩陣。

再根據最大化對角線元素同時最小化非對角線元素的約束，不斷地優化和調整編碼器，最終讓文本和圖片編碼器的語義強關聯起來。

圖像繪制：Source: Designed byLiunn

最后，當找到最相似的維度描述后，把這些圖像特征全部融合到一起，構建出本次要產出的圖像的總圖像特征向量集。

至此，輸入的一段話，就轉換成了這次生成圖像所需要的全部特征向量，也就是AI所謂的已經“理解了你想畫什么樣的畫了”。

這個跨越已經算是AI界的“登月一小步”了

有了CLIP的這個創新舉措，基本上徹底打通了文字和圖片之間的鴻溝，搭建了一個文本和圖像之間關聯的橋梁，再也不需要以前圖像處理界的打標簽的方式來不斷堆人了。

第二個問題：原始噪聲圖的來源

上面講到AI繪畫是把“馬賽克”一點點抹掉，那所謂的“馬賽克”圖，也就是噪聲圖是怎么來的呢？

噪聲圖的是擴散模型生成的，先記住這個概念“擴散模型”。

講擴散模型之前，需要先講另一個概念，AI生成圖片的過程，其實是人工智能領域的一個分支，生成模型（Generative Model）。

生成模型主要是生成圖像的，通過扔進去大量真實的圖片讓AI不斷去了解、認識和學習，然后根據訓練效果，自己生成圖片。

在生成模型里，有個自動編碼器的東西，它包含兩個部分：編碼器和解碼器。

編碼器可以把比較大的數據量壓縮為較小的數據量，壓縮的前提是這個較小的數據量是能夠代表最開始的大數據量的；

解碼器可以根據這個較小的數據量在適當的條件下，還原為最開始的的大數據量。

所以這個時候就有意思了：

能否直接給它一個較小的數據量，看看它自己能隨機擴大成一個什么樣的大數據量？

圖像繪制：Source: Designed byLiunn

答案是可以的，但，測試效果很一般。

所以自動編碼器不行了，怎么辦呢，科學家發明了另一個東西，叫VAE（變分編碼器，Variational Auto-encoder）。

VAE是做什么的，主要是把較小的數據量進行規律化，讓其符合高斯分布的概率。

這樣就可以依據這個，來調整一個圖片信息按照概率的變化進行對應的改變，但是有個問題，這個太依賴概率了，大部分概率都是假設的理想情況，那怎么辦呢？

所以這個時候科學家就想，能不能做兩個AI，一個負責生成，一個負責檢驗它生成的行不行，也就是AI互相評估真假，這就是GAN，對抗神經網絡誕生了。

GAN一方面生成圖片，一方面自己檢測行不行，比如有時候有些圖片細節沒有按照要求生成，檢測的時候GAN發現了，它后面就會不斷加強這塊，最終讓自己覺得結果可以，這樣不斷地迭代成千上億次，最終生成的結果，檢測也OK的時候，就是生成了一個AI的圖片了。

但問題又來了

GAN一方面自己做運動員，一方面自己做裁判，太忙了，不僅消耗大量的計算資源，同時也容易出錯，穩定性也不好，那怎么辦呢？能不能讓AI別搞這么復雜，用一套流程完成呢？

答案是肯定的，這就是跨越了生成模型時代后，擴散模型的時代到來了。

話題回到擴散模型這里。

擴散模型最早是由斯坦福和伯克利學術專家，在2015年相關論文里提出的，依據正態分布給圖像逐步增加噪聲，到了2020年加噪聲的過程被改為根據余弦相似度的規律來處理。（文末附上了15年和20年的原始學術論文鏈接，感興趣可以自行閱讀）

根據余弦調度逐漸正向擴散原始圖，就像把一個完整的拼圖一步一步拆開，直至完全打亂。

圖像繪制：Source:Designed byLiunn

到這里，第二個問題也解決了。當你看到這里的時候，AI繪畫的輸入信息基本Ready了。

第三個問題：模型如何去除噪聲

AI把文字轉成了特征向量了，也拿到噪聲圖片了，但噪聲圖是怎么一點點被去除“馬賽克”的呢？

它是怎么消除掉馬賽克的呢？這里面分為兩個步驟：

步驟一，降維數據運算，提升運算效率；

步驟二，設計降噪網絡，識別無用噪聲，精準降噪。

先看步驟一：還記得上文提到的自動編碼器么？

圖像特征向量和噪聲圖，會一起扔到編碼器里進行降噪，也就是去除馬賽克的過程。

但是這里有個問題，就是一張512*512的RGB圖片就需要運算786432次，即512*512*3=786432條數據，這個運算量太大了

所以在這些數據在進入到編碼器之前，都會被壓縮到潛空間里去，降維到64*64*4=16384條數據（不知道你有沒有用SD的時候注意到，我們在Stable Diffusion里調整圖像大小的時候，最小只能拖到64px，這就是其中的原因）。

Source:https://jalammar.github.io/illustrated-stable-diffusion，Designed byLiunn

這樣的話，整個文生圖的任務就能夠降維到消費級的GPU上運算（雖然現在算力依然是個問題，A100都沒有吧？有的話私我！）

降低了落地門檻，運算和配置效率都得到了極大的提升。

再看步驟二：設計一個降噪網絡。

明白了數據降維的問題，我們繼續看，AI怎么逐步去除噪聲生成新圖呢，圖像編碼器又是如何給圖像降噪，從而生成一張全新的圖片的呢？

圖像繪制：Designed byLiunn

關于降噪方式，ddpm在2020年年底的相關論文預測了三件事：

噪聲均值（mean of noise）：預測每個時間步長的噪聲均值。
原始圖像（original image）：直接預測原始圖像，一步到位。
圖像噪聲（noise of image）：直接預測圖像中的噪聲，以獲得噪聲更少的圖像。

現在的模型，大部分都是采用了第三種方式。

這個去除噪聲的網絡是怎么設計的呢？

這個主要歸功于編碼器中的U-Net（卷積神經網絡-圖像分割）了。

Source:https://jalammar.github.io/illustrated-stable-diffusion/

U-Net是一個類似于編碼-解碼器的漏斗形狀的網絡（上圖左），不同點在于U-Net在相同層級的編碼、解碼層增加了直連通道（你可以理解為兩棟大樓之間，同一樓層之間加了連橋，可以走動）

這樣好處在于處理圖片時，相同位置的信息在編碼、解碼過程中可以方便快捷的進行信息傳輸。

那它是怎么工作的呢？

剛才我們說了，DDPM提到，目前基本上所有的模型都采用直接預測圖像中的噪聲，以便于獲得一張噪聲更少的圖片。

U-Net也是如此。

U-Net根據拿到第一節里提到的圖像的全部特征向量集合后，從向量集合里通過采樣的方式抽取一部分特征向量，再根據這些向量識別出其中的無用的噪聲

然后用最開始的全噪聲圖和當前這次預測的噪聲做減法（實際處理過程比這會復雜一些），然后得到一個比最開始噪聲少一些的圖，然后再拿這個圖，重復上述流程，再次通過采樣的方式抽取一部分特征向量，再去做噪聲預測，然后再拿N-2次的圖像和N-1次的圖像相減，拿到N-3次的圖像

繼續重復上述流程，直至最終圖像清晰，沒有噪聲或沒有識別出無用的噪聲為止，最終生成一張符合要求的圖像。

圖像繪制思路：Source:https://jalammar.github.io/illustrated-stable-diffusion/，Designed byLiunn

這里面，有的同學注意到了，還涉及到一個采樣方法的環節。

每一次的采樣，根據不同的采樣方法，可以用同樣的方式，也可以用不同的采樣方式。不同的采樣方法會抽取出不同維度、不同特質、不同規模的特征向量，最終確實會對輸出結果有影響（這也是影響AI繪畫可控性的因素之一）。

最后，還記得剛剛提到的數據降維嗎？

降維是為了降低運算量，加快速度，降維后其實是進入到一個潛空間里，那么圖像全部降噪完成后，會通過圖像解壓器也就是VAE模型，重新還原回來，被重新釋放到像素空間里（可以理解為IPhone里云端存儲的照片，你最開始看的是縮略圖，當你點開大圖想看的時候，會慢慢從云端下載，變成高清的）。

以上，就是噪聲模型網絡去噪的簡易過程。

第四個問題：應該去除哪些無用的噪聲

AI是怎么能夠按照我描述的來去除特定的馬賽克，而不是我寫了“狗狗”，畫出來一只“貓咪”呢？

U-Net模型如何識別應該去除哪些噪聲呢？其實這就是一個模型訓練的過程。

講解模型訓練之前，需要先普及幾個概念：

訓練集：用來不斷讓AI學習和糾錯的，讓AI可以不斷成長的一個數據集合，你可以理解為打籃球時教練帶你在訓練場訓練。
強化學習：當AI犯錯的時候，告訴它錯了；當AI正確的時候，告訴他對了；你可以理解為籃球教練在不斷糾正你的投籃姿勢，讓你訓練的更快更強。
測試集：用訓練集訓練一段時間后，看看AI能力如何的一個數據集合，你可以理解為打籃球時訓練半年，組織了一場友誼賽。

先看U-Net的訓練集是怎么構建的，主要分為四個步驟：

從圖文數據集中隨機選擇照片；
生產不同強度的噪聲，順次排列；
隨機選擇某個強度的噪聲；
將該噪聲加到圖片里。

圖像繪制思路：Source:https://jalammar.github.io/illustrated-stable-diffusion/，Designed byLiunn

再來看U-net是怎么處理的。

U-Net的訓練集是很多張已經疊加了隨機噪聲的數據庫，可以理解為很多添加了馬賽克的圖片（籃球訓練場地），然后讓AI不斷地從這個數據庫里抽取圖片出來，自己嘗試抹去噪聲，全部抹掉后再來和這張圖的原圖做比對，看看差別多大。

圖像繪制思路：Source:https://jalammar.github.io/illustrated-stable-diffusion/，Designed byLiunn

計算出這個差距，然后重新去庫里抽取，再嘗試抹去噪聲（強化學習），循環無數次，最終實現的效果是，無論怎么隨機抽，并且換一個新的噪聲圖片庫（測試集），AI抹掉的噪聲后的圖像也能和原圖很像（風格都類似，不一定是原圖，這也就是為什么AI每次出圖都不一樣）。

這樣的話就算通過了，這個模型就算Ready了（可以上線了）。

以上就是U-Net識別且去除無用噪聲的過程。

第五個問題（穩定性控制），我應該如何控制出圖效果？

經常玩AI繪畫的小伙伴會發現，其實目前大模型最不可控的地方就是它的不穩定性。

那么如果想要稍微控制下AI繪畫的效果，有什么好的方法嗎？

這里給出四種方式，供大家參考。

first：調整Prompt（也就是改描述語，本質是調整圖片的CLIP特征）

通過輸入不同的描述詞，以及更改局部Prompt，一步步引導AI模型輸出不同的圖像，其本質就是更改了匹配到的CLIP對應的待處理的圖像特征向量集合，所以最終的出圖會不斷地調整、優化（這里還有一些玄學技巧，比如給某些Prompt里的部分起名字，也可以獲得穩定性，本質是給部分Prompt結構打標記，便于AI算法識別…）。

Second：墊圖（也就是俗稱的img2img，本質是加噪聲）

現在主流的AI繪畫軟件和模型都支持墊圖功能，也就是你上傳一張圖，然后根據你這張圖的輪廓或者大概樣式，再生成一張圖。

其本質就是將你上傳的圖疊加幾層噪聲，然后拿這個疊噪后的圖片作為基礎再讓AI進行去噪操作，后續流程不變，所以最終風格、結構和原圖相似的概率很大。

不過值得一提的是，現在很多Webui還支持選擇和原圖相似度多少的操作，對應到算法上其實就是在問你要疊加多少層噪聲，當然是疊加的噪聲越少，越和原圖相似，反之可能越不像（不過這也是概率問題，也會存在疊加的多的時候生成的圖也比疊加的少的時候更像）。

Third，插件（通過第三方插件/工具輔助控制，本質是訓練模型）

拿最典型、最經典的ControlNet來說，可以通過任意條件或要求來控制生成的效果，基本上可以說是指哪打哪的效果了。

其本質你可以理解為是通過一張圖來訓練模型，達到自己想要的效果。

它把去噪模型整個復制了一遍，然后兩個模型并行處理，一個做常態去噪，一個做條件去噪，最后再合并，達到穩定控制的效果。

Fourth，訓練模型（自己拿大量數據單獨訓練，本質是Finetune）

這個不解釋了吧，就是你自己有很多圖，自己建個圖像庫，然后不斷地訓練大模型去識別這些圖像，最終給模型一兩個詞，大模型就能識別且生成相似的圖像，這樣就實現了Finetune一個自己的小模型的效果。

注意：Finetune需要注意邊界和用力程度，測試集的效果的評判指標要做好，否則訓練時間很久的時候，就會對小樣本數據過擬合，這樣會失去大模型的泛化性，可能得不償失（也有解決方案，比如Reply，讓大模型重新學一遍，或者正則化模型，或者做并行模型，細節不展開）。

恭喜，當你閱讀到這里的時候，基本上應該已經了解了AI繪畫的前龍去脈了，由于是把很多算法文章抽象為了白話文，所以很多細節也都略去了，拋磚引玉，有遺漏或不當的地方，歡迎和大家交流、互相學習。

說好的福利來了，相信AIGC死忠粉會喜歡。

驚喜：分享7個常見的文圖生成的數據集

COCO（COCO Captions）

COCO Captions是一個字幕數據集，它以場景理解為目標，從日常生活場景中捕獲圖片數據，通過人工生成圖片描述。該數據集包含330K個圖文對。

數據集下載鏈接：https://cocodataset.org/

Visual Genome

Visual Genome是李飛飛在2016年發布的大規模圖片語義理解數據集，含圖像和問答數據。標注密集，語義多樣。該數據集包含5M個圖文對。

數據集下載鏈接：http://visualgenome.org/

Conceptual Captions（CC）

Conceptual Captions（CC）是一個非人工注釋的多模態數據，包含圖像URL以及字幕。對應的字幕描述是從網站的alt-text屬性過濾而來。CC數據集因為數據量的不同分為CC3M（約330萬對圖文對）以及CC12M（約1200萬對圖文對）兩個版本。

數據集下載鏈接：https: //ai.google.com/research/ConceptualCaptions/

YFCC100M

YFCC100M數據庫是2014年來基于雅虎Flickr的影像數據庫。該庫由一億條產生于2004年至2014年間的多條媒體數據組成，其中包含了9920萬張的照片數據以及80萬條視頻數據。YFCC100M數據集是在數據庫的基礎之上建立了一個文本數據文檔，文檔中每一行都是一條照片或視頻的元數據。

數據集下載鏈接：http://projects.dfki.uni-kl.de/yfcc100m/

ALT200M

ALT200M是微軟團隊為了研究縮放趨勢在描述任務上的特點而構建的一個大規模圖像-文本數據集。該數據集包含200M個圖像-文本對。對應的文本描述是從網站的alt-text屬性過濾而來。（私有數據集，無數據集鏈接）

LAION-400M

LAION-400M通過CommonCrwal獲取2014-2021年網頁中的文本和圖片，然后使用CLIP過濾掉圖像和文本嵌入相似度低于0.3的圖文對，最終保留4億個圖像-文本對。然而，LAION-400M含有大量令人不適的圖片，對文圖生成任務影響較大。很多人用該數據集來生成色情圖片，產生不好的影響。因此，更大更干凈的數據集成為需求。

數據集下載鏈接：https://laion.ai/blog/laion-400-open-dataset/

LAION-5B

LAION-5B是目前已知且開源的最大規模的多模態數據集。它通過CommonCrawl獲取文本和圖片，然后使用CLIP過濾掉圖像和文本嵌入相似度低于0.28的圖文對，最終保留下來50億個圖像-文本對。該數據集包含23.2億的英文描述，22.6億個100+其他語言以及12.7億的未知語。

數據集下載鏈接：https://laion.ai/blog/laion-5b/

最后，一些題外話：

AIGC技術的發展，除了數據突破、算力突破、算法突破等等之外。

我覺得最重要的一點是：開源。

開源，代表的是公開、透明、分享、共同進步，期待共創。

包括像上面提到的CLIP（OpenAI共享了模型權重），不可否認有些國家核心技術不能開源可以理解，但是AI開源這事，確實可以讓眾多研究人員、科學家、學者甚至野生的愛好者獲得最大的信息量和透明度。

以此；

在該基礎上快速、健康、多樣化的進行衍生和發展，這是極其有利于整個AI生態的長期、可持續、良性發展的。

分享即學習，AI的新時代，永遠是共享、透明的主旋律。

盡量拋棄有個好想法，閉門造車的狀態，共同打造一個AIGC環境和氛圍。

這樣當你坐在波音飛機上的時候，就可以不用太糾結坐前排還是坐后排了，因為你本身已經在超速前進了……

附部分參考資料和CLIP源文檔：

OpenCLIP 的 GitHub 網址：https://github.com/mlfoundations/open_clip
15年的擴散模型論文：《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》https://arxiv.org/abs/1503.03585
20年的DDPM論文：《Denoising Diffusion Probabilistic Models》https://arxiv.org/abs/2006.11239
《High-Resolution Image Synthesis with Latent Diffusion Models》：https://arxiv.org/abs/2112.10752
《Hierarchical Text-Conditional Image Generation with CLIP Latents》：https://arxiv.org/pdf/2204.06125.pdf
《Adding Conditional Control to Text-to-Image Diffusion Models》：https://arxiv.org/abs/2302.05543
文末驚喜一的7個數據集的原始出處：引自整數智能AI研究院《從文本創建藝術，AI圖像生成器的數據集是如果構建的》
部分繪圖參考思路出處：引自亞馬遜云開發者《Generative AI新世界 | 走進文生圖（Text-to-Image）領域》
部分思路參考出處：引自騰訊云開發者《【白話科普】10分鐘從零看懂AI繪畫原理》
【科普】你的文字是怎么變成圖片的？https://v.douyin.com/iemGnE9L/
以及部分博客作者的博文

專欄作家

楠神，公眾號：音波楠神，人人都是產品經理專欄作家。大廠AI高級產品經理，AIGC商業模式探索家，長期探索AI行業機會，擅長AI+行業的解決方案設計及AIGC風口、流量感知。

本文原創發布于人人都是產品經理，未經許可，禁止轉載

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

楠柯

AIGC商業模式研究者，個人公眾號「音波楠神」，個人星球「AIGC探索家俱樂部」

12篇作品 102050總閱讀量

從訂單到交付OTD：傳統汽車銷售在哪些步驟可以數字化？

12-206011 瀏覽

品牌1號位：位置、節奏、策略、兵力

05-224704 瀏覽

Android和iOS差異有哪些，工作中該如何處理？

03-085087 瀏覽

新消費品牌消失在618

06-142791 瀏覽

被忽視的社區小店，潛藏著多少未知能量？

01-162151 瀏覽

評論

Chleiei

這么有水平的大佬，竟然也露出了雞腳。

最近來自北京回復
1. 楠柯作者回復Chleiei
  
  原來你也??你太美嘛
  
  最近來自浙江回復
Tamil

AI畫圖出來這么久，總算有大神把這事說明白了。

最近來自北京回復
文峰

非技術人員，看的還是似懂非懂的，哈哈。點贊作者分享！

最近來自四川回復