作為設計師,該怎么用Stable Diffusion做設計解題?
本篇會以AI圖像生成工具Stable Diffusion展開講講,如何用更系統化的思維來做設計解題,會分享一些面向AIGC繪圖工作流的一些開闊性思路與方法分享,核心觀點即“商業需求是題面,AIGC是計算工具,解題思路還得是設計師!”,總之面對AIGC設計不要焦慮也不用回避,本篇筆者期望能夠和大家一起探討AIGC繪圖如何為我所用,如何融入設計流程,如何降本增效。
并且會聊聊Stable Diffusion究竟具備了哪些可控能力,以及進行商業設計落地的思路與解題技巧,一切皆是希望能夠幫助大家更好的認識AIGC繪圖工具,并幫助優化自己的設計流程。
一、互聯網企業對AIGC的癡迷
當下AIGC很火,以Chatgpt為代表的語言大模型,還有專注繪圖領域的Midjourney與Stable Diffusion都很出名,甚至有企業宣稱應用AI模型做CEO管理,雖然不知道員工服不服管,股東有沒有意見,但可見2023很AI。
1. 企業們又在期待AIGC能做些什么?
企業內部辦公
期望借助AIGC降本增效,通過智能自動化的形式滿足一些內容產出以減少人力的投入,從而將人力轉移到其他更有價值或復雜的工作內容上,以實現降本增效的可能。
產品體驗賦能
通過AIGC的場景化能力,賦予產品更智能更前沿的技術體驗,從而產生更多的服務能力或是服務質量,并減少產品運營的成本。
技術創新性
隨著深度學習、模型訓練等,為企業提供更多定制化的技術應用或創新突破,為企業帶來更多產品創新應用的可能,或是其他的正向收益。
二、Midjourney&Stable Diffusion
說到設計師,Midjourney跟Stable Diffusion總是要被提及。
而作為一個交互設計師,我能用上的圖形繪制部分就不多,所以有必要先了解一下AIGC繪圖工具能做些什么了、能做到什么程度、能為你的工作做些什么,這很重要。
從商業角度出發,筆者認為AIGC繪圖更多的是應用到廣告營銷或藝術創作方面會多一些,就我當下嘗試和了解到的應用場景與優勢如下,可供產考;
1. Midjourney&Stable Diffusion特征差異
Midjourney是商業化產品、上手難度小、出圖快、效果質量高,服務是端對端的形式,能夠基于一個大模型快速響應各種風格或內容關鍵詞的繪制,很適合在頭腦風暴、尋覓風格參考的階段花錢消災,并且Midjourney的模型還在不斷覆蓋或更新事物關鍵詞的理解,如果你怕麻煩并且設計需求不復雜,那么推薦Midjourney。
而SD(本篇中對Stable Diffusion的簡稱)典型的特征就是開源免費,社區共創擴展創新,本地化運算,有階段化的可操控性,可以更好幫助設計師實現腦子里的創意,但有一定上手難度和設備局限,適合在復雜設計工作中更深入的探索應用。
用個不恰當的比喻,Midjourney跟SD就像是美圖秀秀跟Photoshop的關系~
三、AIGC繪圖的短板還很明顯
給人很直觀的感覺就是AIGC不懂設計,也不懂產品,還不好馴服,事實上目前AIGC繪圖的商業能力還很有限,并且人機交互的溝通成本并不小(你要通過適當的關鍵詞描述需求),當你不能熟悉關鍵詞的應用以及AIGC繪制的功能操作方式時,開啟AIGC繪圖工具后就像是剛剛新建畫板Photoshop,強大且不知所措,AIGC繪圖工具的智能化、工業化、多模態交互、傻瓜式都還面臨不少挑戰。
四、為何考慮用SD做設計解題?
我簡單概括為三個方面:成本更低、可控性更高、有更多的可能性:
1. 成本更低
成本一直是企業或個人關心的問題,在AIGC繪圖生成的過程中充滿了太多的不確定性了,市面上大多AIGC繪圖工具都是收費或簽到制的,在不斷抽卡中余額消耗的極快,而開源免費的Stable Diffusion無疑是雪中送碳。
通常設計師的電腦也都不算差勁,盡管現在SD還有一些硬件或系統兼容的問題,但是我認為不久的將來,強大的開源社區會給出更好的方案。
2. 可控性更高
設計師不同于純粹的藝術家,設計即代表有精細的布局與控制,而圖像內容的可控性就在工作中顯得極為重要,這些具備商業化或產品屬性的訴求若不能在AIGC繪圖中解決,那AIGC繪圖就還不具備為設計師解題的能力。
初階段的SD給人的印象也還是基于模型畫畫紙片人,并支持一些涂涂換換的能力,直到相關開源社區出現了更多的模型、Lora以及顛覆性的ControlNet控制網絡時,我看到的了SD更高的可控性與可能性,這是AIGC繪圖跨入工業化的一大步!
3. 更多的可能性
開源社區的魅力就是為愛發電多,商業化場景的應用模型越來越完善,未來充滿了各種可能,你根本不知道何時就會出現一款現象級插件或模型,并且市面上可能會出現更多基于Diffusion二開的商業場景應用,我相信在未來SD步入工業化的腳步會越來越快,設計師應用的場景也會更廣闊,即使你現在不使用SD,但依舊值得期待一下!
五、Stable Diffusion的可控概念
首先你不要想著像專業繪圖工具一樣控制了,你可能有時候連自己都控制不住自己!
SD繪圖可控性的本質是定向抽卡,方向越聚焦,結果越接近。
這個過程中,提示詞是畫面構成的重要因素,卻不是畫面風格和語義解析的全部,SD生成的可控性還需要借助各種擴展網絡的應用,這意味完全一樣的關鍵詞出來的結果依舊可能天差地別,SD與擴展模型的運作模式可通過下圖快速理解,它們逐級影響,相互作用;
1. 里程碑ControlNet 1.1+的概念
關于此擴展插件相信大家已經有所了解,這里不做教程了,目前ControlNet還在持續更新。該插件提供了多種方式供用戶實現內容生成的可控性,是一個階段性的擴展應用,還有更多新的ControlNet以及高版本正在生產中,期待一下吧;
SD-Controlnet1.1 官方介紹:https://github.com/lllyasviel/ControlNet-v1-1-nightly
SD-Controlnet1.1 開源倉庫:https://github.com/Mikubill/sd-webui-controlnet
SD-Controlnet1.1 資源下載:https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main
六、應用SD的正確解題思路
1. 先了解SD繪圖工具
當工具回歸工具,設計的核心依舊是設計思維,目前想要借助AIGC繪圖來為工作降本增效,就需要先了解工具能做什么,有何優勢,有何局限性,能幫你做什么?能做到什么程度?
期間筆者看了很多AIGC繪圖應用的分享,也參加了些相關沙龍,基本上主流的設計應用就三個方面;
另外SD不同于Midjourney,由于是從主模型到擴展一層層混合作業的,想要基于同樣的提示詞實現抄作業不一定行的通,所以了解SD各種模型的關系與功能屬性是很有必要的,以下是關于SD基本且主流功能的概述整理:
2. 沉淀美學與設計素養
進行AIGC商業化應用,沉淀美學與設計素養是根基,并且針對AIGC生成,可以準備成一份隨時可參考的材料。
1)對于各類美術風格,需要知道其特征和專用術語名詞,以保證在需要的時候能夠應用對應的提示詞,并且這些提示詞不局限于美術風格,也有根據某品牌或是某個行業提煉的藝術關鍵詞;
※ 部分舉例
3D、2.5D、2D、CG、吉卜力風格(Ghibli style)、水彩(Watercolor)、波普藝術(Pop Art)、中國風(Chinese Fashion)、朋克風(Cyberpunk)、噪點插畫(Noise Design)、像素風(16-bit pixel art)、迪士尼風(Disney Style)、Q版風(Q-Style)等
2)對鏡頭語言的認識,掌握基本鏡頭視角的描述詞,以及高階鏡頭的效果差異與提示詞應用,不過目前體驗下來,AIGC工具基本還不能呈現較為復雜的鏡頭與視角;
※ 部分舉例
透視(perspective)、景深(depth of field)、俯視(bird’s-eye view)、魚眼(fish-eye view)、頂視(top view)、廣角(wide-angle)、鳥瞰(aerial view)、等距(Equidistant perspective)等
3)掌握基本的構圖知識以及布光基礎,并了解效果差異與提示詞應用;
※ 部分舉例
前景(close shot)、中景(mid-shot)、遠景(prospect)、主光(Main light)、輔助光(fill light)、頂光(overhead light)、眩光(dazzle)、柔和光(soft lighting)、陰影(shadow)等
4)在偏3D的場景中,對于物體材質特征的基本認識與提示詞應用也很重要,目前在一些原生的3D渲染器中,收集了不少關鍵詞,建議大家也可以如法炮制;
※ 部分舉例
塑料(plastic)、金屬(metal)、玻璃(glass)、皮膚(skin)、薄膜(thin)、布料(cloth)、亞麻布(linen)、水晶(crystal)、木質(wood)、石頭(stone)、瓷器(ceramic)、絲綢(Silk)、皮革(leather)等
5)基礎環境描述與提示詞應用,實際上復雜環境通過提示詞是很難搞定的,主要是還從簡到繁的將空間環境一點點根據期望去刻畫,基本上就是區分室內還是室外、空曠還是狹小、鄉野還是城市等等;
※ 部分舉例
房間(room)、森林(forest)、廢墟(ruins)、天空(sky)、宇宙(universe)、雨天(raining)、雪天(snowing)、城市(city)、廣場(square)、草原(grassland)、操場(playground)、海洋(ocean)、海底(seabed)等
6)優化提示詞與負面提示詞的應用,目的是讓生成圖片的質量更高以及減少不對的負面效果,但想想還是有點傻,期待更智能的那一天早日到來!
※ 優化詞
高清(hd)、高分辨率(4K,8K)、最佳質量(best quality)、杰作(masterpiece)、抗鋸齒(antialiasing)、虛幻引擎(unreal engine)、原畫級別(CG)、完整(complete)等
※ 負面詞
畫面常用:低質量(worst quality)、模糊(blurry)、水印(watermark)、丑陋(duplicate)、重復(duplicate)、損壞的(Damaged)、出錯(error)、單色的(monochrome)、黑暗(darkness)、非常規(nsfw)等;
人物常用:肢體多余(extra limbs)、畸形(deformation)、病態(morbid)、多手指(too many fingers)、多條腿(mang legs)、斗雞眼(cross-eyed)、變異手(mutated hands)、截肢(amputation)等;
掌握和了解以上美術素養或提示詞是為了更好的面向AIGC工具進行需求描述和控制!
此外設計素養是作為商業設計、工業化的重要內核,其中包含了基本的行業設計規范、標準的理解與掌握,此外相關設計思維、審美與問題解決能力都要不斷的學習和提升,這是進行商業設計和不被AIGC取代的重要資本;
3. 建立預期后再開工
一方面因為SD通過簡單的幾個提示詞并不能生成高質量效果,依靠隨機抽卡是不可能實現商業需求的,另外作為商業設計,其中必然是帶有商業目的與業務信息的,因此為了保障生成效果與效率,設計師還是要先根據需求建立設計預期,在腦子里形成設計方案后開始構建草圖或參考材料,然后再拆解成多個階段,把適合AIGC繪圖處理的事項交出去,中間通過墊圖或人工操作糾正方向,加速抽卡的方向聚焦,最終得到一些滿意的材料,再做商業合成產出交付產物;
4. 多元的草圖與原型圖
準備草稿或是原型是設計工作中的必要過程,可以幫助設計師對需求和目標的理解,也能形成材料與同事之間探討構思,甚至向上對齊設計方案。此外準備草稿或原型材料也能幫SD在抽卡時更聚焦,減少無效的試錯。
1)草稿或原型支持多樣性
SD功能允許的條件下,經過反復嘗試,前期的草稿材料可準備如下;部分需要采用ControlNet擴展進行解析應用,方法就是制作與ControlNet模型匹配的材料,導入到預覽作為輸出后再啟用對應模型即可,方法如下圖所示,親測有效;
以下是可準備的草稿或原型材料的參考說明;
2)參考材料或生成的局限性
在以上表格的注意事項已經提到了部分擴展應用的局限性,此外在實際工作場景中,還有一些比較頭大的局限性,主要包括了以下三點;
另外當引導詞不能被模型正確理解或不具備較高的常規性時,你也可以將關鍵詞替換成其他近似詞語,或者改成其他描述詞來代替,能夠提升一定的常規性和模型理解的概率;
例如:帽子(hat)無法得到預期的結果,便只好改為了頭部穿戴(Head wear)+其他構成元素詞語,輸出時,帽子終于出現了。
3)草稿復雜性拆解技巧
將草稿的復雜性進行拆解是為了簡化設計,使SD中的模型能夠更好理解需求進行生成,經過嘗試或實驗,整理了以下兩種比較有效的拆解方法,但前提是保證一定的常規性以及主模型的可理解性,當然你也可以在整個過程中來回切換主模型應用,只要大的視覺風格差的不太多,例如都是2D或是寫實的,后續再對風格矯正即可;
但由于現在的AIGC繪圖對文本信息處理能力不佳,若你的主體視覺由信息構成并且嵌套在視覺場景之中,而不是處于前景、近景的層次那么就會比較難搞,也因此目前市面上主流的AIGC營銷視覺案例基本都是“情景圖+配文”的結構,兩類應用場景如下;
5. 局部調整或后期優化階段
借助SD的圖生圖模式以及ControlNet,可以靈活的實現局部的優化調整,這是Midjourney完全不支持的能力,功能的用途簡述在上個話題“先了解SD繪圖工具”中有介紹,簡單講就是我們可以的對畫面的局部進行涂改重新生成,可以是對局部錯誤的生成進行改正,也可以是將新的點子生成到當前的畫面中,相比于PS的創意填充,在SD中你可以對局部輪廓、色彩等更多方向進行生成控制,總之不再是0-1的抽卡階段,而是1-2的聚焦抽卡階段了;
后期優化部分主要是指對整體的風格進行切換或是混合,此前網上流行的IP線稿轉有色稿再轉3D化就是典型的風格轉化,主要是借助主模型或配合Lora等模型的風格特征,轉移到當前的原生圖上,只要控制住“重繪幅度”基本就能保證相似度,借助ControlNet的Tile也能快速幫你應用參考圖的視覺風格,并且當你使用局部調整約束好區域配合模型的切換,你還能夠實現一個風格混合的畫面,只要使用得當,也能生成效果不錯的畫面;
6. 工具混用 當C4D、Blender、Photoshop碰上SD
以ControlNet中的深度、法線來講,其實都不是什么新鮮技術,在3D設計工具中都很常見,這也意味著在應用SD的過程中,我們可以根據預期在其他軟件中完成起手材料來輔助SD生成,這里我放了一個在B站上看見的應用案例,其中就是借助3D軟件完成了基礎的城市地編,然后根據ControlNet的語義分割協議對地編建筑進行了色彩渲染,之后就是導入到SD進行生成以填充相應的細節;
不止3D軟件,我們喜聞樂見的PS其實也支持SD的擴展應用了,這意味著你可以直接在PS中進行更精準的涂繪、制作蒙版、繪制草稿等,加上Beta版PS自帶的創意生成,或許我們可以讓AIGC繪圖之間碰撞出更多的可能性!
【官方Github】https://github.com/AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin.git
7. 風格模型沉淀復用
關于模型沉淀,自己的話,反正有條件有興趣隨便弄,如果是面向企業辦公的話,則要考慮兩個屬性,一是定制化,二是復用性,即市面上的模型不能滿足,且模型訓練完有反復應用的價值。主模型可以很好的涵蓋行業特征進去,但是煉丹的難度跟成本會比較高,如果說有適合的主模型能夠滿足事物提示詞的理解生成,但是效果不佳,這個時候比較建議訓練Lora模型來微調結果,原因如下;
這里不講具體訓練方法了,網上資源很豐富,這里引用一個概念模型幫助大家理解和消化一下Lora模型;其中訓練Lora的主要任務即“打標”,這個過程有點兒像是幫助AI看圖識物!通過對一批規格統一的素材進行關鍵信息標記,以幫助主模型更深入的理解某個事物或風格,最終并在主模型生成時啟用Lora以達成微調的目的;
訓練方法可以在一些博客或B站上獲取,此處不贅述。
七、如何快速掌握SD的應用
在反復的嘗試和學習過程中,想要盡快熟悉軟件操作,那么自己一頓嘗試后在結合一些教程是比較快的,當你想要更深入的掌握SD并生成更驚艷的效果,我感覺還得是多“抄作業”,方法也很簡單,就是對著相關平臺用戶分享的作品參數對著來,從主模型選取到擴展模型權重,再到正反向提示詞等,全部復刻一邊;
當你這樣做的時候,你會發現有很多好處;
- 首先會減少SD圖片創作的門檻,通過更快的生成高質量圖像來建立更多的自信,并感受到SD美妙之處;
- 在比照調整配置的過程中,可以快速感知到采樣、模型、步幅、提示詞之間奇妙的化學反應;
- 在抄作業的過程中,其實也是SD上手熟練度提升的過程,這比看幾篇文章、添加到收藏夾里有用多了;
- 在搬運他人的提示詞時,自己也能掌握更多的提示詞應用,以及配套模型的觸發詞技巧,當然了,光抄作業還不夠,最好再加上做筆記,把別人的提示詞與配套模型整理下,以后就可以更方便的調用了;
八、展望一下
在前面的部分,探討了AIGC繪圖工具應用到工作流中的思路,以及技巧與AIGC設計的思維培養,同時也暴露了不少AIGC繪圖功能的不足,那么也展望一下吧。
最近有看到在Midjourney設計落地教程里的這么一段話“視覺設計師趕緊轉行吧,花幾個月學的三維軟件,結果幾個通關密語就給實現了”,那么真的是這樣嗎?
事實上Midjourney也只是掌握了一類三維視覺技法而已,當進行商業設計時,依舊是設計思維先行技法輔助,再則,更深入的三維技術甚至三維動畫,AIGC還有待提高,期望以后可以有更驚艷的表現;
目前行業相關模型正在快速豐富,行業化即代表具備一定的工業屬性、商業屬性,雖然還不成熟但值得期待,另外Stable Diffusion玩家的存儲空間應該越來越告急了吧,期待兼容更好的大模型或云服務;
情感化聯想一直是AI發展的重點功課,AIGC繪圖對情緒或感情的理解與表達更是有限,會不會有一天AIGC設計能夠理解需求并洞察出準確的情緒與氛圍表達呢?
多模態輸入輸出同樣值得期待一下,僅是提示詞輸入與靜態圖片輸出怎么能滿足設計行業的欲望呢?比如說我先選個行業模型,然后對話式生成需求理解,并給出設計方案建議和參考材料,再進一步探討方案細節與引入參考,進行一次初步的設計生成,最后就是探討優化再到生成結果之間反復循環,直到把AIGC乙方虐爆為止hhhhh。
又在胡思亂想了,最后也期望本文中的思路與方法能夠對大家有幫助,如有其他疑問或私貨歡迎聯系作者探討~
專欄作家
泡泡,人人都是產品經理專欄作家。專注產品交互領域的體驗設計師,擅長思考和UI呈現設計,喜愛交流探討~
本文原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Pixabay,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!