AIGC | 圖像生成領域,Prompt的七個缺陷

2 評論 2829 瀏覽 6 收藏 8 分鐘

在向AI模型傳遞指令的過程中,我們常常需要借助Prompt這一形式,那么Prompt作為載體,是否存在一定的缺陷呢?本文作者討論了圖像生成領域里Prompt的七個缺陷,一起來看看吧。

Prompt是向AI模型傳遞指令的核心形式,隨著AI繪畫從藝術領域向設計領域深入,創作訴求趨于嚴謹、精確,Prompt作為創作意圖的重要載體,一些缺陷日益凸顯,對生成結果的可控性、可用性有很大影響。

一、寫作技能

創作者要將大腦中構思的畫面通過文字表達出來,畫面是三維的、立體的,而文字卻是一維的、線性的。

對于較為復雜的創作意圖,這個轉化過程極具挑戰性、技巧性,依賴反復書寫帶來的經驗累積或是專門的學習。

二、文本特性

同一組用詞,同一句話,受到語境、文化、群體共識等客觀因素的影響,可能存在多重含義,面對文本的多義性,模型理解很容易發生偏差,生成內容無法切中創作者的真實意圖。而創作者要基于錯誤反饋不斷對導致歧義的內容進行替換、校正。

三、字數限制

盡管多一些描述可以給模型更多細節,但當前AI模型對字數始終存在一個模糊的理解“上限”,超過“上限”后的內容,要么理解錯亂,要么直接無視,所以創作平臺往往對Prompt字數加以限制,這就導致更多的創意想法無法被完整表達。

四、范式規則

相比口語化表達,模板化的描述指令更容易被模型理解而且更穩定,具有長期創作需求的創作者,需要學習并熟練掌握基于技術邏輯反推出的的指令公式(如:畫面主體+場景+細節+風格修飾),還有控制各類權重的命令參數(如:-seed;-chaos;-::;—iw等)。

五、作用關系

對于不是描述主體的指令,往往難以判斷它是否已對畫面產生影響,因此我們看到“絕美、完美、超美”、“大師畫質、超高畫質、頂級畫質”經常出現在一條Prompt中,冗余甚至相互對立。如需調整,則要通過刪A留B,刪B留A的方式反復比對來定位修改點。

六、細節控制

尤其是設計師的創作場景,對形式、位置、比例、層次、關系等要素的處理更加專業嚴謹,文字型指令可以做到但書寫成本極高,用戶能否寫出“畫面偏左四分之三居中位置,一條高一百像素的金魚”?模型又能否對此精準執行?目前看,依靠Prompt進行精細化控制并不現實。

七、生成預期

除使用“創作相似”外,創作者生成前對生成結果不可預測,生成過程又類似于黑箱,所以大家往往先生成幾張,看看什么效果,找到符合預期的那張再繼續深入。這個交互關系中最大的問題在于反饋的高延遲,造成了過高的嘗試成本。

Prompt的這些特點或問題,讓人不得不想起PC系統早期的DOS命令行界面:需要掌握語言范式、缺乏提示反饋、沒有快捷操作、不直觀等問題,讓很多計算機初學者望而卻步。

以上為輸入環節,而在模型一側,Prompt的解碼過程又會丟失一部分信息,使得創作者大量意圖指令無法精準、有效的傳遞給生成模型,最終得到一個錯誤的或是可用性較低的生成結果,人們感到挫敗并對技術能力產生質疑,其實,生成模型的能力往往由于語義理解的限制,并沒有得到充分發揮。

如果經常使用AI繪畫平臺,可能對這些Prompt功能并不陌生:一鍵復制、創作相似、靈感推薦、智能補全、咒語大全、咒語生成器、創作手冊、詞包、撰寫教程等等。這些功能在一定程度上降低了Prompt的撰寫成本,尤其針對體驗型、嘗鮮型的用戶,創作效率和質量均有提升,但對帶有明確應用場景的設計師群體來說,上述問題依然存在。

那Prompt指令的問題如何解決?又如何讓操作體驗真正做到“平民化”呢?

顯然技術側的進展更快,涂抹、疊加、擴展等二次編輯能力,以Lora為代表的微調模型,還有Controlnet技術,支持邊緣檢測、草圖處理、姿勢識別等前沿黑科技,都在試圖融合更多其他模態的意圖信息,與Prompt形成互補,讓生成結果更加精準可控。

說回體驗層面,以Prompt為核心的創作范式可能并非終極形態,這方面的探索尚未達成共識。我想,在PC時代,圖形用戶界面基于出色的交互體驗,快速“取代”了DOS命令行一直影響至今,即使進入AIGC時代,答案也許仍在其中。

本文由 @設計來電 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. Prompt的使用,是有很高專業技能門檻的,普通化、平民化之路之前,反而是商業化先行

    來自江蘇 回復
    1. 細說專業門檻

      來自北京 回復