從即夢的AI文字圖片能力,淺談AI圖片工具平臺的未來

1 評論 1889 瀏覽 0 收藏 31 分鐘

本文將帶您深入了解即夢AI圖片工具的最新進展,特別是其v2.1版本在文字圖片生成能力上的突破。通過對即夢AI圖片模型的測試和分析,探討了這一技術進步如何拓展AI圖片應用的場景,并預測了AI圖片工具平臺的未來發展。

之前看到過幾款海外的AI圖片工具,比如Recaf、ideogram。通過輸入文字,在圖片上增加藝術字,或者生成融入畫面的字,同時會利用圖片生成AI補足畫面的內容。

整體上效果還挺好,只可惜,不能生成中文的,導致完全不能用上這個能力。

但是最近看到即夢推出了v2.1,滿足了我這個想法。于是便研究一二,與各位大大講講我的分析。

一、即夢的v2.1圖片模型是什么?

我們先簡單談談,即夢的這個新版本圖片生成模型是什么?

該能力可以在【圖片生成】-【生圖模型】上面進行選擇。

官方對其的描述是“穩定的結構和更強的影視質感,支持生成中、英文文字”。

以下是俺的測試結果,會分為“低”、“中”、“高”多個難度檔位進行測試,難度的提升以“主體數量”、“文本內容數量”、“細節描述豐富度”為大致的邊界。

同時,測試的方向會分為“寫實照片”、“電商海報”、“電影海報”、“黑白漫畫”、“二次元卡通”這幾個俺能想到的場景。

1. 寫實照片

1)低難度:

提示詞:

一個男人拿著牌匾,站在辦公樓門口,牌匾上寫著“不干了”。

2)中難度:

提示詞:

寫實照片風格。一個男人拿著牌匾,站在辦公樓門口,牌匾上寫著書法字體的“不干了”。這個男人臉上是憤怒的表情。他的背后是站著他的老板,表情憤怒。辦公樓門檻上寫著公司名字“人力電池無限公司”。

3)高難度:

提示詞:

寫實照片風格。

一個男人拿著牌匾,站在辦公樓門口,牌匾上寫著書法字體的“不干了”。男人要上挎著個喇叭。這個男人臉上是憤怒的表情。他的背后是站著他的老板,表情憤怒。辦公樓門檻上寫著公司名字“人力電池無限公司”。

男人的前面站著一群圍觀的人群。

圖片的右下角寫上日期“2024-10-10”.

問題小結:

1.當中難度的提示詞多的時候,對于畫風和字體內容的指令執行不到位,存在不準確的情況。

2.中高難度下,部分文字內容展示不正確,比如“不干了”前面會加其他詞、“人力電池無限公司”有時候會多一個字……。

3.高難度下,對于有位置要求的文字擺放不正確。

2.電商海報

1)低難度:

提示詞:

這是一張電商海報,需要在海報中增加標題。海報標題:“新品上市”海報主體:熱干面

2)中難度:

提示詞:

這是一張電商海報,需要在海報中增加標題。海報畫風:寫實畫風 海報標題:“新品上市”海報主體:熱干面背景要求:熱干面放在一張桌子上底部小字:又香又辣

3)高難度:

提示詞:

這是一張電商海報,需要在海報中增加標題。

海報畫風:寫實畫風

海報標題:“新品上市”

海報主體:熱干面

背景要求:熱干面放在一張桌子上

底部小字:又香又辣

底部字體樣式:紅底白字

問題小結:

1.會在生成的字體附近添加上一些無意義的符號或者內容不明確的文本內容。需要人工二次處理清理干凈。

3. 電影海報

1)低難度:

提示詞:

這是一張電影海報,需要在海報中增加標題。

海報畫風:寫實畫風

海報標題:“職場求生”

海報主體:打工人一個人在深夜的辦公室

2)中難度:

提示詞:

這是一張電影海報,需要在海報中增加標題。

海報畫風:寫實畫風

海報標題:“職場求生”

海報內容:打工人一個人在深夜的辦公室,背后是一排開著的電腦

底部小字:10月上映

3)高難度:

提示詞:

這是一張電影海報,需要在海報中增加標題。

海報畫風:寫實畫風

海報標題:“職場求生”

標題要求:超大字體,包圍著打工人

海報內容:打工人一個人在深夜的辦公室,背后是一排開著的電腦,燈光黑暗

底部小字:10月上映

問題小結:

1.同樣會生成一些不干不凈的文本內容。

2.畫風識別不正確。

4. 黑白漫畫

1)低難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場被辱罵的場景。

男人頭上有個聊天氣泡,內容是“對不起!”

2)中難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場被辱罵的場景。男人在低著頭向上司道歉,臉上驚恐萬分。右邊是領導,伸著手指在辱罵男的。

男人頭上有個聊天氣泡,內容是“對不起!”

領導頭上有個聊天氣泡,內容是“干不了給我滾蛋!”

3)高難度:

提示詞:

這是一張黑白漫畫。講述的是男人在職場被辱罵的場景。畫面里面有4格分鏡,右上角的分鏡是西裝革履的男人進入了領導辦公室。左上角的分鏡是油頭中年領導的特寫。旁邊有一個聊天氣泡“你知道我為什么找你嗎?”右下角的分鏡是男人在鞠躬。左下角是男人臉部特寫,男人表情痛苦。旁邊有一個聊天氣泡“你知道我為什么找你嗎?”

問題小結:

1.同樣會生成一些不干不凈的文本內容。

2.字存在“部分小瑕疵”、“字寫錯”的問題,字體格式不夠規整。

3.文本位置不正確,如圖這兩句話是要兩個人說的。

5. 二次元卡通

1)低難度:

提示詞:

這是一張二次元海報。海報主體是一個二次元少女。海報標題上寫著“AI校園”。

2)中難度:

提示詞:

這是一張二次元海報。海報主體是一個二次元少女,二次元少女穿著校服。旁邊站著一個男生深情地看著她。海報標題上寫著“AI校園”。下方有一行小字“開心上學”。

3)高難度:

提示詞:

這是一張二次元海報。海報主體是一個二次元少女,二次元少女穿著水手服。旁邊站著一個男生深情地看著她。海報標題上寫著“AI校園”,這幾個字把少女給包圍起來。下方有一行小字“開心上學”。

問題小結:

1.同樣會生成一些不干不凈的文本內容。

2.人物細節BUG。比如“三只手”、“兩個人物的物理大小關系錯誤”。

參考能力

此外,即夢提供了“圖片參考”能力,可惜目前僅能“主體”、“人物長相”,暫時不支持其余的參考能力。

這邊嘗試了一下,能夠把主體生成進去,但是并不能讀取到文本指令,無法發揮2.1的新特性。

以上是在同樣的提示詞下,分別帶上與不帶上“主體參考”功能的效果。

小結

整體測試下來,可以總結出其優點有:

1.大部分文字內容、文字位置、文字樣式要求都能識別并準確執行。像是漫畫類的內容, 能夠準確地進行執行。

2.大部分位置要求,能夠準確識別并執行。甚至能夠生成一些與主體有互動的樣式。

而其缺點有:

1.文字生成方面偶爾存在“文字錯誤”、“文字樣式錯誤”、“文字位置錯誤”等問題。

2.AI繪畫的常見問題,存在畫面BUG,比如人物手指、多人物位置關系等問題。

3.無法結合已有主體進行“帶文字”的圖片,這導致在“有明確需要加入到圖片上”的場景上還無法發揮作用,比如帶著商品信息的“商品介紹圖”。

圖片來源于百度

二、這個能力意味著什么

如果按是否有文字對圖片進行劃分,我們可以得到兩個類型。

1.不帶文字的圖片:這類圖片往往使用面很窄,缺乏文字信息的補充,除了事物外觀的展示外,僅僅能傳遞類似于情感、氛圍等的抽象信息。這使得不帶文字的圖片較難在廣告宣傳、社交媒體、雜志封面等場景上應用,往往只能在藝術展示相關的場景上使用。

2.帶文字的圖片:由于補充了文字信息,帶文字的圖片能夠更直觀地傳達信息,可用于廣告宣傳、社交媒體、雜志封面、漫畫、連環畫等場景上。相比起不帶文字的圖片,具有更廣的應用范圍。

因此,即夢的圖片模型v2.1意味著將“AI圖片”能力的應用場景進行了拓展,越來越多的業務能受益于這項能力。

在以前,還需要美術去剪輯和拼接AI生成的圖片元素,以制作帶文字的圖片,但現在圖片AI能一步到位,直接生成帶有文字的圖片素材,可以直接繞過美術進行物料產出。妥妥的“AI取代員工的案例”?。?/p>

同時,這也意味著即夢搶占圖片AI工具市場的野心。雖然還無法完全覆蓋所有“文字圖片制作”場景,雖然還有不少文字生成的細節問題,但是這些問題必定會隨著后續的版本更新而被解決,低級美術工種的地位岌岌可危矣!

三、從即夢的圖片AI能力,聊聊圖片AI工具的未來

個人覺得,圖片AI工具的存在是為了“更好地滿足圖片制作需求”,因此才會推出各種能力,用以輔助用戶產出“更能滿足需求”的圖片。因此,即夢的圖片AI能力

而就好像《淺談AI視頻廠商都在卷的拓展能力》中提到的“點、線、面”概念一樣。

圖片AI工具也同樣適用于“點、線、面”的分層邏輯。

1.圖片制作需求的“點”:

圖片制作流程也可分為“尋找靈感、制作草稿、收集素材、合并成稿”。(修改返工穿插在每個環節上,此處不贅述,哈哈o(╥﹏╥)o悲慘的乙方。)

1)尋找靈感:指制作者需要通過收集靈感,清楚知道“自己要做什么的圖片”。

2)制作草稿:圖片的線稿,需要劃分內容元素的布局、色塊區域分布等內容。

3)收集素材:指組成成稿的畫面素材元素,比如標題、人物、物品、背景等。

4)合并成稿:指將收集到的素材進行組裝,并進行合適地調整,最終形成一份完整的圖片成品。

AI生成圖片功能在大部分場景上滿足“制作草稿”、“收集素材”環節的需求,但是要生成最終能使用的成品,還是需要將多個素材“合并成稿”這一步驟。(除開部分原畫生成場景。而且這部分原畫生成場景需要AI生成的準確性非常高,生成后沒有任何細節修改需求。)

當然,圖片制作需求的滿足不能僅僅依賴“圖片生成AI”,目前市面上不少AI生圖平臺還提供了額外的單“點”需求工具,包括但不限于:

1)局部重繪:可與圈選一部分區域,對一部分區域進行AI重新生圖,從而實現對AI生成結果的修改。比如修改衣物、表情、背景。

截圖為星流的局部重繪能力。

2)高清放大:通過AI技術對畫面內容進行高清化處理,使得低畫質的畫面也能變成高畫質。

截圖為星流的高清放大。

3)智能擴圖:對畫面內容進行擴充,使得圖片能夠形成指定尺寸的畫面內容。

截圖為百度的智能擴圖。

4)裁剪:圖片編輯的基礎能力,在原有圖片的基礎上進行尺寸調整。

5)智能擦除:局部重繪的變種用法,能夠消除掉涂抹區域的主體。

截圖為豆包的智能擦除。

6)智能去背景:自動識別并去掉背景。

截圖為豆包的智能去背景。

……

這些能力在豆包、百度、星流等圖片AI平臺上都有出現。

可以看到,目前各大主流的AI圖片工具平臺,除了主推的圖片生成AI能力外,還會輔助上各種各樣的單點“圖片AI工具”。因為:

1)“圖片生成AI”是直接從“靈感”到“草稿”/“素材”,由于生成式AI的準確不足,完全由AI生成完整成稿的可能性不高。

2)目前生成式AI大部分情況下僅僅滿足“制作草稿”、“收集素材”環節的需求,還需要一定的工具來滿足“合并成稿”環節的需求,比如前文提到的裁剪、外擴、高清化等能對圖片核心內容以外事物進行編輯的工具,又比如能夠編輯圖片文本內容的工具。

所以,為了保證能滿足從“靈感”到“成品”的制作輔助,AI圖片工具平臺不僅僅需要提供“圖片生成AI”,還需要提供各式各樣工具能力“點”,以最大化滿足用戶的圖片制作訴求。

2.圖片制作需求的“線”:

當圖片制作的單“點”能力積累到一定量級時,就是時候串聯起各個點來,形成滿足一條“線”需求的能力。不然用戶來回在多個能力點之間跳轉,會存在“物料上傳/下載”、“參數配置”、“功能跳轉”等行為上的“效率損耗”。

目前常見的“線”的形式有:

1)畫布功能:

這個功能在即夢首頁就可看到,名為“智能畫布”。

“智能畫布”以“圖片編輯器”為基礎,整合了圖片編輯的所有基礎能力,比如裁剪、畫布尺寸、文字添加、畫筆、圖層管理等等。

在此基礎上,整合進上面提到的AI工具能力“點”。在用戶進行圖片處理的過程中,在任何需要的場景下,都能調用所需的AI功能能力“點”,無需在多個功能之間來回跳轉、傳遞物料,從而提高其中的工作效率。

如此,“畫布功能”就成了所有AI工具能力“點”的載體。在畫布上,各個工具就能形成“點連成線”的效果,以形成“一條龍式”滿足圖片制作需求的效果。

2)工作流:

事實上,并非所有圖片制作需求都是從“靈感”開始的。存在部分需求是存在“初始物料”,需要在初始物料的基礎上加工成成品。

最直接的例子就是電商宣傳海報制作。電商制作宣傳海報的時候,經常都是已經有現成的商品圖片,需要經過美術后期P上背景、文字標語等內容。

假設在“電商宣傳海報制作”場景下,有一個批商品圖片,需要生成該商品的宣傳海報。這個需求涉及到的AI功能“點”有:

a.圖片高清化:不同商品圖片的分辨率不同,需要統一其分辨率,以便在海報上顯示。

b.圖片背景清除:部分商品圖片可能會存在背景,為了展示在海報上,需要清除掉其中的背景。如果背景復雜,還需要能夠識別到畫面的主體內容,自動進行背景清除(以免需要人肉一個個進行點擊)。

c.標題藝術字生成:標題是海報的核心,需要通過文字內容輔助引導消費者,從而達成營銷目的。

d.物料組裝:需要在一張固定的背景上組合“商品圖”、“標題藝術字”,以生成最終的目標成品圖片。

如果使用畫布功能,仍然需要繁瑣的操作,因此一個能夠將“圖片高清化”、“圖片背景清除”、“標題藝術字生成”、“物料組裝”這些能力點串聯起來的工作流便能起到很高的提效作用。用戶只需要對工作流進行內容輸入,即可獲得所需的內容輸出。

工作流的成立的前提條件是“業務流程高度重復且標準化”,然而這樣的業務場景十分罕見,而且一般只會出現在業務體量較大的公司上。

目前較為知名的工作流工具就是comfyui,其通過可視化的方式支持配置各個不同節點的處理邏輯,實現圖片生成需求的精準控制和可靠復現。可以結合需要在comfyui中構建所需的“能力點”,然后構筑一條的工作流的“線”。

圖片來自于百度百科

然而comfyui對于美術來說過于硬核,能用得起來的人并不多。因此一些AI圖片工具平臺也開始出現了“工作流”能力,比如星流。

其在畫板的基礎上,提供了由官方/用戶創建的工作流,允許用戶能夠通過工作流快速使用多個“能力點”,只需要提供輸入的圖片和參數,就能快速生成所需的圖片,免去了在多個能力之間的跳轉,使得復雜的生成需求,能一條龍地被滿足。

3)生成式AI:

隨著AI生圖技術的發展,很多AI能直接生成高質量的圖片了,并不再需要人工進行二次修改。因此,可以說某種程度上,生成式AI也能滿足一條“線”的需求。

在以往,生成式AI可能只能滿足了“不帶文字的圖片”的“從靈感到成稿”這條線的需求。但如今,即夢的v2.1出來后,“帶文字的圖片”的“從靈感到成稿”這條線的需求也能一定程度上被滿足了。

雖然目前v2.1還不是很成熟,也并不能完美地生成成稿。但是隨著AI模型的持續成長,未來也是會解決這個問題的。

……

3.圖片制作需求的“面”:

所謂“面”,即通過同時滿足多個工作流的需求,從而形成一整套“圖片制作行業解決方案”。這是廠商的最終未來,即對整個行業的顛覆與壟斷。

不過目前談這個未免太久遠,大部分工具都還在進行“能力點與線”的構建當中。

三、小結

整體上講,即夢的v2.1圖片生成模型意味著其對“AI圖片”能力應用場景的拓展,意味著其從“單點需求滿足”到“單線需求滿足”的提升。

雖然在目前v2.1還存在不少問題,比如生成“文字錯誤”、“文字樣式錯誤”、“文字位置錯誤”、“圖片BUG”、“主體參考無法使用”,但是如果隨著后續版本的迭代,這些問題被逐一解決,且穩定持續構建AI工具能力的“點-線-面”,即夢將會在“圖片AI工具領域”領先其他競品一大截。

本文由人人都是產品經理作者【檸檬餅干凈又衛生】,微信公眾號:【檸檬餅干凈又衛生】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 使用幾版ai畫圖,還是有點傻瓜式接收指令,希望改進

    來自中國 回復