對于AI繪畫產品商業化落地的分析思考
隨著AI技術的不斷發展,繪畫這類擁有美感、情感的文藝作品也逐漸出現了AI的身影。從提升工作效率的角度,AI繪畫產品確實有它的作用。但要真正實現商業化,AI繪畫產品還有很長一段路要走。
只需要一句“咒語“就能生成一張質量比大多數人水平高的圖像內容。這種技術上的變革對圖像內容創作領域可以說是顛覆式的改變。不僅可以幫助畫家創作出更加出色的作品,還能夠幫助普通人輕松地創作出高質量的畫作。
繪畫對于我來說一點也不陌生,高中學了3年美術和大學4年工業設計,如果當時有AI繪畫,不知道什么感想,至少當時還是很享受繪畫的過程,從結果上可能并沒有AI的效果好,也分享幾張高中時期我的作品,大學時期的一些汽車手繪稿一時沒找到。
那我現在的角色變成一名產品經理,對AI繪畫產品很感興趣,有必要全面去解析下,我會從產品價值、使用場景、產品現狀、商業機會以及制約因素去分析:
- AI繪畫解決了什么問題帶來什么價值?
- AI繪畫在藝術設計領域的應用場景?
- AI繪畫目前產品形態和發展現狀?
- AI繪畫的商業機會有哪些和制約因素?
一、AI繪畫解決什么問題帶來什么價值?
1. 圖像生成門檻降低,效率的提升,促使圖像生成“平民化”
AI繪畫的產物是圖像,圖像對人類具有豐富的價值,包括信息傳達、創意表達、歷史記錄、美感享受和交流溝通等方面,對于人類的認知、情感和文化發展起著重要作用。
而繪畫工具從原始的紙筆調色盤到數字化時代的數位板、繪圖軟件再到AI時代,任何人用簡單的幾行文字就能創作出高質量的藝術作品,人類創作的門檻一再被降低,促使圖像生成“平民化”,圖像生成的生產力得到指數級的提升。
2. 圖像品質的提升和激發創作靈感,讓生活充滿設計感
AI對大量的繪畫作品進行學習、融合和再塑,且一直處于不斷進化的階段,生成的圖像質量比絕大數初級創作者水平要高,對低端生成市場會進一步淘汰,迫使創作者不得不通過學習AI繪畫技術,更好地運用AI技術來創作更加出色的作品,使自己的作品更具創意和價值。另一方面對于內容消費來說,審美需求也在提升,追求豐富高品質的視覺體驗。
AI繪畫為我們未來的生活帶來了充滿設計感的視覺盛宴,美無處不在。
3. 個性化的定制能力的提高,做到千人千圖
用戶可以根據自己的需求和喜好,夠幫助人們快速生成各種風格的圖像,定制出更符合個性化要求的圖像作品,未來能直接鏈接生產端進行生產。
例如,在服裝設計行業中,AI繪畫技術可以用來快速生成各種樣式的服裝圖案,這些圖案可以基于不同的主題、風格、顏色、材質等因素進行定制。
AI繪畫在藝術設計領域的應用場景?
可以通過的雙鉆設計模型來分析AI繪畫對不同階段的作用,雙鉆模型適合所有的設計領域,形成了標準流程,只要設計過程中有圖像的地方都可以使用AI輔助設計。
- 第一階段——發現期。此階段可以通過ChatGPT去做些資料收集、競品分析,提煉需求的關鍵詞??梢蕴峁┮恍﹨⒄請D生關鍵詞,有助于對需求達成共識和效率提升。
- 第二個階段是——定義期。此階段AI繪畫可以通過生成各種風格和風格組合的圖像,為設計師提供創意的靈感來源,通過直觀的圖像輔助明確設計方向。
- 第三階段是——發展期。此步是真正開展設計創意了,這個階段我們要把問題具體化,通過AI圖像工具快速生成多種效果方案。
- 第四階段是——交付期。選擇某種方案進行深化,此階段目前Ai的編輯能力還相對較弱,但也是可以使用AI繪畫的控制技術針對性的調整,如現在的ControlNet 技術和圖像編輯工具。
總的來說,AI繪畫可以在創作設計的各個環節為設計師提供更多的可能性和創意空間,提高設計效率和質量。
作為工業設計專業出生,從工業設計的視角聊下AI在哪些流程場景中輔助設計。
對于工業設計目前主要在概念設計上進行輔助設計,根據功能需求和風格方向來輸出效果圖,設計師設計習慣得不同或產品屬性的不同,會選擇直接通過AI繪畫工具直接生成概念效果圖,或先輸出草圖在通過AI繪畫工具輸出概念效果圖。
要生成大概率符合自己預期的效果圖,要具備上至少這兩種能力:
- 念“咒語”的能力
- 工具的控制能力
“咒語”能力體現的是設計師本身的設計經驗、想法、思維,也是最能體現設計師的價值,在AI代替出圖環節,也是最能體現設計師之間的差距。
在此之后需要總結一套自己念“咒語”結構化語言,便于更好的與AI交互,讓AI懂你。在工業設計領域會總結一套專用的 prompt。
對于藝術創作,更多是表達個人想法和靈感,而藝術設計更多是解決具體的問題再是風格的追求,對繪畫工具可控性要求會更高。
設計會選擇Stable Diffusion通過LORA控制風格和 ControlNet 來控制局部細節。(一些設計師會結合MJ和SD共同出圖)
訓練LORA的目的是讓AI理解抽象的風格,例如科技感的、女性化的、極簡的,對于人類來說都是感性詞匯??梢杂肔ORA去訓練,同一風格系列作品、同一類目、不同風格作品、同一類目同一風格作品,單個產品對象,不同類目不同風格,這是目前MJ上沒有的功能。
ControlNet根據邊緣檢測、草圖處理等各種條件來進一步控制圖像生成和細化細節。
跟一些在做工業設計的同學交流了下AI的使用體驗,整體來看AI在工業產品設計場景中還比較初級的輔助階段,想要達到滿意的作品還是有一定的差距,要花很多時間去學習工具和訓練模型,后期還需要大量人工修改,工具上還有很大的改進空間。
想要真正能作為設計師的創意、效率工具,還是需要針對細分領域根據行業know how深化產品能力,同時應用場景還需要進行拓展,不僅僅是出圖的工具,如果3D模型技術成熟會進一步提升創意的效率,讓設計師把精力去研究用戶和發揮靈感創意,減少重復性、技巧性的工作,使設計真正回歸到本質。
二、AI繪畫目前產品形態和發展現狀?
AI繪畫的大模型和應用非常多,但最有名的非Midjourney和Stable Diffusion莫屬,只需要鍵入簡單的語言描述,只需短短幾分鐘,便可生成畫作,那從以下幾個方面了解下AI繪畫產品形態和市場表現:
- AI繪畫產品生態體系結構?
- 國內AI繪畫的產品都有什么功能,之間的差異有什么差異?
- AI 繪畫產品用戶關注哪些方面的需求?
- AI 繪畫產品商業模式,用戶是否愿意買單?
模型層:基礎模型上目前主要還是以外國模型表現出色,Stable Diffusion的開源使得模型訓練門檻的降低涌現了大量的AI繪畫產品,促進圖像生成技術有更多的創意和場景落地。閉源模型以Midjourney為代表,同時將模型直接部署在Discord社交平臺,提供直接的應用,操作簡單,圖片效果驚艷。
平臺/工具層:閉源模型廠商基于平臺提供API接口給下游客戶,例如客戶在自己應用上調用MidjourneyAPI。如果API無法滿足的情況一些廠家也提供模型訓練工具,例如百度的文心千帆平臺提供數據處理、模型開發、模型部署一站式模型開發。
應用層:國內大多數AI繪畫產品都是基于Stable Diffusion模型開發,看到更多的是藝術創意類產品,生成一些藝術繪畫、二元次漫畫等,例如6pen Art,畫宇宙;領域設計類目前處于往定制化項目路線較多,例如,Tiamat為設計領域提供定制化模型服務。
模型將成為應用的基礎設施,科技公司將具有革命性的模型,對外開源和提供API服務,創業公司可以根據自身需求研發或調用大模型API,專注打磨應用和服務客戶。
國內AI繪畫的產品都有什么功能,之間的有什么差異?
通過體驗Midjourney以及國內多個知名A繪畫產品,在功能體驗上個人總結兩個類別,類似手機操作系統,Midjourney類似蘋果和以Stable Diffusion為基礎開發的安卓類。
功能上Midjourney的功能操作極其簡單,主要通過描述關鍵詞來生成創意作品,注重創意本身,國內大多數應用基于Stable Diffusion模型開發,功能可控性比較豐富,可以選擇不同模型,包括可調用MidjourneyAPI和自研模型等,甚至可以去通過小數據訓練風格模型。
國內的AI繪畫產品技術層面上,各個產品之間并不存在過多差異,無非就是功能層面的豐富度有所差別,但有些公司會在開源模型上自研模型有一些小的差異,例如像6pen art 訓練的南瓜模型。
效果上Midjourney整體上效果更驚艷畫質更細膩,Stable Diffusion類就要看模型的選擇,通用模型生成的圖片質量就一般。
生成圖片的質量主要取決于模型的質量,而模型的質量又主要取決于訓練集的質量。Midjourney的審美傾向是背后團隊篩選出來的,產生內容下限高平均審美在線以及閉源形成的數據閉環。Stable Diffusion開源讓用戶自己訓練符合自己個性化的風格模型,效果取決用戶訓練模型的水平。
Midjourney團隊成員只有11人,卻成為AI繪畫領域的“當紅明星”,在國內是否能成功復制?
目前國內還沒有照抄MJ的,MJ那么難模仿的關鍵因素有哪些?
- 公司的愿景和創始人的人格魅力
- 技術頂流,出圖效果出色,操作簡單
- 開發社區,激發創意之泉
- 火爆出圈,吸引大批高質量創造者
- ..……
可見MJ的成功因素非常多尤其是在模型能力快速的優化和高質量的數據積累構建了核心的壁壘,短期是很難去超越MJ。
如何評價AI繪畫產品的圖像生成能力的差異?
圖像生成模型的關鍵能力包括圖像質量、圖像多樣性,以及圖像穩定性和可控性,這些能力決定了模型在應用表現上的差異。
不同行業不同場景下的使用者對圖像生成能力的要求會存在一定的差別,例如藝術創作者與設計者,藝術創作者更注重圖片的美感,設計者更傾向圖片的合理性是否接近可落地效果;普通用戶對可控性的要求相對比設計從業者低。
1)圖像質量
什么是好的圖像質量?
黑格爾在《美學》里總結道“美是感性理念的顯現”,美的規律一般是”和諧的、對稱的、有規律的”,美并非是絕對的感性,而是理性的理性。
那么衡量圖片的理性維度可以是,構圖合理,構圖的合理是一張圖畫最基本的美學要求。符合邏輯,生成的圖像的整體表達能夠符合現實世界的基本邏輯,以及輪廓清晰、精細細節、驚艷的色彩搭配。
2)圖像多樣性
視覺元素、內容風格、創造性具有多樣的表現。
用同相同的關鍵詞,生成不同的圖像視覺內容的形狀、顏色、外觀呈現多樣性,如果生成的圖像相似性較高,缺乏多樣性,那么模型的多樣性較低。
可生成不同的主題、場景、對象的風格,只能生成特定類型的圖像,那么模型的多樣性較低。
模型生成的圖像是否具有創造性,能夠產生獨特且令人驚喜的圖像。模型生成的圖像在創造性和新穎性方面欠缺,那么模型的多樣性同樣受限。
3)圖像穩定性
避免出現模糊、偽影、重復、不自然等問題,不過現在生成圖像模型基本都是Diffusion模型,穩定性上有較好的表現,能夠在存在干擾的情況下仍然生成高質量的圖像。
4)圖像可控性
圖像可控性是使用者能夠對生成圖像進行細節控制和后續調整,例如圖像的顏色、形狀、紋理以及生成的物體數量等。可控性是圖像生成產品實現成熟商業化的前提。
普通者是否能通過文字描述來控制修改局部細節,設計者對圖像可控性的要求更高,包括能否進行全景控制、精確區域控制、任意細節控制等。
AI繪畫產品當下有哪些變現手段?
大多數AI繪畫產品要么是充值、按月、按數量或定制模型收費,變現模式相對比較簡單和容易理解,也是現有商業化軟件常用見得變現手段。
5)充值消耗積分
充值多少送多少積分,根據生成圖片數量、選擇模式、生成速度來扣去積分。新用戶首次使用會贈送一定的積分數,想持續使用或有更高階需求就要再額外充值。
6)軟件按月收費
每個月的價格不同,功能權限范圍不同,典型代表就是Midjourney,10/30/60美元每個月生成的數量和權益有所不同,以有1億美元的收入。
7)按照輸出圖像數量收費
不同價格輸出的圖像數量不同,例如國外avatar AI 、Lensa 、國內的美圖,支付多少錢后生成十到幾十張頭像圖片,供用戶選擇和使用。
8)模型訓練費
這種模式主要是面向B端客戶,AI繪畫產品公司為有定制化模型需求的客戶提供模型訓練,從而收取模型訓練費。Stable Diffusion 一項收益就是為客戶提供模型訓練服務,國內的Tiamat的主要收益還是B端,據采訪信息去年Q4,有幾百萬元的合同訂單。
對于變現能力來說大多數產品目前是無法盈利的。
根據6Pen的調查,60% 的用戶并沒有在使用AI繪圖產品上有過付費行為,也就是完全免費在使用,剩下40% 的付費用戶中,16% 付費在 10 元以內,14% 在100元以內,付費超過 100 元的不到 10%,我自己也只是購買了Midjourney賬號,其他產品還沒有讓我產生購買的理由。
主要的原因:
1)使用群體有限,還不是真正的“平民化”產品
雖然AI繪畫產品只需要輸入一句話就能生成圖像,但對于用戶來說需要有明確目的和技巧才能生成好的圖像,目前還不是人人都是設計創作者。
現在大部分還是設計師、內容創作者、繪畫人員使用較多,普通用戶最多是體驗下新鮮感,大多也就是免費嘗試。
2)產品能力還有待提高,用戶認知還處于嘗鮮階段,無法直接帶來商業轉化
根據6Pen問卷調查顯示,42% 的用戶認為 AI 繪畫單純只能滿足娛樂需求,38% 的用戶認為AI繪畫可以部分運用到工作之中,9.17% 的用戶認為AI繪畫具有顛覆性,與此同時,也有 7% 的用戶認為這根本不值一提。
3)Midjourney的效果出眾和Stable Diffusion的開源
Midjourney吸引大量國內優質用戶使用,會進一步分享傳播,國內產品只能搶占哪些無法科學上網的用戶,同時Stable Diffusion的免費和開源,進一步將模型訓練的成本降低,用戶額外花錢的意愿降低。
三、AI繪畫的商業機會有哪些和制約因素?
現有的內容創作關鍵因素和之間關系
從第一性原理視角去思考內容創作的關鍵要素有哪些?基本要素為創作者、作品、消費者,創作者通過創作工具生產內容作品。
創作工具從最早的從原始的紙筆調色盤到數字化時代的數位板、繪圖軟件再到現在的AI。
有了作品就要通過傳播媒介給到消費者進行消費才能產生價值,傳播媒介從線下到線上,到更加精準和高效發展。
消費者對作品滿意有價值會成為創作者的粉絲,對創作者持續關注,從而產生更多內容作品。
每個鏈接點都可以產生商業化價值。
以消費者為核心,以作品的數字化為基礎的消費互聯網的大公司,在“傳播媒介”和“占有成本”上面做變革的起點,比如搜索、短視頻、網購等,再往“創作工具”和“名人/粉絲效應”上延展,比如抖音做的“剪映”視頻工具,培育網紅、直播帶貨等。
以創作者為核心的為創作者提供軟件工具的企業服務公司,在“創作工具”上面做深做透,幫助創作者提升“生產效率”(降本)或者提升“作品效果天花板”(增效),幫助創作者掙更多錢,從而使得創作者愿意花錢來購買相關的2B產品和服務。
新技術對關鍵因素帶來哪些改變?
以上是現有內容創作產業結構,那新的技術出現上面的結構會發展怎樣的變化。
圖像生成技術突破了只有人類才能生產內容的特權。
創作者可以借助AI進一步提升生產效率,這種效率的提升至指數級的,是從無到有。
消費者也能使用Ai較輕松就能生產高水平的作品,不用完全依賴專業人士,自己創作自己消費。
對于為B端創作者提供軟件工具的企業服務將會迎來新的變革,上一輪“云端協作”給軟件帶了新的機會,誕生了一批新的在線軟件公司,例如藍湖、墨刀、Figma、Airtable,從傳統大牌軟件公司中分一杯羹。
以Ai為主的2B軟件工具將會再一次迎來爆發,會有很多針對垂直領域的Ai軟件,面對不同設計領域。但要成功突圍成品爆品難度也是相當的大,不能只是簡單的單業務圖像生成能力,需要融入到整個創作的過程中,從前期調研、需求溝通、方案設計、方案展示、方案落地、協調溝通,以及二維到三維,否則很容易被Midjourney和Stable Diffusion給擊垮。
需要考驗玩家的場景結合能力、高質量的數據和行業專業知識的理解能力,給垂直行業找到AI的最佳實踐方式才可能成功。
現有的軟件也將會擁抱AI,將AI能力接入到現有的功能中,Adobe 發布 AI工具 Firefly,計劃將AICG完整融入到現有的軟件中,包括 Photoshop、Illustrator、 Adobe Express等工具。
短期內AI結合軟件工具能提供較大價值,但長期來看會很殘酷,只有少數玩家能幸存。
當AI的生產能力都能讓消費者生產符合自己的設計作品,那么會對擠壓創作者的生存空間,不需要那么多軟件工具了。
那么直接面向消費者的AI生產應用將會有更廣闊的市場空間。
對于以C端為核心的視角去結合圖像生成技術,可以從兩個方面挖掘應用場景,效率工具和創作工具
以效率工具切入需要生成的內容可以轉成個人經濟的收益。
效率工具相對相對創作工具來說,需求和生成的要求會比較明確,與個人的經濟收益有關的,Ai可以作為一個很好的生產力工具,例如在logo設計、商品圖片設計等,并且是可以為用戶帶來直接商業化轉化的價值。
現在大量的AI繪畫產品用戶還處于嘗鮮階段,只是為了獲取簡單、直接的感官體驗,未能融合到用戶的工作和生活中,更重要的原因未能構建好的應用場景。
有一個非常有價值的案例:PhotoRoom。
服務于二手電商賣家,去掉圖片背景,并增加各種細分電商應用場景所需的背景和效果,不僅節省時間,更重要是能提升商品的轉化率。
PhotoRoom 提供的背景都是各種具體的商業應用場景,不同的社交媒體和電商平臺都會有不同的銷售文案的圖片以及各類風格類型模版,目前各種模版已經超過了 1000,基本上你只要找到自己平臺場景的背景圖片就可以直接掛上去賣了,整個優化生成的圖片非常的有專業設計感,并且操作真的是非常簡單。
目前 PhotoRoom 已經被下載了 4000 萬次,月活用戶 MAU 達到了 700 萬,訂閱用戶則達到了幾十萬,每天處理的圖片達到了 300 多萬張。
另一種是以創作工具切入應用場景,激發用戶個人創意、滿足娛樂化、個性化的情感需求,提供一種全新的“內容創作體驗”。
相對效率工具,對生產的圖片要求相對比較開放一些,追求的是感知效果。
Midjourney定義為人類創意引擎,擴展人類的想象力,產品形態上簡單易上手,只需要輸入命令提示符,就可以生成對應的高品質圖形,讓人感覺不可思議的力量,激發人類創新想象的動力。
但對于普通用戶來講,要創作一張高質量的圖片還是有一定門檻,首先需要有明確的使用場景需求,不然無從下手,其次你需要具備一定審美能力,知道不同風格,什么是一張好的有創意圖,最后你要會精準的表達,讓計算機理解你的需求。
以具體場景化來去驅動用戶的創作動力,會形成一定優勢和機會點。
舉個案例,頭像風格化生成——Lensa AI。
用戶上傳10-20張自拍照,能生成50~200張不同風格的AI自畫像或頭像,切中頭像生成細分場景,契合不同的方式表達自我的需求,對用戶心理的洞察和深入挖掘,讓已經厭倦發普通自拍的用戶獲得一種新的表達方式。
在去年12月份的時候在一眾面向C端的AIGC產品中尤為突出,5年內創造了預估820萬美元的收入。
同樣以頭像生成的有AvatarAI、國內的美圖的頭像生成。
雖然大家會擔心像昔日的臉萌,只是短期的賺錢工具,但并不影響我們去分析如何抓住用戶細分場景需求和興趣,通過新的技術方式為用戶提供更新奇、更能激發自我表達和傳播的方式,滿足滿足娛樂化、個性化的情感需求。
總的來說,對于toC場景,要切細化場景和用戶,激發用戶創作的動力,動力的來源要么是帶來提升收益的轉化,要么是滿足的用戶的某種情感的需求,得到了新的體驗價值。同時要求在產品上需要足夠簡單,可以基于細分場景提供豐富的選擇和聯想能力,把創作門檻變得足夠低。
四、圖像生成商業化落地挑戰?
1. 技術壁壘的挑戰
開源使AI繪畫產品的技術壁壘越來越低,投機者可以用很低的成本來追逐風口,在一定程度上造成商業上的混亂,這也是圖像生成領域當前不被那么VC看好的原因,在國內能拿到融資的局指可數。
想通過單點工具在該領域有獨立的生存空間并產生持續的現金流,就需要在某領域有自己的獨特數據,另外,提供的產品或者服務是巨頭不具備的API。
2. 數據能力的挑戰
圖像生成的效果很大程度依賴于訓練數據的規模和數據質量,圖像生成產品在向細分行業和場景深入時,需要考慮存在的數據壁壘、數據量不足、數據質量不高等問題。
在模型訓練階段,可以通過數據增強策略、利用合成數據預訓練等方式進行優化,提升下游任務的性能。
在應用階段,結合用戶所輸入的提示詞(prompt)、生成圖像選擇等進行交互行為和偏好分析,利用數據沉淀數據資產,有針對性的進行模型迭代。
3. 產品化能力的挑戰
現在想要生成一張符合預期的圖片目前還是有一定門檻和時間成本,可能需要不斷嘗試不同的prompt和大量挑選過程。
除了要去優化模型本身的性能外,可以從產品場景引導和交互層面去降低門檻、更高效生成符合預期的圖像。
對于用戶不是很知道要什么情況下或者說生成后有什么作用,那么可以通過細分具體場景來引導用戶,例如兒童繪本場景,可制作關于自己孩子的一些繪本故事,那這個場景下可以教用戶如何去構建故事腳本,具體如何生成,可瀏覽其他優質繪本作品,也可進行二次生成等一系列的引導,只有讓用戶知道具體價值才會去使用。
模型對于prompt的理解和運用非常關鍵,輸入簡單的prompt可進一步給用戶完善更豐富和精準,在此基礎上,在用戶意圖的基礎上進行擴展,生成超越預期的高質量圖像。
4. 版權方面的挑戰
AI在模型使用的訓練數據包含明顯受到版權保護的視覺素材。Stable Diffusion訓練數據集來自LAION-58,而LAION-58包含50多億圖片以及匹配的文本標注,其中涉及大量受版權保護的內容。
同時,用戶在使用AI繪畫的工程也會大量參照現實藝術家或創作者的作品,直接加入藝術家的名字,這種行為容易造成內容版權風險。
涉及的版權問題同樣可以通過數字技術來解決,可以嘗試將畫家的作品上傳到區塊鏈中,從而加強技術溯源能力。
5. 理論與安全風的挑戰
由于AI本身還不具備價值判斷能力,為此一些平臺進行理論方面的限制和干預,禁止用戶輸入敏感關鍵詞語。對于輸出的數據進行篩選,移除包含明顯暴力、色黃犯法惡劣的內容圖片,還采用人工審查員檢測被標記為可能有問題的圖像。
以上內容是我個人對圖像生成領域商業化部分的學習梳理和淺顯的思考,接下來還會持續輸出一些圖像領域相關的文章內容。
作者:Rzhiyi,8年產品經理經驗,做過AI皮膚檢測系統和SaaS類產品
本文由@Rzhiyi 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。提供信息存儲空間服務。
- 目前還沒評論,等你發揮!