萬字長文:產品經理視角下的AI繪畫全解析

1 評論 8568 瀏覽 48 收藏 44 分鐘

最近的AIGC浪潮,本質來源于兩項技術:一是ChatGPT所代表的GPT、RLHF、Prompt等技術點,另一個則是AI繪畫背后的Diffusion技術。本文作者從Diffusion的技術原理、演進方向、商業落地以及其對相關職業的影響著四個方面,對Diffusion技術進行了詳細的分析,對AI繪畫感興趣的同學,一定不能錯過。

我從1月30日寫系列第一篇的時候就提過,這一波AIGC浪潮本質來源兩項技術:一個是ChatGPT所代表的GPT、RLHF、Prompt等技術點,另一個則是AI繪畫背后的Diffusion技術。

2023年,只看這兩項技術的影響力(除非有新的技術突破發生),其中GPT負責文本領域的狂飆,Diffusion負責圖像領域的狂飆,兩者合起來才是對內容生產領域完整的沖擊。

那我們接下來我們正式開始,本篇文章講述以下內容:

  1. Diffusion的技術原理科普(照舊通俗易懂)
  2. Diffusion演進方向(潛力在哪里)
  3. Diffusion商業落地分析(附帶分析框架)
  4. Diffusion對相關職業的影響(附帶分析框架)

一、Diffusion的技術原理科普

DIffusion(擴散算法),這是一種相對簡單的自回歸模型。如果說ChatGPT背后代表的LLM大語言模型的技術驚艷度是10,那么他可能只有5。

但他目前在圖像領域,是當之無愧的王者,與文本領域的GPT隔江而治,二分天下。

接下來,我們用一種新的科普方法,請大家跟隨我的思路,去看看這個令人贊美的系統級產品是怎么一步步產生,我會在中間穿插講解每個技術概念。

旅程開始之前,我們敲下一個問題:“如果我要讓AI根據文字,給我輸出圖片”,都需要什么技術?

第一步,計算機要能夠處理圖像

雖然我們天天在手機和電腦上看圖片/視頻,但計算機的理解和我們可不一樣。他們的理解和人類在不同層次:

第一層,真實世界,專業點叫模擬圖片,就是人類看到,觀察到的圖片。

第二層,數字世界,即圖片的數字化。我們經常聽到的分辨率400*400,就是數字世界的表達。這意味著這是一張由1600個像素構成的圖片,每個像素點用0~255的數值來表示他的顏色。當圖片被數字化后,計算機才能儲存、編輯、理解、計算它。

例如下面這張圖,右側的每個數字空格,與左側的每個像素點對應,空格里的數字則代表那個像素點的亮度,通過這樣的轉換,圖片就被數字化了。

萬字長文:產品經理視角下的AI繪畫全解析

第二步,計算機能夠畫畫

記住這句話:對計算機而言,畫畫是個數學問題,而非藝術問題。

我們人類畫畫大概的順序是:我有個初步想法,然后開始勾勒線條,然后填充色彩。也就是畫家先有個模糊想法,然后在繪畫過程中,逐步逼近心中的作品。

而計算機的繪畫邏輯則不同:他基于人類的命令,進行數學上的計算,遵從概率最高的選擇,畫出作品(是的!和GPT一樣,又是在猜概率)。

在AI的眼中,貓不是貓,而是一個有橢圓輪廓,顏色上黃色、白色、黑色,中間有個兩個褐色圓形(眼睛)的東西,就好比下面這些圖。

萬字長文:產品經理視角下的AI繪畫全解析

但事實上這些圖片是我為了方便你們理解放的,他其實并不嚴謹。在計算機里,他學習到的東西連上面這些黏糊糊一大坨的圖像都還不是,他學到的就是一串數字的分布規律。

就像下面這張圖一樣,你相信下面這張圖中,綠色點其實是一張“手繪數字8”的數學表達嗎?所以我們大概有一種模糊的概念即可,不要強求去想象計算機畫畫的過程,那是很難理解的。

萬字長文:產品經理視角下的AI繪畫全解析

第三步,找到一個合適的算法模型來畫畫

1)Diffusion的前浪們

在整個AI技術的發展過程中,針對“學習圖像規律分布然后生成圖像”這件事情上,涌現出了許多模型,例如GAN,VAE,normalizing flow等,但他們都有著這樣那樣的缺點,最終被Diffusion打敗。

以GAN為例子,這是Diffusion技術出現前,圖像領域最火熱的模型選擇。

GAN(Generative adversarial network,生成對抗網絡),他的邏輯很簡單:我訓練兩個模型,一個叫生成器(打工仔),專門負責畫圖,一個叫判別器(老板),專門負責評審生成器畫的圖到底好不好。

如果生成器畫得好呢,判別器就給他發獎金,如果畫得不好,判別器就給他一巴掌。

于是生成器為了賺獎金,少挨巴掌,他就會努力畫得更好(努力工作),但同時還會努力嘗試騙過判別器,讓他以為自己畫得好(摸魚)。

而判別器則反過來,他會不斷提高自己對生產器產出的判斷能力,只獎勵真正好的,強烈打擊不好的(老板的KPI審核)。

他們之間的關系就像銀行制造真幣的和犯罪團伙制造假幣一樣,相愛相殺,共同推動印鈔防偽技術提升。

但是GAN存在著若干問題:

首先,這種雙核成長不是那么穩定的,有時候甲方壓倒乙方,有時候乙方壓倒甲方,一旦發生這種情況,整個模型就會崩潰。

其次,他的判別器負責教育生成器好好作畫,那么對使用的圖片質量要求就很高,不然老師自己都錯了,對學生的教育就更加無從說起。

最后,生成器也有問題,他特別怕挨打,所以生成圖片是極其保守的,遵循的就是少做少錯原則。所以你永遠無法期待他畫出一個戴著鮮花組成的眼睛的小女孩(只要你的訓練集中沒有類似圖片)。

而VAE和normalizing flow也一樣存在問題。

VAE的核心機制中,需要定義一個真實后驗的值,但偏偏這個值是不可達的,只能用變分后驗來逼近他。重點就是這個變分后驗非常麻煩。

normalizing flow 的核心機制則要求模型是可逆函數(例如y=x+1可逆,因為y=2,那么x一定是1,而y=x2不可逆,因為y=4的時候,x可能是-2/+2)。

這讓他在選擇模型的時候往往不能用最好的模型,因為一些好的圖像神經網絡是不可逆的。這就讓他在畫畫的時候,在圖像的表達上存在弱點。

好吧,方法很多,但好像都有些毛病,怎么辦法呢?

2)新生代力量Diffusion閃亮登場

Diffusion的原理表面上理解很簡單(數學推導則非常復雜,我也看不懂):

  1. 前向擴散(Forward Diffusion Process),就是下圖中的上半截,我們將用于訓練的數據,隨機添加噪點,一遍遍地添加,直到他變成一張全是噪點的圖片。
  2. 反向擴散(Reverse Diffusion Process),就是下圖中的下半截,我們讓模型將這張全是噪點的圖片,給我還原成一張清晰的圖。

萬字長文:產品經理視角下的AI繪畫全解析

AI模型需要在這個加噪點去噪點的過程中,學習到繪畫的方法。哈哈哈是不是非常不可思議,沒關系,往下看詳細介紹。

在這個過程中,AI模型的訓練原理如下,我標了一二三四步,大家跟隨我的一起看下方的詳細解釋。

萬字長文:產品經理視角下的AI繪畫全解析

①第一步,我們隨機挑選一個噪點程度,順便把這個程度數字化(向量化)。

②第二步,隨機到的結果是噪點程度T=14。我們就給這張照片加上對應程度的噪點,讓他糊掉(必須糊成14的程度)。

③第三步,把噪點程度的向量+模糊的圖片一起放進神經網絡,這個神經網絡的學習過程和上面相反,上面是我怎么加噪點讓他變成糊圖,而他學習我怎么去除噪點才能讓他變成美圖。

④第四步,學習的過程中會讓模型預測出我要去除的噪點(noise)是多少的。與此同時我們是知道真正要去除的噪點值是多少(畢竟是第一步,第二步中這個噪點是我們自己添加的)。所以AI的預測噪點值就可以去和真實噪點值比較,這個差值就是loss了,你可以理解為模型預測的偏差。

⑤循環訓練,在剛開始訓練的時候,loss是非常大的,但是我們的訓練目標就是讓loss變小,無限逼近于0。當loss成功變得非常小時,我們就成功了,模型后面每一次去做預測,都能非常準確。

當模型訓練完成后,你下命令讓他畫畫的時候,他就只會執行反向擴散過程了,即找出一張全是噪點的畫,然后一步步去除噪點,直到生成作品。整個過程就像下面這張圖一樣。

萬字長文:產品經理視角下的AI繪畫全解析

From《Denoising Diffusion Probabilistic Model》

p.s 使用過AI繪畫工具的朋友可能對里面的“步長”選項有印象,這個步長其實就是到底要求AI繪畫預測多少次再出圖。

理論上步長越長,圖像就越不糊(去的噪點多了),質量也會越好(預測很多次,更準了)。

第四步,讓計算機可以根據文字畫畫

在前面的步驟中,我們解決的只是“讓計算機畫畫”,我們現在進一步解決“讓計算機根據文字畫畫”。

我們首先面臨的第一個問題是,計算機怎么知道文字和圖片之間的關系呢?

比如下面這張圖,我們一看就知道是牛油果,但計算機怎么知道這堆綠中帶黃的東西是牛油果呢?

萬字長文:產品經理視角下的AI繪畫全解析

在這里我們再次遇到我們的老朋友OpenAI同學。他在2021年1月開源了CLIP(Contrastive Language-Image Pre-Training)。這個模型用了40億的“文本-圖像”數據來訓練,確保計算機在文字描述和圖像之間形成互通。

大家如果好奇這些訓練數據長啥樣,不妨稍微往上拖一拖看看牛油果。每張圖片下會有這張圖片的描述,這就是文本-圖像對數據。

他的訓練過程我就不多說了,和前面Diffusion的訓練過程很像,AI的核心原理都是這樣——你預測一個結果,我手里握著真實結果,那么這之間就會產生一個loss(偏差)。訓練的過程就是讓這個偏差不斷變小,到最后AI每次預測結果就與真實結果幾乎一致。

話歸正題,OpenAI的這次開源,提供了一條多模態通道,讓“以文生圖”的效果得到進一步提升(以前不是沒有類似的模型,但沒有這個效果好)。

現在,當我們說“畫一個牛油果椅子”,計算機就會將這句話通過CLIP轉換成向量。并且,這個向量同時也是圖像的向量,因為CLIP模型已經把圖文拉到同一個維度上來理解了。

這就是讓計算機根據文字畫畫的關鍵模塊CLIP,他把文字表達與圖片表達拉到一個維度上,使得文字Prompt能夠進入Diffusion模型中,去約束圖片的生成過程。

另外科普一個小知識點,當AI自己亂畫,叫做“無條件圖片生成任務”,當AI遵循我們的命令畫畫,叫“有條件圖片生成任務”。文字是其中一種條件,除此以外還有音頻(看音樂畫圖),圖像(看圖畫圖),姿勢,結構等等。

第五步,計算機根據文字“快速地”畫畫

但這些還不夠,否則AI繪畫的爆火就不會從22年年初拖到22年7月了。

這是因為Diffusion雖然解決了GAN、VAE等其他圖像模型的缺點,但他在誕生之初,其實也存在一個缺點:他的計算速度非常慢,出一次圖動不動就是一個小時以上,很難全面推廣。

這是Diffusion的工作原理造成的,因為他出圖的時候,其實就是對著一張充滿噪點的圖反復去噪,這個過程不是一步到位的,可能要執行成千上萬次,這就導致出圖速度非常慢。

為此學術界做了非常多的努力,但最爆炸的成果來自EleutherAI團隊所開源的Stable Diffusion。

他的解決點非常巧妙。大家還記得我們在第一步提到的真實世界→數字世界嗎?事實上還有更深一層的世界——隱空間(latent space)。

這個概念在AI中非常重要,因為他能進一步壓縮數據量級,讓機器的訓練、預測速度提升。比如有一張圖片他的像素是512*512=262144個像素點?,F在我在不丟失重要信息的前提下,把他拉到64*64的隱空間,那么復雜度僅有64*64=4096,是原來的1.5%!

那這個隱空間的原理是什么呢?請看下圖的例子:

萬字長文:產品經理視角下的AI繪畫全解析

左右兩張圖片明明信息量差異巨大,但是我們看到右圖卻立馬明白是什么意思(如果你不明白可以百度一下“我全都要是什么?!保?。

而隱空間(latent space)也是同樣的思想,他會通過一些工具,對像素世界中的信息進行選擇,只留下高質量、有價值的信息,而其余信息全部丟棄。在這種思想下,因為信息量級降低了,所以計算效率大大提升,但又不會丟失重要信息。

到了這里,我們終于湊齊了七龍珠,可以召喚神龍了!

大家結合我的步驟解釋和下面這張圖,一起來感受一下完整版Diffusion的工作原理:

萬字長文:產品經理視角下的AI繪畫全解析

①第一步,把像素級別的圖片拉到隱空間(減少計算量)

②第二步,進行正向擴散,給圖像加噪聲(搞一張糊圖出來)

③第三步,把Prompt”一個牛油果椅子”轉換成向量,一起參與到這個過程中

④第四步,進行反向擴散,讓U-net神經網絡學習如何正確預測要去除的噪點,這一步會持續反復,直到U-net訓練成功

⑤第五步,預測結束后,把圖片從隱空間拉回像素空間,成為人類所能理解的圖片

整個過程一環扣一環,所以我們可以發現,雖然核心是Diffusion技術,但CLIP、隱空間的應用也都非常重要,所有加起來才推動了AI繪畫的爆火出圈。

二、Diffusion的的演進方向和潛力

這一部分我會列舉目前比較主流的方向,作為技術篇的補充,但不會有太多的技術解釋。

大家在理解基本原理的前提下,大概了解一下技術的變化趨勢,避免將思維局限在當前的AI繪畫形態上,影響對行業的商業判斷。

p.s 我并未每個方向都非常仔細的去搜集數據,部分方向可能存在偏差,僅供參考。

1)可控生成

這是目前學術界發力最多的方向。

有體驗過AI繪畫的同學應該能理解這種煩惱:這張圖還不錯,但是偏偏某個細節差了點,我又沒能力弄下來重新畫,只能不停刷新,期望撞大運遇到完美的。

怎么解決呢?我們可以只替換出錯的部分嗎?當然沒問題!

例如下面這張圖,我對貓咪騎的單車不滿意,我想換成小車,行不行呢?可以的,Prompt的過程中鎖定原圖,替換一下這個單詞就行——這就是語義替換。

萬字長文:產品經理視角下的AI繪畫全解析

From《Prompt-to-Prompt Image Editing with Cross Attention Control》

這是怎么做到的呢?大家稍微往前回憶一點,我們說到讓計算機根據文字生成圖片,很關鍵的一個模塊是CLIP來實現這種文本-圖像的跨模態轉化。并且文字Prompt還會持續約束著Diffusion的去噪過程。而這種可控生成其實就是在這里進行微操,從而實現類似的效果。

大家要特別關注下圖中的右側的Condition模塊,他就是我們給Diffusion輸入的條件,這里的條件可以是文字,圖片、音頻、空間結構等等,只是我們目前比較熟悉的應用是文字而已。

萬字長文:產品經理視角下的AI繪畫全解析

除此以外,你甚至可以文字+圖兩種條件一起上,一起來看看有趣的例子:

①文字+參考圖,按照線框布局生成圖片

萬字長文:產品經理視角下的AI繪畫全解析

②文字+參考圖,限定邊界生成

萬字長文:產品經理視角下的AI繪畫全解析

③文字+參考圖,模仿人物姿勢生成

萬字長文:產品經理視角下的AI繪畫全解析

2)加速采樣(降低成本)

這方面非常好理解,不管是Diffusion的模型訓練過程,還是上線后的預測(出圖)過程,反向去除噪點都是一步步去除的。

這種逐步去噪是保證效果穩定的原因之一,但也制約Diffusion的性能成本。

而加速采用就是能夠解決這個問題的方法之一,他大概做的事情就是——你要去除1000步才有好效果?我給你直接干到50步!

所以大家會發現,在去年底還有Stock AI倒閉的新聞,到今年就沒有任何一家AI繪畫公司出問題了。像意間、PAI這樣的公司,靠廣告收益+訂閱其實也活下來了(至少不會盈虧失衡)。

3)更高的圖片質量

如果讀者中有從去年7月以來一直持續使用的朋友,會發現AI的產出質量越來越高。

拋開模型升級的原因不提,很大一部分提升來自更優質的訓練數據。

這里面一方面來自用戶的作品產出,當AI作品被下載,甚至上傳到作品集市,那么相當于制作了一個正樣本——這是好圖,AI你快拿去學習。

此外,一些二維碼驗證,也在做這方面的數據積累。例如下圖,模模糊糊,很明顯是Diffusion去噪過程的中間產物。

萬字長文:產品經理視角下的AI繪畫全解析

來自Discord的驗證碼

最后,一些公司已經在做專門的定向微調優化了。目前大家感受到的可能是AI繪畫工具上多出了不同繪畫風格可選,例如蒸汽朋克、中國畫、水墨、動漫等等。

但我更期待的是是否有一些正在進行的垂直商用的圖集訓練。例如給他灌入海量LOGO數據,他在LOGO設計方面就會顯著提升,這將有助于AI繪畫真正踏入商用領域。

4)更強的語義理解(文本-圖像)

目前體驗上另一個卡點是,有時候AI不是畫不出來,他是不知道我要什么。我明明說要一只粉紅色的老虎,但他可能以為是粉紅色背景+老虎。這方面的難題就需要靠語義理解去處理。

比如前面提到的CLIP,用40億文本-圖像數據訓練出來的。如果我們用一個更強大的模型去替代它,就能夠提升繪畫過程中的語義準確性(其實我之前看到新聞有一個比CLIP更強的跨模態模型出現了,但是很抱歉沒找到當初的資料,所以這里列不出例子)。

又比如你干脆用ChatGPT來橋接到AI繪畫上,這也是一種加強語義理解的方式。當然這需要ChatGPT一起配合,目前ChatGPT的知識中應該還沒有Prompt怎么寫更合適的知識。

5)多模態的發展

Diffusion的應用正在擴展到音頻、視頻、3D領域,但暫時只是一種趨勢,落地商用的demo比較少。我這里放幾個圖和鏈接給大家參考一下:

視頻通過這個鏈接前往查看https://video-diffusion.github.io/。畢竟視頻類的demo,不親自去看,只看我這里貼圖是感受不到的。

3D建模(點云圖)的效果可以看看下面這張圖:

萬字長文:產品經理視角下的AI繪畫全解析

From 《Diffusion Probabilistic Models for 3D Point Cloud Generation》

讀到這里,我們技術篇的科普+潛力介紹就結束了。

不知道你看到這里是否會認同我一直說的話——真正的AIGC浪潮,就從GPT和Diffusion兩條技術棧開始,其他掛羊排賣狗肉的暫時得靠邊站。

ChatGPT的魅力我已經帶大家領略過了,相信Diffusion的魅力盡管弱一些,但也不會差到哪里去。

并且不管GPT 大語言模型的威力如何強大,他未來是否真的可以跨越多模態降臨到圖像、音頻等多模態(我在前文提過這種發展方向)。

但至少在2023年這個節點,圖像領域的王仍然是Diffusion。畢竟提前半年啟動的數據飛輪和學術界數以百計的paper努力不是白費的。

三、Diffusion的商業分析

如果想看具體的場景、項目盤點,可以在公眾號follow這個商業項目庫,本文中不會有針對具體項目的分析。

萬字長文:產品經理視角下的AI繪畫全解析

本文中嘗試的是,我日常維護更新項目時,所用的分析框架和方法,詳情如下:

  1. 需求明確性,需求越明確越無法忍受AI的自由創作,也越需要人類介入校正;
  2. 市場規模,由作品價值X需求規模影響;
  3. 分析框架,將需求明確性、市場規模組成二維矩陣;
  4. 限制因素,補充法律版權、敏感審核這兩個限制因素作為參考;
  5. 一點淺薄的判斷,關于這個市場會往哪個方向發展。

1. 需求明確性

需求的明確性受到兩方面影響:

1)是否能夠想清楚要什么

多少人/多少場景在創作之前就已經明確知道最后落地作品的樣子?

事實上甲方提需求的時候,通常都是朦朧不定的,因為她們心中只有一個概念。并不是所有人都能做到文與可的“胸有成竹”。

萬字長文:產品經理視角下的AI繪畫全解析

2)是否能夠說清楚要什么

一方面因為圖像需求的朦朧性,他的表達本身就很有困難。例如“我要一個奢華、有格調、符合品牌調性的海報”,這其實就是朦朧需求帶來的表達模糊。

而另一方面是需求方能力限制下的表達模糊。比如夢到了一副作品,那個藍色是天青藍還是蝴蝶蘭呢?那個畫風是印象派還是后現代呢?飽和度是高,還是低呢?

很難,非常難,這也是畫師朋友在以前最核心的技能之一。他們在內心通過自己的審美水平建立起了感性-現實之間的通道,并最終通過自己的技藝實現作品的落地。

基于上述兩個因素組合起來的需求明確性從低到高是這樣子的:

①無條件創作

這就是Diffusion不加入CLIP的樣子,即你給我生成一張作品,但我毫無要求,只要是作品就行。在現實中,這場場景的例子非常少,NFT可能算一個(只要漂亮、有藝術感就可以賣錢,不用你命題作文)。

②方向條件創作

給你一個方向,例如畫一張類似莫奈的畫,畫一只可愛的貓。這個場景就是現在AI繪畫目前所完美匹配的場景。他適用于低要求的創作,例如社交貨幣獲取,AI繪畫平臺作品填充,文章插圖等。

③限制條件創作

商業上的例子會特別常見:幫我畫一個LOGO,科技風,里面一定要有潮汕牛肉丸幾個字,整體色調藍色。

這個例子中限定了LOGO,科技風,包含文字,色調等好幾個條件,遠高于上個層次的要求。

目前技術正在逐漸、部分地滿足這個層次的需求。

④完全條件創作

上個層次中條件完全窮舉后即到達這個層次,例如潮汕牛肉丸要在上面,要用襯體字,必須象形寫意等等,甲方爸爸想要怎么調整就怎么調整。

目前來看,短期內AI不可能是不可能實現完全條件下的創作實現,一定需要靠人類畫師借助工具進行二次修改實現。

2. 市場規模

1)單個作品的價值

這里的價值不是使用價值,就是交換價值,你可以用“價格”來替代理解。在AI技術的低成本碾壓下,作品的價值肯定會產生斷崖式下跌,但需求明確性更高的作品,會具備更高的抗貶值屬性。

2)作品的需求規模

即這種類別的商品,有多大的需求空間。例如插畫,原本用在故事繪本、日系輕小說等地方。而現在因為技術門檻降低,作品價值下跌,國內的網文,人物立繪,同人作品等場景也會產生需求,推動整體需求規模的爆發。

上述兩者綜合起來就是市場規模,目前來看基本的方向是價值下跌,但規模擴張,從而迎來整體市場規模的擴展。

3. 分析框架組裝

通過這兩個維度的理解,我們可以在腦中建立如下圖所示的模型,對每個接觸到的商業機會進行判斷。

萬字長文:產品經理視角下的AI繪畫全解析

大家可以發現整個圖向著右上角蔓延,需求明確性和市場規模在這個框架分析下呈現正比例關系。

但這種關系可能是一種錯判,因為其中的市場規模未客觀測算,收集的方向也不足夠。

因此本圖僅供參考,無法作為知識輸入,更好的用法是套用這個框架看看各類投研公司出具的分析報告。

4. 限制因素

Diffusion的限制因素會比ChatGPT簡單很多,主要圍繞法律版權和敏感審核兩方面。

1)法律版權

概念上可以分為訓練所用圖集版權+用戶生成圖片版權兩大類。目前存在大量的爭議,沒有明確結論。

①模型的輸入:訓練圖集版權

目前Diffusion原始的訓練圖集來自Laion(一家非營利性機構)在22年3月開源的Laion-5B(包含58.3億文本-圖像對)。其中最關鍵的是這個數據集中的一個子集,LAION-Aesthetics。他按照藝術性美感,對圖片進行打分,其中8分以上800萬張,7分以上1.2億張。

但可想而知,這么大規模的一個數據集,肯定不全都是具備商用版權的。但目前幾乎難以對這方面進行追溯定義,相關的討論非?;靵y。

他面臨的本質問題是:對圖像的版權定義過時了。AI模型的做法并非像素級復制,甚至非局部復制,而是復制風格、手法、要素等。這種手法有點像媒體界中流行的“洗稿”,幾乎無法被追溯版權問題。

所以雖然畫家中的抗議聲音非常大,在這方面卻無法產生太大的影響。

萬字長文:產品經理視角下的AI繪畫全解析

日本畫家對mimic的抗議

②模型的輸出:生成作品的版權

目前有一些平臺采用附加NFT的做法來保障用戶生成作品的版權。但同樣的,在法律層面目前沒有明確的定義。

如英國,盡管是少數支持AI生成作品版權的國家之一,他對AI生成作品也有著模糊的前置限定——“完成作品創作所需安排的人”。這個所需的人,就很有意思了,寫幾句Prompt算所需的人嗎?好像可以算也可以不算。

再例如國內,相關的著作權法中描述,“著作權法所稱作品是指文學、藝術和科學領域內具有獨創性并能以某種有形形式復制的智力成果”。因此AI肯定不擁有作品的著作權。

再看這條:“我國著作權法第十一條規定,著作權屬于作者,受到著作權保護的作者只有兩種:“自然人和法人或非法人組織”。那么這個作者是Prompt輸入者還是開發AI模型的公司呢?

我能找到唯一相關的判例來自2020年,騰訊的dreamwriter寫作的財經新聞被復制轉載,騰訊提起訴訟并勝訴,獲賠1500元。但這則判例中沒有用戶+公司這種復雜情況,只有一點點參考意義。

2)敏感審核

審核主要來自輸入端(Prompt)和輸出端(出圖前審核)。

Prompt部分比較簡單,上個詞庫+小模型就能解決,比較成熟了。

萬字長文:產品經理視角下的AI繪畫全解析

輸出端則會比較承壓,畢竟色情和性感,調侃和涉政,其實邊界還挺模糊的。常規平臺做法一般都是模型+人工雙保障。但AI繪畫平臺目前的收益很難承受得起這種人工審核的成本,所以輸出端的控制會松一些。

目前比較主流的方式是通過用戶協議進行責任約定,如下圖:

萬字長文:產品經理視角下的AI繪畫全解析

From 某AI繪畫平臺 免責聲明

5. 一些淺薄的判斷

1)AI繪畫會迅速從目前的方向創作領域展開,進入條件創作領域。這些條件不僅僅是風格的選擇,還可能涉及語義修改,圖像風格保持,核心語義保持,指定方向繪畫(按姿勢、按結構)等。

2)由于上一點,會導致2B的場景蓬勃發展,因為B端場景一直以來需求明確性都是高于C端場景的,同時其市場規模也會大于C端娛樂化的無條件或方向創作場景。

3)由于上一點,2B場景的擴展會導致細分領域越來越多,部分擁有獨特圖像數據資源的公司會下場進行垂直方向的調優,玩家數量會進一步增多。

4)由于上一點,玩家數量增多導致上下游產業鏈進一步發展,綜合性AI繪畫開放平臺是一個有意思的賽道。

5)由于上述觀點,蓬勃旺盛需求與AI不可控現之間的沖突,會導致工具整合成為主流,即AI不可控技術+可控修改技術的整合平臺成為潮流。任何AI技術側都會集成修改技術,而修改技術的傳統公司(如PS)也會集成AI技術。畫師從業者未來的操作平臺一定是綜合平臺。

6)由于上一點,AI繪畫的一個可預見的技術卡點是PNG轉可編輯格式——即出圖直接可修改。這個技術卡點我不太了解,不知道是否有可能解決。

如果預測錯誤,要么某個作出判斷的知識點出錯了,要么整個思考的框架出錯了,都值得期待。

四、Diffusion對相關職業的影響

上一次對畫師的顛覆是電腦發明的時候——手工畫師逐步減少,并被數字畫師替代。手工作品成為了象征品位的小眾商品,就如同手工模型之于工業產品一樣。

我和身邊的很多畫師或者設計朋友聊過這個事情,發現大部分朋友都屬于樂觀精神態度,沒有我一開始想象的悲觀(可能是我的朋友都比較厲害的緣故?不太懂這個行業哈哈)。

要開始這個命題,我們要重新把目光投回商業篇中。商業篇給出了兩個重要的概念:需求明確性,市場規模。

我們這里再延伸出兩個概念:畫師舒適區,新增市場潛力區。

萬字長文:產品經理視角下的AI繪畫全解析

1)畫師舒適區

來自于技術上可控性的演進,他會逐步往右退縮。但目前而言,Diffusion仍然在可控性方面做持續努力,這種努力短期內看來不可能觸達完全限制領域(部分場景可能可以)。

所以畫師的審美、感性語言-藝術作品的轉化能力、對圖片二次修正的技藝等能力其實會保持很長一段時間的價值。

2)市場潛力區

來自于我的一個不成熟想法。歷史上生產力的進步,一定會伴隨著人均消費資源的上升,進而推動市場的繁榮。

沒有電腦前,人均消費的圖片可能1都不到,但有了電腦后,我們的人均消費也隨之而暴漲,繪畫行業的人并不是減少了,反而是增多了。

這就很有趣了,我發現似乎不能將所有生產力革命都與工業革命對工人職業的替代去做類比,這是不恰當的。

我認為可能應該從兩種情況來進行討論(我覺得這個角度應該可以適用于所有職業的分析場景):

生產力到頂,工作者溢出導致失業,需要學習新技能并涌入其他行業。例如農業革命導致農民進城,工業革命導致第三產業繁榮等。

但這種溢出是有極限的,總生產規模不僅受限于勞動力,更可能受限于生產資料(農業革命),受限于消費能力(工業品供過于求)等原因,因此這個過程總會在某個節點按下停止鍵。

生產力未到頂,工作者受益于生產力提升,會創造更多的價值。一個例子是教師,從古代私塾,粉筆黑板,教學電子化一路過來,我們發現我們的教師行業并未發生萎縮,反而持續增長。這是因為他面臨的需求并未到頂,甚至可能是無限的。

我看過一些科幻小說,大概描述一個這樣的場景:人均壽命提升到1000歲,但是科學家開始真正開始科研的歲數是100歲,因為他從頭到尾要學習的內容就是這么多。當文明的壽命長度,不足支撐個體完成文明知識的學習后,文明的發展就被鎖死了。

收回話題來,那么Diffusion對畫師的影響到底是哪種呢?

我認為至少暫時生產力是未到頂的,動漫、動畫、小說插畫、立繪,或者說跨模態的視頻等,其實目前的需求都是旺盛的——特別是在技術壓低成本后,更加是旺盛的。

但是這片市場潛力區的天花板到底多高,我無法判斷。就像1000年前的宋仁宗,還有1個月他就登基了,他能想象我們今天每日消費的內容圖片是多少嗎?

最后做一下創作聲明:本篇內容中的知識點來自為期兩天的刻意學習結果,其中一部分答案來自OpenAI直接提供的回答,如有任何錯誤,歡迎私信指正,非常歡迎。

萬字長文:產品經理視角下的AI繪畫全解析

本文由@馬丁的面包屑 原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫得很棒!

    來自四川 回復