不明覺厲的AI繪畫,對內容創(chuàng)作者來說有什么用?
如今,AI繪畫進入了技術爆炸的時代,有關AI繪畫的爭議和論戰(zhàn)也越發(fā)激烈,那對于內容創(chuàng)作者來說,要如何理解AI繪畫?又有哪些應用場景和亟待探索的問題?本文作者與多位創(chuàng)作者就此進行了討論,并結合各平臺的案例來分析,快來看看吧。
AI繪畫的發(fā)展速度已經(jīng)超乎我們的想象了。
比如以下五張圖,你能看出哪一張不是用AI生成的嗎?
圖A:
圖B:
圖C:
圖D:
圖E:
(作品出處和答案見文末)
可能不少人會覺得驚訝,兩年前AI只能畫一些難以辨認的模糊圖片,如今,一個沒有繪畫基礎的人用AI輸入幾個關鍵詞,等待幾十秒就可以生成比較精細的作品了,如果再多加練習,部分作品甚至能達到商用的水準。
AI繪畫怎么猛然進入技術爆炸的時代了?
從今年2月Disco Diffusion面世,4月MidJourney上線、DALL-E 2內測, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion內測、開源,各種AI繪畫技術迅速更迭升級,有畫師感慨幾乎是“一天一個樣”。
這股浪潮也從國外刮到國內,百度等互聯(lián)網(wǎng)大廠以及一大批藝術、人工智能從業(yè)者和愛好者紛紛投入AI繪畫的新領域。代表平臺有文心一格、6pen、Tiamat等等。
與此同時,有關AI繪畫的爭議和論戰(zhàn)越發(fā)激烈。近期出圈的一個事件是AI畫作《太空歌劇院》在美國科羅拉多州博覽會美術比賽中獲得“數(shù)字藝術/數(shù)字修飾照片”類別的最高獎項,結果受到畫師們的質疑和抵制。
對于內容創(chuàng)作者來說,當下要如何理解AI繪畫?又有哪些應用場景和亟待探索的問題呢?我們和多位創(chuàng)作者聊了聊,并結合各平臺的案例來分析。
文章分為三部分:第一部分是對AI繪畫的基本原理和發(fā)展歷史的簡單科普,第二部分列舉了一些AI繪畫的具體應用案例,第三部分是探討目前AI繪畫存在的爭議和問題,希望對感興趣的朋友有所幫助,歡迎友好交流。
一、AI繪畫是素材拼貼?
首先,我們在這里討論的AI繪畫主要是通過文本生成圖像的計算機程序,即“文生圖”(text2image)。
比如這張圖是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。
稍微修改一下描述,把地點換成水下“underwater with 1990s technology”就能得到以下圖片:
可以看到,AI繪畫并不是對現(xiàn)有素材進行簡單的“縫合拼貼”,而是根據(jù)文字描述創(chuàng)建新的圖像,一定程度上做到了“舉一反三”,可以幫助人類畫出各種奇思妙想,這背后是大量而復雜的深度學習訓練。
讓我們從AI繪畫的技術發(fā)展史來初步認識一下文生圖的基本原理。
AI繪畫發(fā)展時間線,圖源“逗砂”
深度學習在計算機視覺領域的發(fā)展可以追溯到2012年,AI學者吳恩達和Jeff Dean等人的貓臉識別實驗(通過1000臺電腦創(chuàng)造出多達10億個連接的“神經(jīng)網(wǎng)絡”,上萬張貓臉圖片的模型訓練后,最終畫出了一個模糊的貓臉),這意味著機器自主學會了識別貓的面孔。
此后科學家們在AI圖像生成的方向上繼續(xù)深入研究,提出了“GAN(生成對抗網(wǎng)絡)”,通過生成器與判別器的互相博弈來不斷提升生成能力,就像有一位老師在檢查學生畫得像不像,不像的話學生就重新修改,如此循環(huán)。
對抗1000次與100000次后生成的圖像
2015~2020年,從GAN開始,AI繪畫模型進行了很多探索,但這個時候AI還做不到根據(jù)文字來生成圖片。
直到2021年1月,OpenAI接連發(fā)布了兩個連接文本和圖像的神經(jīng)網(wǎng)絡DALL·E和CLIP。CLIP(跨模態(tài)預訓練模型)基于大規(guī)模圖文數(shù)據(jù)集進行了對比學習訓練,可以提取文本和視覺特征來互相匹配。也就是說,AI能夠將文字“貓”與貓的圖像相關聯(lián),且關聯(lián)的特征是非常豐富的。
在CLIP推出一年后,2022年2月,Somnai等幾個開源社區(qū)的工程師制作了一款AI圖像生成器Disco Diffusion(簡稱DD),它能理解輸入的主體內容、藝術風格、結構視角和修飾詞,且生成的圖片更華麗。DD作為免費開源項目搭載在Google Colab上,使用瀏覽器即可運行,AI繪畫從此走入了大眾視野。
Disco Diffusion默認畫作,輸入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”(一座奇異燈塔的美麗畫作,它的光芒照耀在洶涌的血海中,Greg rutkowski和Thomas kinkade風格,A站流行,黃色配色方案)
不過DD并不是“CLIP+GAN”的組合,而是“CLIP+Diffusion”,Diffusion(擴散模型)也是當下最熱門的圖像生成模型。
這個半路殺出的Diffusion有什么不同?
可以看到DD圖片生成的過程是從模糊逐漸變得清晰。
每張圖像本質是一個像素點矩陣,Diffusion先是連續(xù)給圖像添加高斯噪聲,圖像變成了一堆隨機噪聲,然后通過逆向反轉這個噪聲過程來學習恢復數(shù)據(jù)。
Diffusion模型的的擴散過程和逆擴散過程
所以當我們在DD輸入一段文字描述時,程序以Diffusion隨機生成的噪聲為起點,CLIP會持續(xù)計算檢查畫面與描述的一致性,持續(xù)迭代修改,直到噪聲變成正確關聯(lián)的線條和色彩,從而生成滿足需求的圖像。
AI藝術研究者“FeiArt”認為,基于生成模型的AI繪畫是一個“有碼到無碼”的藝術。
雖然DD實現(xiàn)了文生圖,但因為是開源的,上手門檻比較高,光是滿屏的代碼可能就要勸退新手小白了。
“一開始要自己調整二三十個參數(shù),以及編制比較合適的Prompt,才能畫出比較理想的畫面效果,對于使用者理解算法邏輯和寫關鍵詞的要求非常高。不過現(xiàn)在的版本基本不用調參數(shù),只要寫好關鍵詞就可以了?!睌?shù)字藝術家“腦玩家mindplayer”向我們介紹了DD的使用體驗,她從今年3月開始在B站和小紅書分享AI繪畫作品和教程,是國內最早一批玩家。
DD出圈不到一個月,很快就有更成熟、門檻更低的產(chǎn)品出現(xiàn)了——Midjourney(簡稱MJ),目前社區(qū)成員超260萬。
MJ搭載在Discord上(國外流行的虛擬社交平臺),是一個公開的社區(qū),用戶加入后在聊天框輸入描述文字發(fā)送,群內的機器人會回復生成圖片。
每次默認會生成4張圖片,用戶可以點擊圖片下方的按鈕繼續(xù)深化(u1/2/3/4),或者在此基礎上生成同一風格、部分變化的圖片(v1/2/3/4)。
此時AI繪畫的質感和想象力已經(jīng)展現(xiàn)出了一定的審美水平和藝術效果,上文提到的獲獎作品《太空歌劇院》便是由MJ生成的,作者在此基礎上進行了修改完善。
我們在谷歌趨勢搜索關鍵詞“ai painting”,可以看到近兩年的熱度迅速上升,尤其今年7月以來達到最高峰。
很大一部分熱度要歸功于Stable Diffusion(簡稱SD)。
“相比DD,MJ可能更突出作品的質量和獨一無二的深化交互。而SD就勝在超全面的風格和極快的速度,而且對新手來說比較友好,網(wǎng)頁版簡潔易上手,免費的用量也可以體驗不少的圖?!盇I繪畫設計師“魚擺擺”說道。
SD新賬號可以免費使用200點數(shù),每次生成根據(jù)畫面精細程度、張數(shù)等參數(shù)消耗不同的點數(shù),最少1次1點。不過SD是完全開源的,用戶可以選擇線上或部署到本地來使用。
6pen最近在微博發(fā)起了快閃活動,用戶寫關鍵詞發(fā)微博即可體驗用SD生成圖片
SD出現(xiàn)后,AI繪畫的浪潮越發(fā)洶涌,多位創(chuàng)作者表示可能前兩天還在討論的功能,第二天就被開發(fā)出來了。
除了文生圖,如今以圖生圖(image to image)、圖像修復(inpainting)、圖像拓展(outpainting)等功能都已實現(xiàn),AI繪畫也能駕馭國風、二次元等多元風格了。
DALL·E outpainting
Waifu Diffusion(二次元老婆生成器)
文心一格 中國風畫作
Tiamat 國風管線
二、AI繪畫在內容領域如何應用?
在現(xiàn)階段,對于藝術、影視、廣告、建筑、時尚、新媒體等創(chuàng)意行業(yè)從業(yè)者來說,AI繪畫正成為一個強大的助手,可以輔助日常工作,提高產(chǎn)出效率,降低時間和經(jīng)濟成本。
比如“腦玩家mindplayer”使用AI輔助設計LOGO。原來的流程是先構思、手繪,再輸入電腦調整,中間可能還要跟其他同事配合,來回溝通會耗費不少時間精力,但有了AI的幫助就非常高效了,“我告訴AI我要做什么,我們磨合一個小時活兒就干完了”。
在AI基礎上進行優(yōu)化,作品拿去商用也不是難事。
影視導演海辛在公眾號“全民熊貓計劃”分享了其公司將AI設計融入影視美術設計中的首次嘗試——“這街5·李承鉉隊長大秀”,工作流大致為Midjourney -> Blender -> UE虛擬制片。
他表示在極短的制片籌備時間內,AI創(chuàng)作大幅度地提高了效率,證明了AI投入到工業(yè)化使用是完全可行的。
除了輔助設計,AI也能激發(fā)創(chuàng)意靈感。像服裝博主“JINNY ”、婚禮策劃師“哎呀呀哎吔吔”使用AI生成的概念圖作為設計參考。
PPT設計師、藝術博主“Simon_阿文”經(jīng)常分享AI行業(yè)資訊和實用工具,他嘗試用AI生成無縫紋理貼圖,設計素材的獲取變得更自由了。
數(shù)字藝術家、小紅書博主“對方正在畫圖”告訴我們,具體應用要看創(chuàng)作者的知識背景和prompt的寫作能力,不同行業(yè)背景的人寫出的詞、畫出的內容很不一樣。
這些從業(yè)者發(fā)布在網(wǎng)上的作品讓更多人看到了AI繪畫的可能性,非專業(yè)人士也躍躍欲試,希望大展身手。有觀點認為專業(yè)人士在AI繪畫上會更有優(yōu)勢,用起來更得心應手,實際上這個優(yōu)勢隨著技術迭代已經(jīng)在縮小了。
“之前一個人從不會畫畫到能畫出漂亮的、可讀解的圖像,可能需要很多年的訓練。但是現(xiàn)在,有一個比較熟悉AI繪畫系統(tǒng)的人教你的話,可能兩三天就能學會大概的描述方法,再學習精進的時間成本降低很多了?!薄澳X玩家mindplayer”說道。
“人人都可以是藝術家”,我們列舉了幾個AI繪畫在內容領域的應用方向。
1. 有經(jīng)驗的創(chuàng)作者可以用AI拓展新的內容題材,創(chuàng)新互動形式
“大谷Spitzer”擅長修復舊照片和視頻,現(xiàn)在他能結合AI繪畫與手繪來“還原”莫奈1875年繪制的印象派油畫《撐陽傘的女人》的寫實風格場景。
他通過選取多個局部區(qū)域用AI進行繪畫生成,再輔助以手繪進行修飾細節(jié)和完善銜接處,最終完成了這幅作品。
百萬粉航空媒體自由撰稿人、航空畫畫家白瑋,近期發(fā)布了自己用AI制作的漫畫,是賽博式的志怪題材。
隨著技術發(fā)展,創(chuàng)作者平臺方面也將給予更多AI工具支持,新的內容玩法值得期待。
比如今年9月百度萬象大會上推出了“創(chuàng)作者AI助理團”,通過文心大模型、文心一格、圖文轉視頻等技術,為創(chuàng)作者提供“AI文案助理”、“AI插畫助理”、“AI視頻制作助理”,幫助創(chuàng)作者實現(xiàn)“一個人成為一支隊伍”。
2. 將AI圖片實體化等進一步變現(xiàn)增收
“魚擺擺”基于AI生成的作品做了很多領域的擴展和嘗試,比如實體化成為卡牌游戲的卡片角色、拼圖、實體墻繪彩繪素材、文創(chuàng)產(chǎn)品等等,也有做AI繪畫教學課程。
“魚擺擺”供圖
此外,還有創(chuàng)作者將AI生成圖片進一步優(yōu)化做成數(shù)字藏品,上鏈發(fā)售。
3. 擁抱“配圖自由”,嘗試自己生成符合內容的封面圖和插圖
公眾號“槽邊往事”從5月18日以來的封面圖基本是作者和菜頭自己用AI生成的,結尾附上了部分圖片的描述詞,他還在文章中分享了創(chuàng)作心得。
4. 二創(chuàng)門檻降低,UGC內容數(shù)量增多
現(xiàn)在入門AI繪畫越來越便捷了,新手不會寫關鍵詞,可以去愛好者創(chuàng)建的檢索網(wǎng)站和群內“抄作業(yè)”,SD也可以接入Photoshop插件,創(chuàng)作門檻更低了。
描述詞檢索網(wǎng)站lexica.art
借助AI生成圖片的能力,不會繪畫的用戶有機會實現(xiàn)自己的奇思妙想,出于愛好做一些小說插圖、音樂MV、鬼畜玩梗等二創(chuàng),從而跨入內容創(chuàng)作的大門。
UP主“哀榮四瀉”用AI為歌曲作畫
5. 延伸探索AI生成視頻
AI繪畫的下一步就是視頻。近期AI作品《烏鴉》獲得了2022年戛納電影短片節(jié)最佳短片,據(jù)作者Glenn Marshall介紹,這部作品將真人舞蹈視頻素材《Painted》輸入OpenAI的CLIP,然后系統(tǒng)根據(jù)描述“荒涼風景中的烏鴉畫”轉化為動畫。
UP主“自由云朵”利用Disco Diffusion繪制,經(jīng)由Topaz Video Enhance AI優(yōu)化放大,復刻了周杰倫新歌《最偉大的作品》的MV,播放量達83萬,這是他B站投稿中目前播放最高的作品。
據(jù)百度文心方面介紹,AI生成視頻,是AI生成圖像的一種延伸。從技術本質上看,視頻可以認為是多張“圖片”,即視頻幀構成的序列,且序列上各幀之間有畫面、邏輯等層面的關聯(lián)。因此,從嚴格的技術抽象層面出發(fā),AI生成視頻是相對更難實現(xiàn)的。
當前文生圖技術可以通過簡單的技術組合,例如分步驟擴散生成等方式,將生成圖像擴展到生成視頻,但效果還不能令人滿意??偨Y來說,AI按照生成圖像的方式生成視頻,仍處于前沿探索階段。
三、AI繪畫仍待探索的問題
AI繪畫的飛速發(fā)展也伴隨著許多爭議和問題。
“腦玩家mindplayer”表示,“AI繪畫作為一個工具可以迅速被應用,人人都可以畫出自己理想的世界,但是之后怎么辦?這可能是行業(yè)內外的人都在思考的問題?!?/p>
藝術相關從業(yè)者擔心的是自己會不會被AI取代,因此失業(yè)。
今年8月,《大西洋月刊》文章中使用Midjourney創(chuàng)作的圖片作為插圖引發(fā)了大量爭議,如果媒體在未來大量使用AI繪圖,那么插畫師、攝影師的生存空間會不會被擠壓,甚至行業(yè)都將覆滅呢?
的確,人工智能的力量會對人們的生活帶來很大變化,未來技術普及后不可避免會取代一部分重復性較高的初級崗位,但“藝術已死”的說法真的與現(xiàn)實相符嗎?AI繪畫具有創(chuàng)造性嗎?
Midjourney創(chuàng)始人David Holz曾在每周三Office Hour時間,回答了這個提問:
創(chuàng)造力本身有很多的形式,如果說是將兩個不同的概念混合在一起,像是賽博朋克和洋蔥,也許歷史上從未有過做賽博朋克洋蔥的人類。在將兩個不同概念混合在一起的能力上,AI目前基本是人類的水平。但我認為藝術家不僅僅是關于圖像的產(chǎn)生者,藝術往往是關于故事和情感的,而AI沒有故事和情感,AI創(chuàng)作的影像的敘事來源于使用TA的人。
貝殼皆來自大海,但海洋非造物者。美石皆來自川河,但河流非孕育者。這套系統(tǒng)并無創(chuàng)造的能力,但美可以來自其中。AI繪畫本質如同行云,TA并無任何主觀的意愿。
雖然樂觀的從業(yè)者紛紛投入研究AI繪畫,但在行業(yè)上下游,受到?jīng)_擊的付費圖庫首先用行動表示了抵制。
近日,繼Newgrounds、PurplePort和FurAffinity后,圖庫服務商Getty Images禁止上傳、銷售使用AI生成圖片,這意味著由DALL·E、Midjourney和Stable Diffusion等工具生成的作品將無法上傳并獲得任何收入。并且,之前上傳平臺的AI生成圖片也一概作刪除處理。
Getty Images首席執(zhí)行官Craig Peters表示,該禁令是出于對AI生成內容合法性的擔憂以及保護網(wǎng)站客戶的愿望,但他并未透露Getty Images是否因為銷售AI生成作品而面臨訴訟糾紛。
實際上,目前海內外關于AI生成圖片的合規(guī)性頗有爭議。
上文我們談到AI生成圖像的原理是深度學習了大量圖文數(shù)據(jù),會抓取網(wǎng)絡公開的他人作品,生成的圖片與訓練的作品相似,甚至有時還會混入原創(chuàng)水印痕跡,所以有觀點認為訓練庫涉嫌抄襲和侵權,部分從業(yè)者也公開表明禁止AI學習自己的作品。近期被抵制下線的日本AI繪畫平臺micmic就是一個典型例子。
涉及到商業(yè)使用時,AI生成圖片的版權到底歸誰所有?這個問題不同平臺都有各自的說法,具體還要看對應的版權說明。
有的平臺表示屬于生成者,比如6Pen聲明不保留版權,生成的圖片版權都歸屬生成者,可隨意自用商用。有的屬于平臺,有的完全開源,不屬于任何人。
根據(jù)Midjourney的服務協(xié)議,輸入prompt的人享有生成圖像的版權,但對于prompt版權的歸屬卻沒有定論。據(jù)觀察,現(xiàn)在業(yè)內已出現(xiàn)販賣文本prompt、AI洗稿的現(xiàn)象,還有甚者直接盜圖賣圖,一些壁紙?zhí)柺侵貫膮^(qū),所以許多創(chuàng)作者選擇不公開作品的prompt,標注禁止轉載和商用。
一般AI繪畫商用避免侵權的做法是增加獨創(chuàng)性,將AI作為輔助或基礎素材。“Simon_阿文”認為,如果有以下一種或者多種情況,建議不要商用:
- 當你使用了風格鮮明的藝術家作為關鍵詞時,請不要直接商用,尤其是在世的藝術家;
- 當你使用了某部商業(yè)作品作為關鍵詞時,請不要直接商用;
- 歡迎按照這個思路補充。
關于版權問題,百度文心方面表示對圖片版權非常重視,如果平臺未來開放出來的生成圖片侵犯到原作者權益,百度會提供投訴反饋通道,為相關權利人提供權利救濟渠道,迅速處理。“AI文生圖的版權問題是國內外法律都在持續(xù)探討的方向,百度會跟進國內外發(fā)展情況,結合國內法律法規(guī),有最新進展會更新給大家。”
此外,AI本身沒有價值判斷,只是提取訓練庫數(shù)據(jù)的特征與人們輸入的數(shù)據(jù)相對應,當人們刻意輸入暴力、血腥、涉黃等敏感信息,或將生成的圖片用于虛構事實時,AI也可能隨之陷入倫理道德的困境。在這方面,DALL·E 2做了很多限制和干預,比如減少性別偏見的產(chǎn)生、防止訓練模型生成逼真的個人面孔。
人工智能是個新興行業(yè),可以看到相關的行業(yè)規(guī)范正在向前邁進。
10月1日起實施的《上海市促進人工智能產(chǎn)業(yè)發(fā)展條例》立法確立了人工智能產(chǎn)品和服務的行為底線,明確相關主體開展人工智能研發(fā)和應用,應當遵守法律、法規(guī)規(guī)定,增強倫理意識,并不得從事相關禁止行為。比如禁止提供危害用戶人身或者財產(chǎn)安全、侵害個人隱私或者個人信息權益的產(chǎn)品和服務;禁止利用算法技術實施價格歧視或者消費欺詐等侵害消費者權益的行為,實施壟斷或者不正當競爭等行為等。
縱觀內容生態(tài)的發(fā)展,大致可以分成四個階段:專業(yè)生成內容(PGC)、用戶生成內容(UGC)、AI輔助生產(chǎn)內容、AI生成內容(AIGC)。AIGC(Artificial intelligence-generated content)即通過AI技術來自動或輔助生成內容的生產(chǎn)方式。
圖源量子位智庫《AIGC/AI生成內容產(chǎn)業(yè)展望報告》
“未來十年,AIGC將顛覆現(xiàn)有內容生產(chǎn)模式,可以實現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,創(chuàng)造出有獨特價值和獨立視角的內容?!卑俣荣Y深副總裁、百度移動生態(tài)事業(yè)群組(MEG)總經(jīng)理何俊杰在2022萬象大會上說道。
可以預見的是,未來人工智能將會深入影響各類內容創(chuàng)作領域,潘多拉的魔盒已然打開,痛苦與希望并存。
【答案:這五張圖分別出自作者“tarte”、“腦玩家mindplayer”、“陳麒宇”、“WLOP”和“撫光”,只有D“WLOP”未使用AI創(chuàng)作,WLOP是AI繪畫描述中經(jīng)常被引用的知名畫師?!?/strong>
作者:卷毛,編輯:張潔,校對:松露
來源公眾號:新榜(ID:newrankcn),專注互聯(lián)網(wǎng)內容領域的觀察報道,關心與內容產(chǎn)業(yè)相關的人和事。
本文由人人都是產(chǎn)品經(jīng)理合作媒體@新榜 授權發(fā)布,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!