OpenAI與AIGC:改變?nèi)祟惿a(chǎn)范式,通往“萬(wàn)物的摩爾定律”
人類藝術(shù)的發(fā)展速度是對(duì)數(shù)式的,而技術(shù)的進(jìn)步速度是指數(shù)式的。生成式 AI ,實(shí)現(xiàn)了創(chuàng)作質(zhì)量上的指數(shù)式進(jìn)步,并提高了生產(chǎn)效率,而AIGC 積累數(shù)據(jù)成本低在未來(lái)也將成為商業(yè)發(fā)展的一大優(yōu)勢(shì)。本文旨在對(duì)生成式 AI 發(fā)展與突破的歷史進(jìn)行復(fù)盤,并梳理生成式 AI 在多種領(lǐng)域帶來(lái)的下游應(yīng)用。
今年美國(guó)科羅拉多州博覽會(huì)的藝術(shù)比賽上,游戲設(shè)計(jì)師 Jason M. Allen 的作品《太空歌劇院》在數(shù)字藝術(shù)板塊得到一等獎(jiǎng)。獎(jiǎng)項(xiàng)本身含金量不大,卻一石激起千層浪,因?yàn)檫@幅畫不是由人動(dòng)手繪制,而是來(lái)自生成式 AI (Generative AI) 產(chǎn)品 Midjourney。
當(dāng)時(shí)藝術(shù)正統(tǒng)和機(jī)器褻瀆引發(fā)了爭(zhēng)議,其實(shí)早在攝影技術(shù)興起時(shí)就有過(guò)類似的爭(zhēng)議,并不妨礙攝影技術(shù)革新并,成為了現(xiàn)代藝術(shù)的有機(jī)組成部分。
因此本文不對(duì)此問題做太多探討,而是旨在對(duì)生成式 AI 發(fā)展與突破的歷史進(jìn)行復(fù)盤,并梳理生成式 AI 會(huì)在自然語(yǔ)言、代碼、圖片、視頻、3D 模型等領(lǐng)域帶來(lái)什么樣的下游應(yīng)用。
回顧歷史,人類藝術(shù)的發(fā)展速度是對(duì)數(shù)式的,而技術(shù)的進(jìn)步速度是指數(shù)式的。生成式 AI 學(xué)習(xí)了人類藝術(shù)對(duì)數(shù)進(jìn)化史上的海量畫作,實(shí)現(xiàn)了創(chuàng)作質(zhì)量上的指數(shù)式進(jìn)步,并在生產(chǎn)效率上實(shí)現(xiàn)了“彎道超車”。模型生成的作品便是今天熱議的AIGC (AI Generated Content)。
而本文聚焦的公司 OpenAI ,在這場(chǎng)生成式 AI 的突破中起到了關(guān)鍵性的作用,通過(guò)堆疊海量算力的大模型(Foundation Model)使 AIGC 進(jìn)化。
在 2022 年上半年,OpenAI 旗下三個(gè)大模型 GPT-3、GitHub Copilot 和 DALL·E2 的注冊(cè)人數(shù)均突破了 100 萬(wàn)人,其中 GPT-3 花了 2 年,GitHub Copilot 花了半年,而 DALL·E2 只用了2個(gè)半月達(dá)到了這一里程碑,足見這一領(lǐng)域熱度的提升。
研究型企業(yè)引領(lǐng)的大模型發(fā)展,也給了下游應(yīng)用領(lǐng)域很大的想象空間,語(yǔ)言生成領(lǐng)域已經(jīng)在文案生成、新聞撰寫、代碼生成等領(lǐng)域誕生了多家百萬(wàn)級(jí)用戶、千萬(wàn)級(jí)美金收入的公司。
而最出圈的圖片生成領(lǐng)域兩大產(chǎn)品 MidJourney 和 Stable Diffusion 都已經(jīng)有相當(dāng)大的用戶群體,微軟也已經(jīng)布局在設(shè)計(jì)軟件中為視覺設(shè)計(jì)師提供 AIGC 內(nèi)容,作為設(shè)計(jì)靈感和素材的來(lái)源。同時(shí) 3D 和視頻生成領(lǐng)域的大模型也在飛速突破的過(guò)程中,未來(lái)很可能會(huì)在游戲原畫、影視特效、文物修復(fù)等領(lǐng)域發(fā)揮作用。
從神經(jīng)網(wǎng)絡(luò)的角度看,當(dāng)前的大模型 GPT-3 有 1750 億參數(shù),人類大腦有約 100 萬(wàn)億神經(jīng)元,約 100 個(gè)神經(jīng)元會(huì)組成一個(gè)皮質(zhì)柱,類似于一個(gè)小的黑盒神經(jīng)網(wǎng)絡(luò)模塊,數(shù)量級(jí)上的差異決定了算力進(jìn)步可以發(fā)展的空間還很大。與此同時(shí),今天訓(xùn)練 1750 億參數(shù)的 GPT-3 的成本大概在 450 萬(wàn)美元左右,根據(jù)成本每年降低約 60% 的水平,供大模型提升計(jì)算復(fù)雜度的空間還很多。
OpenAI CEO、YC 前主席 Sam Altman 的圖景中,AI 大模型發(fā)展的最終目標(biāo)是 AGI(通用人工智能,Artificial General Intelligence),當(dāng)這一目標(biāo)實(shí)現(xiàn)的時(shí)候,人類經(jīng)濟(jì)社會(huì)將實(shí)現(xiàn)“萬(wàn)物的摩爾定律”,即萬(wàn)物的智能成本無(wú)限降低,人類的生產(chǎn)力與創(chuàng)造力得到解放。
01 歸納并演繹——生成式 AI 是什么
AI 模型大致可以分為兩類:決策式 AI 與生成式 AI。
根據(jù)機(jī)器學(xué)習(xí)教科書,決策式模型 (Discriminant Model)學(xué)習(xí)數(shù)據(jù)中的條件概率分布;生成式模型 (Generative Model)學(xué)習(xí)數(shù)據(jù)中的聯(lián)合概率分布,兩者的區(qū)別在于擅長(zhǎng)解決問題的方式不同:
決策式 AI 擅長(zhǎng)的是基于歷史預(yù)估當(dāng)下,有兩大類主要的模型應(yīng)用,一類是輔助決策,常用在推薦系統(tǒng)和風(fēng)控系統(tǒng)中;第二類是決策智能體,常用于自動(dòng)駕駛和機(jī)器人領(lǐng)域。
生成式 AI 擅長(zhǎng)的是歸納后演繹創(chuàng)造,基于歷史進(jìn)行縫合式創(chuàng)作、模仿式創(chuàng)新——成為創(chuàng)作者飛船的大副。所謂 AIGC(AI Generated Content),便是使用生成式AI主導(dǎo)/輔助創(chuàng)作的藝術(shù)作品。
不過(guò)在10年代的機(jī)器學(xué)習(xí)教科書中,早已就有了這兩類AI。為何 AIGC 在20年代初有了顯著突破呢?答案是大模型的突破。
02 The Bitter Lesson——大模型助 AIGC 進(jìn)化
時(shí)間倒回到 19 年 3 月,強(qiáng)化學(xué)習(xí)之父 Richard Sutton 發(fā)布了名為 The Bitter Lesson(苦澀的教訓(xùn))的博客,其中提到:“短期內(nèi)要使AI能力有所進(jìn)步,研究者應(yīng)尋求在模型中利用人類先驗(yàn)知識(shí);但之于AI的發(fā)展,唯一的關(guān)鍵點(diǎn)是對(duì)算力資源的充分利用?!?/strong>
Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation.
該文章在當(dāng)時(shí)被不少 AI 研究者視為對(duì)自己工作的否定,極力辯護(hù)。但如果拉長(zhǎng)時(shí)間線回看,會(huì)發(fā)現(xiàn)這位泰斗所言不虛:
機(jī)器學(xué)習(xí)模型可以從參數(shù)量級(jí)上分為兩類:統(tǒng)計(jì)學(xué)習(xí)模型,如 SVM(支持向量機(jī))、決策樹等數(shù)學(xué)理論完備,算力運(yùn)用克制的模型;和深度學(xué)習(xí)模型,以多層神經(jīng)網(wǎng)絡(luò)的深度堆疊為結(jié)構(gòu),來(lái)達(dá)到高維度暴力逼近似然解的效果,理論上不優(yōu)雅但能高效的運(yùn)用算力進(jìn)行并行計(jì)算。
神經(jīng)網(wǎng)絡(luò)模型在上世紀(jì) 90 年代出現(xiàn),但在 2010 年前,統(tǒng)計(jì)學(xué)習(xí)模型仍是主流;后來(lái)得益于 GPU 算力的高速進(jìn)步,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型逐漸成為主流。
深度學(xué)習(xí)充分利用了 GPU 擅長(zhǎng)并行計(jì)算的能力,基于龐大的數(shù)據(jù)集、復(fù)雜的參數(shù)結(jié)構(gòu)一次次實(shí)現(xiàn)出驚人的效果,刷新預(yù)期。大模型便是深度學(xué)習(xí)模型參數(shù)量達(dá)到一定量級(jí),只有大型科技公司才能部署的深度學(xué)習(xí)模型。
2019年,OpenAI 從非營(yíng)利組織變?yōu)闋I(yíng)利性公司,接受微軟 10 億美金注資。這一合作奠定了他們有更多算力資源,并能依仗微軟的云基礎(chǔ)建設(shè)隨時(shí)將大模型(Foundation Model)發(fā)布為商用 api。
與此同時(shí),還有第三件事值得關(guān)注,大模型 AI 的研究方向出現(xiàn)了轉(zhuǎn)變,從智能決策式 AI 轉(zhuǎn)變?yōu)閮?nèi)容生成式 AI:原本主要大模型集中于游戲的智能決策體,如 DeepMind 開發(fā)的打敗圍棋冠軍的 AlphaGo、OpenAI 開發(fā)的打敗 Dota 職業(yè)選手的 OpenAI Five。
Transformer 模型(后文將詳細(xì)介紹)的發(fā)布讓 OpenAI 嗅到了更適合他們的機(jī)會(huì)——預(yù)訓(xùn)練語(yǔ)言模型。在那之后,他們開始在 AIGC 的方向上開枝散葉:沿著 2018 年時(shí)低調(diào)發(fā)布的 GPT 模型軌跡發(fā)布了一系列模型族,一次次刷新文本生成大模型的效果,印證 Sutton 提出的宗旨:充分運(yùn)用海量算力讓模型自由的進(jìn)行探索和學(xué)習(xí)。
03 OpenAI的大模型發(fā)展之路
- 2019年2月:GPT-2 初版發(fā)布,1.2 億參數(shù)量
- 2019年3月:OpenAI LP 成立
- 2019年7月:微軟注資 10 億美金
- 2019年11月:GPT-2 最終版發(fā)布,15 億參數(shù)量,宣布暫時(shí)不開放使用為避免假信息偽造
- 2020年6月:GPT-3 發(fā)布,1750 億參數(shù)量,后續(xù)開放 OpenAI API 作為商用
- 2021年1月:DALL·E 與 CLIP 發(fā)布
- 2021年10月:OpenAI Codex 發(fā)布,為 GPT-3 為 coding 場(chǎng)景的特化模型、Github Copilot 的上游模型
- 2022年4月:DALL·E2 發(fā)布
1、GPT-3,AI文本生成巔峰之作
深度學(xué)習(xí)興起于計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,而大模型的發(fā)展開始于 NLP 領(lǐng)域。在數(shù)據(jù)、算力充分發(fā)展的過(guò)程中,Transformer 模型以 attention 機(jī)制高度并行化的結(jié)構(gòu)充分利用算力,成為 NLP 領(lǐng)域預(yù)訓(xùn)練模型的標(biāo)桿。
著名的獨(dú)角獸 Hugging Face 也是從對(duì)該模型的復(fù)現(xiàn)和開源起家。除了 attention 機(jī)制的高效之外,它還有兩個(gè)重要特點(diǎn):遷移學(xué)習(xí)(transfer learning)和自監(jiān)督學(xué)習(xí)(self-supervised learning)。
顧名思義,遷移學(xué)習(xí)指在一個(gè)極龐大的數(shù)據(jù)集上充分學(xué)習(xí)歷史上的各類文本,把經(jīng)驗(yàn)遷移到其他文本上。
算法工程師會(huì)將第一步訓(xùn)練完成的模型存儲(chǔ)下來(lái),稱為預(yù)訓(xùn)練模型。需要執(zhí)行具體任務(wù)時(shí),基于預(yù)訓(xùn)練版本,進(jìn)行定制化微調(diào)(fine-tune)、或展示少許范例(few-shot/zero-shot)。
而自監(jiān)督學(xué)習(xí),得從機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)講起。前面提到若需要學(xué)習(xí)一匹馬是否在奔跑,需要有一個(gè)完整標(biāo)注好的大數(shù)據(jù)集。
自監(jiān)督學(xué)習(xí)不需要,當(dāng) AI 拿到一個(gè)語(yǔ)料庫(kù),可以通過(guò)遮住一句話中的某個(gè)單詞、遮住某句話的下一句話的方式,來(lái)模擬一個(gè)標(biāo)注數(shù)據(jù)集,幫模型理解每個(gè)詞的上下文語(yǔ)境,找到長(zhǎng)文本之間的關(guān)聯(lián)。該方案大幅提高了對(duì)數(shù)據(jù)集的使用效率。
谷歌發(fā)布的 BERT 是 Transformer 時(shí)代的先驅(qū),OpenAI 發(fā)布的 GPT-2 以相似的結(jié)構(gòu)、更勝一籌的算力后來(lái)居上。直到2020年6月,OpenAI 發(fā)布了 GPT-3,成為該模型族,甚至整個(gè)文本生成領(lǐng)域的標(biāo)桿。
GPT-3 的成功在于量變產(chǎn)生質(zhì)變:參數(shù)比 GPT-2 多了兩個(gè)數(shù)量級(jí)(1750億vs 15億個(gè)參數(shù)),它用的最大數(shù)據(jù)集在處理前容量達(dá)到 45TB。
如此巨大的模型量級(jí),效果也是史無(wú)前例的。給 GPT-3 輸入新聞標(biāo)題“聯(lián)合衛(wèi)理公會(huì)同意這一歷史性分裂”和副標(biāo)題“反對(duì)同性戀婚姻的人將創(chuàng)建自己的教派”,生成了一則以假亂真的新聞,評(píng)估人員判斷出其為AI生成的準(zhǔn)確率僅為 12%。以下是這則新聞的節(jié)選:
據(jù)《華盛頓郵報(bào)》報(bào)道,經(jīng)過(guò)兩天的激烈辯論,聯(lián)合衛(wèi)理公會(huì)同意了一次歷史性的分裂:要么創(chuàng)立新教派,要么“保持神學(xué)和社會(huì)意義上的保守”。大部分參加五月教會(huì)年度會(huì)議的代表投票贊成進(jìn)一步禁止 LGBTQ 神職人員的任命,并制定新的規(guī)則“規(guī)范”主持同性婚禮的神職人員。但是反對(duì)這些措施的人有一個(gè)新計(jì)劃:于2020 年組成一個(gè)新教派“基督教衛(wèi)理公會(huì)”。
要達(dá)到上述效果,成本不容小覷:從公開數(shù)據(jù)看,訓(xùn)練一個(gè) BERT 模型租用云算力要花約 1.2 萬(wàn)美元,訓(xùn)練 GPT-2 每小時(shí)要花費(fèi) 256 美元,但 OpenAI 并未公布總計(jì)時(shí)間成本。考慮到 GPT-3 需要的算力是 BERT 的 2000 多倍,預(yù)估發(fā)布當(dāng)時(shí)的訓(xùn)練成本肯定是千萬(wàn)美元級(jí)別,以至于研究者在論文第九頁(yè)說(shuō):我們發(fā)現(xiàn)了一個(gè) bug,但沒錢再去重新訓(xùn)練模型,就先這么算了吧。
2、背后DALL·E 2,從文本到圖片
GPT-3殺青后,OpenAI 把大模型的思路遷移到了圖片多模態(tài)(multimodal)生成領(lǐng)域,從文本到圖片主要有兩步:多模態(tài)匹配:將 AI 對(duì)文本的理解遷移至對(duì)圖片的理解;圖片生成:生成出最符合要求的高質(zhì)量圖片。
對(duì)于多模態(tài)學(xué)習(xí)模塊,OpenAI 在 2021 年推出了 CLIP 模型,該模型以人類的方式瀏覽圖像并總結(jié)為文本內(nèi)容,也可以轉(zhuǎn)置為瀏覽文本并總結(jié)為圖像內(nèi)容(DALL·E 2中的使用方式)。
CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比較簡(jiǎn)單:在一個(gè)圖像-文本對(duì)數(shù)據(jù)集上訓(xùn)練一個(gè)比對(duì)模型,對(duì)來(lái)自同一樣本對(duì)的圖像和文本產(chǎn)生高相似性得分,而對(duì)不匹配的文本和圖像產(chǎn)生低相似性分(用當(dāng)前圖像和訓(xùn)練集中的其他對(duì)的文本構(gòu)成不匹配的樣本對(duì))。
對(duì)于內(nèi)容生成模塊,前面探討了文本領(lǐng)域:10 年代末 NLP 領(lǐng)域生成模型的發(fā)展,是 GPT-3 暴力出奇跡的溫床。而計(jì)算機(jī)視覺 CV 領(lǐng)域 10 年代最重要的生成模型是 2014 年發(fā)布的生成對(duì)抗網(wǎng)絡(luò)(GAN),紅極一時(shí)的 DeepFake 便是基于這個(gè)模型。GAN的全稱是 Generative Adversarial Networks——生成對(duì)抗網(wǎng)絡(luò),顯然“對(duì)抗”是其核心精神。
注:受博弈論啟發(fā),GAN 在訓(xùn)練一個(gè)子模型A的同時(shí),訓(xùn)練另一個(gè)子模型B來(lái)判斷它的同僚A生成的是真實(shí)圖像還是偽造圖像,兩者在一個(gè)極小極大的博弈中不斷變強(qiáng)。
當(dāng)A生成足以“騙”過(guò)B的圖像時(shí),模型認(rèn)為它比較好地?cái)M合出了真實(shí)圖像的數(shù)據(jù)分布,進(jìn)而用于生成逼真的圖像。當(dāng)然,GAN方法也存在一個(gè)問題,博弈均衡點(diǎn)的不穩(wěn)定性加上深度學(xué)習(xí)的黑盒特性使其生成。
不過(guò) OpenAI 大模型生成圖片使用的已不是 GAN 了,而是擴(kuò)散模型。2021年,生成擴(kuò)散模型(Diffusion Model)在學(xué)界開始受到關(guān)注,成為圖片生成領(lǐng)域新貴。
它在發(fā)表之初其實(shí)并沒有收到太多的關(guān)注,主要有兩點(diǎn)原因:
- 其一靈感來(lái)自于熱力學(xué)領(lǐng)域,理解成本稍高;
- 其二計(jì)算成本更高,對(duì)于大多高校學(xué)術(shù)實(shí)驗(yàn)室的顯卡配置而言,訓(xùn)練時(shí)間比 GAN 更長(zhǎng)更難接受。
該模型借鑒了熱力學(xué)中擴(kuò)散過(guò)程的條件概率傳遞方式,通過(guò)主動(dòng)增加圖片中的噪音破壞訓(xùn)練數(shù)據(jù),然后模型反復(fù)訓(xùn)練找出如何逆轉(zhuǎn)這種噪音過(guò)程恢復(fù)原始圖像,訓(xùn)練完成后。擴(kuò)散模型就可以應(yīng)用去噪方法從隨機(jī)輸入中合成新穎的“干凈”數(shù)據(jù)。該方法的生成效果和圖片分辨率上都有顯著提升。
不過(guò),算力正是大模型研發(fā)公司的強(qiáng)項(xiàng),很快擴(kuò)散模型就在大公司的調(diào)試下成為生成模型新標(biāo)桿,當(dāng)前最先進(jìn)的兩個(gè)文本生成圖像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于擴(kuò)散模型。DALL·E 2 生成的圖像分辨率達(dá)到了 1024 × 1024 像素。例如下圖“生成一幅莫奈風(fēng)格的日出時(shí)坐在田野里的狐貍的圖像”:
除了圖像生成質(zhì)量高,DALL·E 2 最引以為傲的是 inpainting 功能:基于文本引導(dǎo)進(jìn)行圖像編輯,在考慮陰影、反射和紋理的同時(shí)添加和刪除元素,其隨機(jī)性很適合為畫師基于現(xiàn)有畫作提供創(chuàng)作的靈感。比如下圖中加入一只符合該油畫風(fēng)格的柯基:
DALL·E 2 發(fā)布才五個(gè)月,尚沒有 OpenAI 的商業(yè)化api開放,但有 Stable Diffusion、MidJourney 等下游公司進(jìn)行了復(fù)現(xiàn)乃至商業(yè)化,將在后文應(yīng)用部分介紹。
3、OpenAI的使命——開拓通往 AGI 之路
AIGC 大模型取得突破,OpenAI 只開放了api和模型思路供大家借鑒和使用,沒去做下游使用場(chǎng)景的商業(yè)產(chǎn)品,是為什么呢?因?yàn)?OpenAI 的目標(biāo)從來(lái)不是商業(yè)產(chǎn)品,而是通用人工智能 AGI。
OpenAI 的創(chuàng)始人 Sam Altman 是 YC 前總裁,投出過(guò) Airbnb、Stripe、Reddit 等明星獨(dú)角獸(另一位創(chuàng)始人 Elon Musk 在 18 年因?yàn)樘厮估c OpenAI “利益相關(guān)”離開)。
他在 21 年發(fā)布過(guò)一篇著名的博客《萬(wàn)物的摩爾定律》,其中提到 OpenAI,乃至整個(gè) AI 行業(yè)的使命是通過(guò)實(shí)現(xiàn) AGI 來(lái)降低所有人經(jīng)濟(jì)生活中的智能成本。這里所謂 AGI,指的是能完成平均水準(zhǔn)人類各類任務(wù)的智能體。
因此,OpenAI 始終保持著學(xué)術(shù)型企業(yè)的姿態(tài)處于行業(yè)上游,成為學(xué)界與業(yè)界的橋梁。當(dāng)學(xué)界涌現(xiàn)出最新的 state-of-art 模型,他們能抓住機(jī)會(huì)通過(guò)海量算力和數(shù)據(jù)集的堆疊擴(kuò)大模型的規(guī)模,達(dá)到模型意義上的規(guī)模經(jīng)濟(jì)。
在此之后克制地開放商業(yè)化 api,一方面是為了打平能源成本,更主要是通過(guò)數(shù)據(jù)飛輪效應(yīng)帶來(lái)的模型進(jìn)化收益:積累更富裕的數(shù)據(jù)優(yōu)化迭代下一代大模型,在通往 AGI 的路上走得更堅(jiān)實(shí)。
出處:State of AI Report 2022
定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收購(gòu)。同樣背靠科技巨頭,也同樣從強(qiáng)化學(xué)習(xí)智能決策領(lǐng)域起家,麾下的 AlphaGo 名聲在外,Elon Musk 和 Sam Altman 剛開始組局創(chuàng)辦 OpenAI,首要的研究領(lǐng)域就是步 AlphaGo 后塵的游戲決策 AI。
不過(guò) 19 年后,兩者的研究重心出現(xiàn)了分叉。DeepMind 轉(zhuǎn)向使用 AI 解決基礎(chǔ)科學(xué)如生物、數(shù)學(xué)等問題:AlphaFold 在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)上取得了突破性的進(jìn)展,另一個(gè) AI 模型 AlphaTensor 自己探索出了一個(gè) 50 年懸而未決的數(shù)學(xué)問題:找到兩個(gè)矩陣相乘的最快方法,兩個(gè)研究都登上了 Nature 雜志的封面。而 OpenAI 則轉(zhuǎn)向了日常應(yīng)用的內(nèi)容生成 AIGC 領(lǐng)域。
AIGC大模型是通往 AGI 路上極為重要、也有些出乎意料的一站。其重要性體現(xiàn)在 AI 對(duì)人類傳達(dá)信息的載體有了更好的學(xué)習(xí),在此基礎(chǔ)上各個(gè)媒介之間的互通成為可能。
例如從自然語(yǔ)言生成編程語(yǔ)言,可以產(chǎn)生新的人機(jī)交互方式;從自然語(yǔ)言生成圖片和視頻,可以革新內(nèi)容行業(yè)的生產(chǎn)范式。意外性則是,最先可能被替代的不是藍(lán)領(lǐng),而是創(chuàng)作者,DeepMind 甚至在協(xié)助科學(xué)家一起探索科研的邊界。
OpenAI 的模式也給了下游創(chuàng)業(yè)者更多空間??梢灶惐犬?dāng)年預(yù)訓(xùn)練語(yǔ)言模型發(fā)展初期,Hugging Face把握機(jī)會(huì)成為大模型下游的模型開源平臺(tái),補(bǔ)足了模型規(guī)模膨脹下機(jī)器學(xué)習(xí)民主化的市場(chǎng)空間。
而對(duì) AIGC 模型,未來(lái)會(huì)有一類基于大模型的創(chuàng)業(yè)公司,把預(yù)訓(xùn)練完成的 AIGC 模型針對(duì)每個(gè)子領(lǐng)域進(jìn)行調(diào)優(yōu)。不只需要模型參數(shù)優(yōu)化,更要基于行業(yè)落地場(chǎng)景、產(chǎn)品交互方式、后續(xù)服務(wù)等,幫助某個(gè)行業(yè)真正用上大模型。
正如 AI 的 bitter lesson 一樣矛盾,投資者需要短期投資回報(bào)率、研究者需要短期投稿成功率,盡管OpenAI 走在通往 AGI 正確的路上,這條路道阻且長(zhǎng),短期很難看到極大的突破。而 Sam Altman 展望的大模型應(yīng)用層公司很有可能有更高的高投資回報(bào),讓我們來(lái)介紹下主要的分類與創(chuàng)業(yè)者。
04 百家爭(zhēng)鳴的 AIGC 大模型應(yīng)用層
對(duì)應(yīng) OpenAI 大模型發(fā)布的順序,模型應(yīng)用層相對(duì)最成熟的是文本生成領(lǐng)域,其次是圖片生成領(lǐng)域,其他領(lǐng)域由于還未出現(xiàn)統(tǒng)治級(jí)的大模型相對(duì)落后。
文本領(lǐng)域天然應(yīng)用場(chǎng)景豐富,且 GPT-3 開放 api 很久,細(xì)分賽道很多。大致可以根據(jù)生成內(nèi)容不同分為兩類:機(jī)器編程語(yǔ)言生成、人類自然語(yǔ)言生成。前者主要有代碼和軟件行為的生成等,后者主要有新聞撰寫、文案創(chuàng)作、聊天機(jī)器人等。
而圖片領(lǐng)域當(dāng)前還專注于圖片自身內(nèi)容的生成,預(yù)期隨著未來(lái)3D、視頻相關(guān)內(nèi)容生成能力的增強(qiáng),會(huì)有更多結(jié)合不同業(yè)務(wù)場(chǎng)景如游戲、影視這樣細(xì)分領(lǐng)域的創(chuàng)業(yè)公司。
以下是海外各子領(lǐng)域創(chuàng)業(yè)公司的梳理,接下來(lái)將針對(duì)幾個(gè)領(lǐng)域的重要公司進(jìn)行介紹。
1、編程語(yǔ)言
文本領(lǐng)域最成熟的應(yīng)用暫時(shí)不在人類自然語(yǔ)言,而是在代碼等機(jī)器語(yǔ)言的生成領(lǐng)域。因?yàn)闄C(jī)器語(yǔ)言相對(duì)更結(jié)構(gòu)化,易學(xué)習(xí);比如鮮有長(zhǎng)文本的上下文關(guān)系、基于語(yǔ)境的不同含義等情況。
(1)代碼生成:Github Copilot
代表公司是微軟出品的 Github Copilot,編程中的副駕駛。該產(chǎn)品基于 OpenAI 專門用 GPT-3 為編程場(chǎng)景定制的AI模型 Codex。使用者文字輸入代碼邏輯,它能快速理解,根據(jù)海量開源代碼生成造好的輪子供開發(fā)者使用。提高一家科技公司 10% 的 coding 效率能帶來(lái)很大收益,微軟內(nèi)部已進(jìn)行推廣使用。
相比低代碼工具,Copilot 的目標(biāo)群體是代碼工作者。未來(lái)的低代碼可能是兩者結(jié)合:低代碼 UI 界面實(shí)現(xiàn)代碼框架搭建,代碼子模塊通過(guò) Copilot 自動(dòng)生成。
正如 Copilot 的 slogan:Don’t fly solo,沒有 Copilot 的幫助 coder 的工作會(huì)變得繁冗,沒有 coder 的指引 Copilot 生成的內(nèi)容可能會(huì)出現(xiàn)紕漏。也有用戶報(bào)告了一些侵犯代碼版權(quán)、或代碼泄露的案例,當(dāng)前技術(shù)進(jìn)步快于版權(quán)法規(guī)產(chǎn)生了一定的空白。
(2)軟件行為生成:Adept.ai
Adept.ai 是一家明星創(chuàng)業(yè)公司。創(chuàng)始團(tuán)隊(duì)中有兩人是Transformer 模型論文作者,CEO 是谷歌大腦中大模型的技術(shù)負(fù)責(zé)人,已經(jīng)獲得 Greylock 等公司 6500 萬(wàn)美元的 A 輪融資。
他們的主要產(chǎn)品是大模型 ACT-1,讓算法理解人類語(yǔ)言并使機(jī)器自動(dòng)執(zhí)行任務(wù)。目前產(chǎn)品形態(tài)是個(gè) chrome 插件,用戶輸入一句話,能實(shí)現(xiàn)單擊、輸入、滾動(dòng)屏幕行文。在展示 demo中,一位客服讓瀏覽器中自動(dòng)記錄下與某位顧客的電話,正在考慮買 100 個(gè)產(chǎn)品。這個(gè)任務(wù)需要點(diǎn)擊 10 次以上,但通過(guò) ACT-1 一句話就能完成。
軟件行為生成顛覆的是當(dāng)下的人機(jī)交互形式,使用文字或語(yǔ)音的自然語(yǔ)言形式來(lái)代替當(dāng)下人與機(jī)器的圖形交互模式(GUI)。大模型成熟后,人們使用搜索引擎、生產(chǎn)力工具的方式都將變得截然不同。
2、自然語(yǔ)言
自然語(yǔ)言下還有多個(gè)應(yīng)用型文本生成領(lǐng)域值得關(guān)注:新聞撰寫、文案創(chuàng)作、對(duì)話機(jī)器人等。
(1)新聞撰寫
最著名的是 Automated Inights。他們的結(jié)構(gòu)化數(shù)據(jù)新聞撰寫工具叫做 wordsmith,通過(guò)輸入相應(yīng)數(shù)據(jù)和優(yōu)先級(jí)排序,能產(chǎn)出一篇基于數(shù)據(jù)的新聞報(bào)道。該工具已在為美聯(lián)社每季度自動(dòng)化產(chǎn)出 300 余篇財(cái)報(bào)相關(guān)報(bào)道,在雅虎體育新聞中也已經(jīng)嶄露頭角。據(jù)分析師評(píng)價(jià),由 AI 完成的新聞初稿已接近人類記者在 30 分鐘內(nèi)完成的報(bào)道水準(zhǔn)。
Narrative Science是另一家新聞撰寫生成公司,其創(chuàng)始人甚至曾預(yù)測(cè),到 2030 年,90%以上的新聞將由機(jī)器人完成。
(2)文案創(chuàng)作
該領(lǐng)域競(jìng)爭(zhēng)較為激烈,有copy.ai、Jasper、copysmith 等公司。他們基于 GPT-3 的能力加入了文案領(lǐng)域的人工模板與結(jié)構(gòu),為商家和個(gè)人創(chuàng)作者提供了快速為自己的商品、內(nèi)容進(jìn)行宣傳的能力。以copysmith 為例:
(3)對(duì)話機(jī)器人
前面提到的 Adept.ai 由Transformer 模型的一作和三作聯(lián)合創(chuàng)立;而二作也創(chuàng)業(yè)了,他創(chuàng)辦的 Character.ai 是當(dāng)前對(duì)話機(jī)器人中使用效果最逼真的。
該對(duì)話機(jī)器人可以自定義或使用模板來(lái)定義角色的家庭、職業(yè)、年齡等,在此基礎(chǔ)上保持一貫的設(shè)定和符合設(shè)定的對(duì)話風(fēng)格。經(jīng)常能體現(xiàn)出一定的共情對(duì)話能力帶給人驚喜,并且支持多語(yǔ)言互通。
比如他們有已訓(xùn)練好的馬斯克等名人和一些動(dòng)漫角色,與他們對(duì)話會(huì)有很棒的代入感。
而商業(yè)化的對(duì)話機(jī)器人,在客服、銷售等行業(yè)有巨大的市場(chǎng)空間,但如今還為成熟。
主要出現(xiàn)的問題有二:
- 其一,客服、銷售行業(yè)遇到的客戶往往情緒狀態(tài)不穩(wěn)定,AI 難以對(duì)情緒進(jìn)行適應(yīng)并調(diào)整對(duì)話內(nèi)容;
- 其二,AI 的多輪對(duì)話能力較弱,無(wú)法保證持續(xù)有效的跟進(jìn)問題。
(4)創(chuàng)作性文本
AI 對(duì)于長(zhǎng)文本創(chuàng)作有一定困難,難以保持1000字以上的文本創(chuàng)作后仍能進(jìn)行上下文的聯(lián)系。
但基于短文本創(chuàng)作仍有一些有趣的應(yīng)用,例如基于GPT-3的 AI Dungeon,可以引導(dǎo) AI 創(chuàng)造一個(gè)虛擬游戲世界觀。該領(lǐng)域進(jìn)一步的成長(zhǎng)需要期待未來(lái) 3-5 年,有成熟的能產(chǎn)出千字內(nèi)容的 AI 出現(xiàn)。
3、多模態(tài)圖片
DALL·E2 是極具突破性的 AIGC 大模型,但距離豐富生產(chǎn)力和創(chuàng)造力的成熟產(chǎn)品還有差距。因此有研究者順著 DALL·E 和 CLIP 的思路開發(fā)了開源版本的擴(kuò)散模型,就像當(dāng)年的 Hugging Face 那樣,并將其根據(jù)創(chuàng)作者社區(qū)的反饋轉(zhuǎn)變?yōu)楦墒煲子玫纳虡I(yè)產(chǎn)品。接下來(lái)就介紹幾個(gè)主要出圈的模型:
(1)Disco Diffusion
最早出圈的 AI 繪圖工具是開源模型Disco Diffusion。發(fā)布時(shí)間比 DALL·E 2 稍晚,同樣也是 CLIP + Diffusion Model 的結(jié)構(gòu),生成效果讓許多插畫師擔(dān)心起了失業(yè)。
盡管很多插畫師和 AI 工具愛好者的推薦都認(rèn)可了該工具的易用性和生成效果的出眾,但其生成時(shí)間略長(zhǎng)有待優(yōu)化,可以認(rèn)為是大家對(duì)圖片生成大模型的初體驗(yàn)。
(2)MidJourney
該模型發(fā)布后不久,Disco Diffusion 的開發(fā)者 Somnai 加入了 MidJourney,和團(tuán)隊(duì)一起打造了一款產(chǎn)品化的 Disco Diffusion。
Midjourney 的創(chuàng)始人 David Holz 并不是以CV(計(jì)算機(jī)視覺)研究為主,更關(guān)注人機(jī)交互。產(chǎn)品公測(cè)和主要交流平臺(tái)都基于Discord,使用 Discord Bot 進(jìn)行交互,打造了相當(dāng)良好的社區(qū)討論環(huán)境。
使用中印象深刻的有幾個(gè)重要功能:MidJourney 畫廊中可以看到每時(shí)每刻創(chuàng)作者們用 MJ 創(chuàng)作出的作品,用戶可以對(duì)作品進(jìn)行打分,每周排名靠前的作品將得到額外的 fast GPU 時(shí)間獎(jiǎng)勵(lì)。
同時(shí),MJ官方還為用戶貼心的提供了引導(dǎo)語(yǔ) prompt 集合和 AI 擅長(zhǎng)的風(fēng)格指南,指導(dǎo)用戶如何最高效的生成出他們想要的圖片。
基于良好的產(chǎn)品和社區(qū)體驗(yàn),MidJourney 的付費(fèi)用戶量也是目前最大的。
目前收費(fèi)模式采用了訂閱制,個(gè)人用戶有兩個(gè)檔位,每月最多 200 張圖片(超額另收費(fèi))的 10 美元/月,以及“不限量”圖片的 30 美元/月;對(duì)企業(yè)客戶,單人一年收費(fèi)僅有 600 美元,且生成的作品可以商用(當(dāng)前法規(guī)尚不完善,仍可能存在一定版權(quán)問題)。
(3)Stable Diffusion
如果說(shuō) MidJourney 是一個(gè)勤勤懇懇的績(jī)優(yōu)生,那么 Stability.ai 則是天賦異稟技術(shù)力強(qiáng)、誕生之初就備受 VC 追捧的富二代,公司估值已達(dá)到十億美元。產(chǎn)品 Stable Diffusion 首要目標(biāo)是一個(gè)開源共創(chuàng)模型,與當(dāng)年的 Hugging Face 神似。
創(chuàng)始人 Emad 之前是對(duì)沖基金經(jīng)理,用自己充裕的資金聯(lián)合 LMU 和 Runaway ML開發(fā)了開源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 發(fā)布會(huì)上的照片作為背景,號(hào)召SD會(huì)成為“人類圖像知識(shí)的基礎(chǔ)設(shè)施”,通過(guò)開源讓所有人都能夠使用和改進(jìn)它,并讓所有人更好地合作。
Stable Diffusion 可以認(rèn)為是一個(gè)開源版本的DALL·E2,甚至不少使用者認(rèn)為是當(dāng)前生成模型可以使用的最佳選擇。官方版本部署在官網(wǎng) Dream Studio 上,開放給所有用戶注冊(cè)。
相比其他模型,有很多可以定制化的點(diǎn)。不過(guò)官網(wǎng)只有 200 張免費(fèi)額度,超過(guò)需要付費(fèi)使用,也可以自行使用開源 Colab 代碼版無(wú)限次使用。此外,Stable Diffusion 在壓縮模型容量,希望使該模型成為唯一能在本地而非云端部署使用的 AIGC 大模型。
05 AIGC大模型的未來(lái)展望
1、應(yīng)用層:多模態(tài)內(nèi)容生成更加智能,深入各行業(yè)應(yīng)用場(chǎng)景
上述的多模態(tài)圖片生成產(chǎn)品當(dāng)前主要局限于創(chuàng)作畫作的草圖和提供靈感。在未來(lái)待版權(quán)問題完備后, AIGC 內(nèi)容能進(jìn)入商用后,必然會(huì)更深入地與業(yè)界的實(shí)際應(yīng)用進(jìn)行結(jié)合:
以游戲行業(yè)為例, AI 作畫給了非美術(shù)專業(yè)工作者,如游戲策劃快速通過(guò)視覺圖像表達(dá)自己需求和想法的機(jī)會(huì);而對(duì)美術(shù)畫師來(lái)說(shuō),它能夠在前期協(xié)助更高效、直接地嘗試靈感方案草圖,在后期節(jié)省畫面細(xì)節(jié)補(bǔ)全等人力。
此外,在影視動(dòng)畫行業(yè)、視頻特效領(lǐng)域,甚至是文物修復(fù)專業(yè),AI 圖片生成的能力都有很大想象空間。當(dāng)然,這個(gè)領(lǐng)域 AI 的能力也有著不小的進(jìn)步空間,在下面的未來(lái)展望部分進(jìn)行闡發(fā)。
目前 AIGC 存在 Prompt Engineering 的現(xiàn)象,即輸入某一些魔法詞后生成效果更好。這是目前大模型對(duì)文本理解的一些缺陷,被用戶通過(guò)反向工程進(jìn)行優(yōu)化的結(jié)果。未來(lái)隨著語(yǔ)言模型和多模態(tài)匹配的不斷優(yōu)化,不會(huì)是常態(tài),但中短期內(nèi)預(yù)期Prompt Engineering 還是得到好的生成內(nèi)容的必備流程之一。
2、模態(tài)層:3D生成、視頻生成 AIGC 未來(lái)3-5年內(nèi)有明顯進(jìn)步
多模態(tài)(multimodal)指不同信息媒介之間的轉(zhuǎn)換。
當(dāng)前 AI 作圖過(guò)程中暴露的問題會(huì)成為視頻生成模型的阿喀琉斯之踵。
例如:AI 作畫的空間感和物理規(guī)則往往是缺失的,鏡面反射、透視這類視覺規(guī)則時(shí)常有所扭曲;AI 對(duì)同一實(shí)體的刻畫缺少連續(xù)性。根本原因可能是目前深度學(xué)習(xí)還難以基于樣本實(shí)現(xiàn)一些客觀規(guī)則泛化,需要等待模型結(jié)構(gòu)的優(yōu)化進(jìn)行更新。
3D生成領(lǐng)域也有很大價(jià)值:3D 圖紙草圖、影視行業(yè)模擬運(yùn)鏡、體育賽場(chǎng)現(xiàn)場(chǎng)還原,都是 3D 內(nèi)容生成的用武之地。這一技術(shù)突破也漸漸成為可能。
2020年,神經(jīng)輻射場(chǎng)(NeRF)模型發(fā)布,可以很好的完成三維重建任務(wù):一個(gè)場(chǎng)景下的不同視角圖像提供給模型作為輸入,然后優(yōu)化 NeRF 以恢復(fù)該特定場(chǎng)景的幾何形狀。
基于該技術(shù),谷歌在2022年發(fā)布了 Dream Fusion 模型,能根據(jù)一段話生成 360 度三維圖片。這一領(lǐng)域當(dāng)前的實(shí)現(xiàn)效果還有優(yōu)化空間,預(yù)期在未來(lái)3-5年內(nèi)會(huì)取得突破性進(jìn)展,推動(dòng)視頻生成的進(jìn)步。
3、模型層:大模型參數(shù)規(guī)模將逼近人腦神經(jīng)元數(shù)量
近年的大模型并未對(duì)技術(shù)框架做顛覆性創(chuàng)新,文本和圖像生成領(lǐng)域在大模型出現(xiàn)前,已有較成熟方案。但大模型以量變產(chǎn)生質(zhì)變。
從神經(jīng)網(wǎng)絡(luò)角度看,大腦有約 100 萬(wàn)億神經(jīng)元, GPT-3 有 1750 億參數(shù),還相差了 1000 倍的數(shù)量級(jí),隨著算力進(jìn)步可以發(fā)展的空間還很大。
神經(jīng)網(wǎng)絡(luò)本質(zhì)是對(duì)高維數(shù)據(jù)進(jìn)行復(fù)雜的非線性組合,從而逼近所觀測(cè)數(shù)據(jù)分布的最優(yōu)解,未來(lái)一定會(huì)有更強(qiáng)的算力、更精妙的參數(shù)堆疊結(jié)構(gòu),來(lái)刷新人們對(duì)AI生成能力的認(rèn)知。
神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)對(duì)人腦neuron的借鑒
4、成本結(jié)構(gòu)決定大模型市場(chǎng)的馬太效應(yīng)
大模型最直接的成本便是能源成本(energy cost),GPT-3 發(fā)布時(shí)的訓(xùn)練成本在千萬(wàn)美元級(jí)別。難以在短期內(nèi)衡量 ROI ,大科技公司才能訓(xùn)練大模型。
但隨著近年模型壓縮、硬件應(yīng)用的進(jìn)步,GPT-3 量級(jí)的模型成本很可能已降至百萬(wàn)美元量級(jí),Stable Diffusion 作為一個(gè)剛發(fā)布一個(gè)月的產(chǎn)品,已經(jīng)把原本 7GB 的預(yù)訓(xùn)練模型優(yōu)化壓縮至 2GB 左右。
在這樣的背景下,算力成本在未來(lái)必然會(huì)逐漸變得更合理,但 AIGC 領(lǐng)域的另一個(gè)成本項(xiàng)讓筆者對(duì)市場(chǎng)結(jié)構(gòu)的預(yù)測(cè)還是寡頭壟斷式的。
大模型有明顯的先發(fā)優(yōu)勢(shì),來(lái)自巨大的隱形成本:智能成本。前期快速積累用戶反饋數(shù)據(jù)能幫助模型持續(xù)追新優(yōu)化,甩開后發(fā)的競(jìng)爭(zhēng)者,達(dá)到模型性能的規(guī)模效應(yīng)。
AI 的進(jìn)化來(lái)自于數(shù)據(jù)的積累和充分吸收。深度學(xué)習(xí),乃至當(dāng)前的所有機(jī)器學(xué)習(xí)都是基于歷史預(yù)估未來(lái),基于已有的數(shù)據(jù)給到最接近真實(shí)的可能。
正如前文討論的,OpenAI 的目標(biāo)從來(lái)不是留戀于某個(gè)局部行業(yè)的商業(yè)產(chǎn)品,而是通過(guò)模型規(guī)模經(jīng)濟(jì),不斷地降低人類社會(huì)全局的智能成本,逼近通用人工智能 AGI。規(guī)模經(jīng)濟(jì)正體現(xiàn)在智能成本上。
5、虛擬世界的 AGI 會(huì)先于現(xiàn)實(shí)世界誕生
從更宏觀的視角上,虛擬世界 AI 技術(shù)的智能成本比現(xiàn)實(shí)世界中來(lái)得低得多?,F(xiàn)實(shí)里 AI 應(yīng)用最普遍的是無(wú)人駕駛、機(jī)器人等場(chǎng)景,都對(duì) Corner Case 要求極高。
對(duì)于AI模型而言,一件事超過(guò)他們的經(jīng)驗(yàn)范疇(統(tǒng)計(jì)上out of distribution),模型將立馬化身人工智障,不具備推演能力。現(xiàn)實(shí)世界中 corner case 帶來(lái)的生命威脅、商業(yè)資損,造成數(shù)據(jù)積累過(guò)程中極大的試錯(cuò)成本。
虛擬世界則不同,繪圖時(shí)遇到錯(cuò)位扭曲的圖片,大家會(huì)在 Discord 中交流一笑了之;游戲 AI 產(chǎn)生奇怪行為,還可能被玩家開發(fā)出搞怪玩法、造成病毒傳播。
因此虛擬世界,尤其是泛娛樂場(chǎng)景下的 AIGC 積累數(shù)據(jù)成本低會(huì)成為優(yōu)勢(shì)。這個(gè)領(lǐng)域的 AI 如果節(jié)省人力、生成內(nèi)容產(chǎn)生的商業(yè)價(jià)值能大于算力成本,能很順暢地形成低成本的正向循環(huán)。
伴隨著另一個(gè)重要的革新——長(zhǎng)期 Web3.0元宇宙場(chǎng)景下新內(nèi)容經(jīng)濟(jì)生態(tài)的形成,虛擬世界內(nèi)容場(chǎng)景下的 AI 很可能更早觸及到 AGI。
Reference
https://moores.samaltman.com/ 萬(wàn)物的摩爾定律,Sam Altman博客
https://greylock.com/greymatter/sam-altman-ai-for-the-next-era/ Sam Altman與Greylock對(duì)談
https://arxiv.org/abs/2005.14165 GPT-3 模型論文
https://arxiv.org/abs/2204.06125 DALL·E 2 模型論文
https://www.stateof.ai/ State of AI 2022 報(bào)告
作者:Cage(鐘凱祺);編輯:Penny;公眾號(hào):海外獨(dú)角獸
原文鏈接:https://mp.weixin.qq.com/s/Ks8tjJ5ModzopK0WvjVR-A
本文由 @海外獨(dú)角獸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
有心了,非常贊