生成式人工智能:一個充滿創(chuàng)意的新世界

0 評論 2405 瀏覽 8 收藏 21 分鐘

人與其他生物最大的區(qū)別,在于人會分析和創(chuàng)造,也就是具備高級思考能力。但是,最近十年在模型、算力和數(shù)據(jù)的共同推動下,人工智能先是慢慢開始擅長以各種識別(語音、圖像等)為代表的分析型任務,在最近更是開始在創(chuàng)作出感性和美麗的東西方面嶄露頭角,這就是所謂的生成式人工智能。下面這篇文章作者對這一趨勢進行了剖析和展望。一起來看看吧。

人類擅長分析事物。但機器甚至更強。機器可以分析一組數(shù)據(jù),并找出其中存在的、適用大量用例的模式,不管這些用例是欺詐還是垃圾郵件檢測,預測交付的 ETA (估計到達時間),或預測接下來要展示什么樣的 TikTok 視頻給你。它們在執(zhí)行這些任務上正變得越來越聰明。這就是所謂的“分析人工智能”(Analytical AI)或傳統(tǒng)人工智能。

但人類不僅擅長于分析事物——我們還擅長于創(chuàng)造。我們會寫詩、能設計產(chǎn)品、開發(fā)游戲和編寫代碼。直到最近,在創(chuàng)造性的工作上,機器還沒有機會與人類掰掰手腕——它們只能從事分析性的以及死記硬背的認知勞動。但是現(xiàn)在機器正在開始擅長創(chuàng)作出感性和美麗的東西。這個新類別被稱為“生成式人工智能”(Generative AI),也就是說,機器正在生成新的東西,而不是分析已經(jīng)存在的東西。

生成式人工智能不僅正在變得更快、更便宜,而且在某些情況下創(chuàng)作出來的東西甚至比人類做出來的還要好。從社交媒體到游戲,從廣告到建筑,從編碼到平面設計,從產(chǎn)品設計到法律,從市場營銷到銷售,每一個需要人類原創(chuàng)性工作的行業(yè)都面臨著重塑。

這些行業(yè)的部分職能可能會被生成式人工智能完全取代,而在人機協(xié)同帶來的迭代得更頻繁的創(chuàng)作循環(huán)的作用下,其他一些職能更有可能會蓬勃發(fā)展——但在廣泛的終端市場上,生成式人工智能應該會釋放出更好、更快、更便宜的創(chuàng)造力。我們的夢想是,生成式人工智能將把創(chuàng)作和知識工作的邊際成本降為零,從而創(chuàng)造出極高的勞動生產(chǎn)率和經(jīng)濟價值——以及相應龐大的市值。

生成式人工智能涉及的領域——知識工作和創(chuàng)造性工作——牽涉到數(shù)十億工人。生成式人工智能可以讓這些工人的效率和/或創(chuàng)造力至少提高 10%:他們不僅能變得更快、更有效率,而且比以前能力更強。因此,生成式人工智能有產(chǎn)生數(shù)萬億美元經(jīng)濟價值的潛能。

一、為什么是現(xiàn)在?

生成式人工智能與更廣泛的人工智能都有一樣的“為什么是現(xiàn)在”:更好的模型、更多的數(shù)據(jù)、更多的計算。這一類別的人工智能的變化日新月異,我們甚至都無法全都捕捉下來,但概述其最近的歷史,好將當下放在一個合適的背景下去理解是值得的。

1. 小型模型主宰時期(2015 年之前)

5 年多前,小型模型被認為是理解語言“最先進”的模型。這些小型模型擅長分析任務,并被部署到從預測交貨時間到欺詐分類的各種工作上。不過,對于通用的生成任務來說,它們的表現(xiàn)還不夠好。生成與人類水平相當?shù)奈恼禄虼a仍然是白日夢。

2. 規(guī)模競賽(2015 年至今)

Google Research 發(fā)表了一篇具有里程碑意義的論文(Attention is All You Need),里面描述了一種新的,用于自然語言理解的神經(jīng)網(wǎng)絡架構,叫做 transformers,它可以生成高質(zhì)量的語言模型,同時該模型還具備了更高的可并行性對訓練時間的要求明顯減少。這些模型是小樣本學習器,可以相對容易地針對特定領域進行定制化。

隨著模型變得越來越大,其表現(xiàn)開始與人類水平相當,然后就會超越人類,這是必然的。

隨著模型變得越來越大,其表現(xiàn)開始與人類水平相當,然后就會超越人類,這是必然的。從 2015 年到 2020 年,用于訓練這些模型的計算量增加了 6 個數(shù)量級,在手寫、語音和圖像識別、閱讀理解和語言理解方面的結果已經(jīng)超過了人類的性能基準。 其中OpenAI 的GPT-3 脫穎而出:與GPT-2相比,GPT-3 模型的性能有了巨大飛躍,為大家在 Twitter 提供了從代碼生成到諷刺笑話寫作等任務的誘人演示。

盡管這些基礎研究有了進展,但這些模型并不普遍。它們很龐大且很難跑起來(需要協(xié)調(diào) GPU),沒法讓大家廣泛訪問(不可用或僅限封閉測試版),而且當作云服務使用的成本很高。盡管存在諸多限制,但最早的生成式人工智能應用已經(jīng)開始加入競爭。

隨著 AI 模型的規(guī)模越來越大,它們的表現(xiàn)已經(jīng)開始超越主要的人類性能基準。

3. 更好、更快、更便宜(2022 年及之后)

計算變得更便宜。新的技術,如擴散模型(diffusion models),降低了訓練和運行推理所需的成本。研究界繼續(xù)開發(fā)出更好的算法和更大的模型。開發(fā)者的訪問權限從封閉測試版擴展到公開測試版,而且在某些情況下甚至是開源的。

對于一直沒法訪問 LLM (大型語言模型)的開發(fā)者來說,面向探索和應用開發(fā)的閘門現(xiàn)在已經(jīng)打開。應用開始遍地開花。

用 MidJOURNEY 生成的插圖

4. 殺手級應用出現(xiàn)(現(xiàn)在)

隨著平臺層的鞏固,模型繼續(xù)變得更好/更快/更便宜,模型訪問趨于免費和開源,應用層已經(jīng)成熟,創(chuàng)造力已經(jīng)蓄勢待發(fā)。

就像移動設備通過 GPS、攝像頭和移動連接等新功能釋放了新型app的活力一樣,我們預計這些大型模型將激發(fā)新一波的生成式人工智能應用。正如十年前移動的拐點為少數(shù)殺手級app打開了市場一樣,我們預計生成式人工智能的殺手級應用也會出現(xiàn)。競賽正在進行中。

就像移動設備通過 GPS、攝像頭和移動連接等新功能釋放了新型app的活力一樣,我們預計這些大型模型將激發(fā)新一波的生成式人工智能應用。

二、市場格局

下面的示意圖概述了將為每一類別提供支持的平臺層以及可在其基礎上開發(fā)的潛在應用類型。

生成式人工智能版圖

1. 模型

  • 文本是進展最大的領域。不過,自然語言很難做到正確,而質(zhì)量很重要。今天,這些模型已經(jīng)非常擅長一般題材的短/中篇寫作(但即便如此,一般也是用來迭代或作為初稿)。隨著時間的推移,隨著模型變得更好,應該可以預期會看到更高質(zhì)量的輸出、更長形式的內(nèi)容和更好的垂直向內(nèi)容的調(diào)優(yōu)。
  • 正如 GitHub 的 CoPilot 所表明的那樣,代碼生成可能在短期內(nèi)對開發(fā)者的生產(chǎn)力產(chǎn)生重大影響。它還將讓非開發(fā)者更容易獲取代碼的創(chuàng)造性使用。
  • 生成是較新的現(xiàn)象,但現(xiàn)在已經(jīng)獲得了病毒式傳播:在 Twitter 上分享的生成圖像要比文字更有趣!我們正在看到具有不同審美風格的圖像生成模型出現(xiàn),以及用于編輯和修改生成圖像的不同技術出現(xiàn)。
  • 語音合成的出現(xiàn)已有一段時間(你好 Siri !),但消費者和企業(yè)應用正在變得越來越好。對于像電影和播客這樣的高端應用而言,要想即時生成聽起來沒那么機械化,像人類發(fā)音的語音的門檻相當高。但就像圖像一樣,今天的模型為實用應用的進一步細化或最終輸出提供了一個起點。
  • 視頻和 3D 模型在這條曲線上升得很快。大家對這些模型釋放電影、游戲、VR、建筑和實體產(chǎn)品設計等大型創(chuàng)意市場的潛力感到興奮。正如我們所說那樣,研究機構正在發(fā)布基礎的 3D 和視頻模型。
  • 其他領域:從音頻和音樂到生物學和化學(生成蛋白質(zhì)和分子,有人知道嗎?),許多領域都在進行基礎模型的研發(fā)。

下圖說明了我們也許可以預期看到的基礎模型的進展,以及相關應用成為可能的時間表。 2025 年及以后的情況只是猜測。

不同類型生成是人工智能應用的發(fā)展時間線預測。

橙色為初次嘗試,黃色為即將實現(xiàn),綠色是應用的黃金時間

2. 應用

以下是部分我們頗感興奮的應用。但實際的應用遠不止所列舉的這些,創(chuàng)始人和開發(fā)者想象出來的創(chuàng)意應用讓我們著迷。

  • 文案:為了推動銷售和營銷策略以及提供客戶支持,對個性化網(wǎng)絡和電子郵件內(nèi)容的需求在不斷增長,這些都是語言模型的完美應用。措辭的簡短形式和風格化,加上這些團隊的時間和成本壓力,應該會推動對自動化和增強解決方案的需求。
  • 垂直向的寫作助理:當今大多數(shù)寫作助理都是水平型的;我們相信有機會針對特定的終端市場構開發(fā)出更好的生成應用,比如法律合同寫作,劇本寫作等。這里的產(chǎn)品差異化方向是針對特定工作流程對模型和UX模式進行微調(diào)。
  • 代碼生成:當前的應用讓開發(fā)者如虎添翼,提高了他們的生產(chǎn)力:在安裝了 GitHub Copilot 的項目里面,有近 40% 的代碼都是這個代碼助手生成的。但更大的機會也許是讓消費者獲得了編碼的能力。學習如何給出提示可能會成為終極的高級編程語言。
  • 生成藝術:藝術史與流行文化的整個世界現(xiàn)在都已經(jīng)被編碼進這些大型模型里,任何人都可以任意探索以前需要一生才能掌握的主題和風格。
  • 游戲:做這一行的夢想是用自然語言創(chuàng)建可操縱的復雜場景或模型;要想到達那個最終狀態(tài)可能還有很長一段路要走,但有些更直接的選項在短期內(nèi)更為可行,比方說生成紋理和天空盒藝術(skybox art)。
  • 媒體/廣告:想象一下,如果可以將公司公司的工作自動化,針對消費者動態(tài)優(yōu)化廣告文案和創(chuàng)意,那會有多大的潛力。這里是多模態(tài)生成的絕佳機會,可以將銷售信息與互補的視覺效果結合在一起。
  • 設計:對數(shù)字和實體產(chǎn)品進行原型設計是一個勞動密集型的迭代過程。來自粗略草圖和提示的高保真渲染已經(jīng)成為現(xiàn)實。隨著 3-D 模型變得可用,生成式設計過程將延伸到制造和生產(chǎn)——從文本到對象。你的下一個 iPhone 應用程序或運動鞋可能是由機器設計的。
  • 社交媒體和數(shù)字社區(qū):有沒有用生成工具表達自我的新方式?隨著消費者學會在公共場合創(chuàng)作,像 Midjourney 這樣的新應用正在創(chuàng)造新的社交體驗。

用 MidJOURNEY 生成的插圖

三、生成式人工智能應用剖析

生成式人工智能應用會是什么樣子?以下是一些預測。

1. 智能及模型微調(diào)

生成式人工智能應用是基于 GPT-3 或 Stable Diffusion 等大型模型之上開發(fā)出來的。隨著這些應用拿到了更多的用戶數(shù)據(jù),就可以對模型進行微調(diào),從而:

  1. 針對特定問題領域提高模型的質(zhì)量/性能
  2. 降低模型規(guī)模/成本

我們可以將生成式人工智能應用看作是 UI 層和位于大型通用模型“大大腦”(big brain)之上的“小大腦”(little brain)。

2. 形態(tài)因子

如今,生成式人工智能應用主要作為現(xiàn)有軟件生態(tài)體系的插件而存在。代碼補全發(fā)生在你的 IDE 里;圖像生成發(fā)生在 Figma 或 Photoshop 上;甚至 Discord 機器人也是將生成式人工智能注入到數(shù)字/社交社區(qū)的工具。

還有少量獨立的生成式人工智能 web 應用,比方說用于文案寫作的 Jasper 和 Copy.ai、用于視頻編輯的 Runway 以及用于記筆記的 Mem。

插件可能是讓應用發(fā)展起來的有效楔子,利用插件也許是一個很精明的辦法,說不定能克服用戶數(shù)據(jù)與模型質(zhì)量的這個“先有雞還是先有蛋”的問題(應用需要分發(fā),從而獲得足夠多的使用來改進模型;但要想吸引用戶,你需要一個好的模型)。我們已經(jīng)看到這種分發(fā)策略在其他市場類別得到了回報,比方說消費者/社交領域。

3. 交互范式

今天,大多數(shù)生成式人工智能的演示都是“一次性”(one-and-done)的:給出一個輸入,機器就吐出一個輸出,你可以保留這一輸出,或者選擇丟棄,然后再試一次。但模型的迭代性癥狀越來越強,也就是對輸出可以修改、優(yōu)化、升級以及派生出不同的生成結果。

現(xiàn)如今,生成式人工智能輸出被當作原型或初稿使用。這類應用非常擅長提出多種不同的想法,從而讓使創(chuàng)意過程得以繼續(xù)進行(比方說,logo 或建筑設計的不同選項),而且它們還非常擅長就需要用戶細化處理才能達到最終狀態(tài)的初稿(比方說博客文章或代碼自動完成)提出建議。部分在用戶數(shù)據(jù)的支持下,隨著模型變得越來越智能,我們應該可以預期這些草稿會變得越來越好,直到好到可用作最終產(chǎn)品。

4. 持續(xù)的品類領導力

最好的生成式人工智能公司可以通過不斷地推動用戶參與/數(shù)據(jù)和模型性能這個飛輪的旋轉(zhuǎn)來制造可持續(xù)的競爭優(yōu)勢。為了獲勝,團隊必須讓這個飛輪轉(zhuǎn)起來:1)實現(xiàn)出色的用戶參與 → 2)將更多的用戶參與轉(zhuǎn)化為更好的模型性能(及時改進、模型微調(diào)、用戶選擇作為標記的訓練數(shù)據(jù))→ 3)用出色的模型性能來推動更多用戶增長和參與。他們可能會進入特定的問題領域(比方說,代碼、設計、游戲),而不是試圖成為適用所有人的通用產(chǎn)品。他們可能會先深度集成到應用之中,去借勢和分發(fā),然后嘗試用人工智能原生工作流替換現(xiàn)有的應用。用正確的方式開發(fā)這些應用,從而積累用戶和數(shù)據(jù)需要時間,但我們相信最好的應用會具有持續(xù)性,而且有機會變得規(guī)模龐大。

四、阻礙與風險

盡管生成式人工智能很有潛力,但在商業(yè)模式和技術方面還有很多問題需要解決。關于版權、信任與安全以及成本等重要問題遠未解決。

五、睜大眼睛

生成式人工智能前面的路還很長。平臺層剛剛開始變好,但應用領域幾乎還沒有啟動。

需要明確的是,我們不需要大型語言模型來寫出一部托爾斯泰小說才能讓生成式人工智能物盡其用。這些模型在今天已經(jīng)足以寫出博客文章的初稿,創(chuàng)作出 logo 以及產(chǎn)品界面的原型。中短期內(nèi)可創(chuàng)造出大量價值。

第一波生成式人工智能應用類似 iPhone 剛問世時的移動 app 的環(huán)境——有點噱頭,不太靠譜,競爭差異化和商業(yè)模式尚不明確。不過,其中一些應用讓我們得以一窺未來可能會出現(xiàn)的情形。一旦你看到一臺機器生成復雜的功能代碼或精美的圖像,就很難想象未來機器不會在我們的工作和創(chuàng)作的手段上發(fā)揮根本性的作用。

如果我們允許自己夢想一下幾十年后的情形,那么很容易想象生成式人工智能會深度嵌入到我們的工作、創(chuàng)造和娛樂方式的未來:會自己寫的備忘錄;3D打印任何你能想象到的東西;將文字變成一部皮克斯電影;類似于 Roblox 那樣的游戲體驗,能夠以我們想象的速度快速生成豐富的世界。

雖然這些體驗在今天看起來就像科幻小說一樣,但發(fā)展的速度非??臁趲啄曛畠?nèi),我們已經(jīng)從狹義的語言模型發(fā)展到代碼自動完成——如果這種變化速度得以延續(xù),能遵循“大型模型的摩爾定律”的話,那么這些難以置信的場景也許就會進入可能性的領地。

作者:神譯局;本文來自36氪

原文鏈接:https://mp.weixin.qq.com/s/l4pliP1BfV3sj9FCWU_xUw

本文由 @36氪 授權發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!