AIGC與AI技術(shù)譜系:從生成內(nèi)容到大語(yǔ)言模型的全面解讀
人工智能技術(shù)的飛躍發(fā)展,尤其是大語(yǔ)言模型的應(yīng)用,正深刻改變信息生產(chǎn)和交流的方式。通過(guò)深度學(xué)習(xí)與自然語(yǔ)言處理的創(chuàng)新融合,諸如ChatGPT、通義千問(wèn)等智能系統(tǒng)能夠理解并生成高質(zhì)量文本內(nèi)容。本篇將聚焦AIGC的核心——大語(yǔ)言模型的工作機(jī)制及其實(shí)際應(yīng)用,揭示這一顛覆性技術(shù)如何重塑信息時(shí)代的內(nèi)容創(chuàng)作生態(tài)。
說(shuō)起過(guò)去一年的熱門科技詞匯,AIGC當(dāng)之無(wú)愧位列其中。
但你真的了解AIGC嗎?
從某一天開(kāi)始,我們突然發(fā)現(xiàn)AI可以生成文字、圖片、音頻、視頻等等內(nèi)容了,而且讓人難以分清背后的創(chuàng)作者到底是人類還是AI。
這些AI生成的內(nèi)容被叫做AIGC,它是“AI Generated Content”,即AI生成內(nèi)容的簡(jiǎn)寫。像ChatGPT生成的文章,GitHub Copilot生成的代碼、Midjourney生成的圖片等等,都屬于AIGC。
一、生成式AI與相關(guān)領(lǐng)域的聯(lián)系
而當(dāng)AIGC這個(gè)詞在國(guó)內(nèi)火爆的同時(shí),海外更流行的是另外一個(gè)詞Generative AI,即生成式AI。從字面上來(lái)看,生成式AI和AIGC之間的關(guān)系很好理解,生成式AI所生成的內(nèi)容就是AIGC。所以像ChatGPT、GitHub Copilot、Midjourney等都屬于生成式AI。
由此可見(jiàn),AIGC和生成式AI的概念都是很簡(jiǎn)單直白的。
但是因?yàn)锳IGC這個(gè)詞在國(guó)內(nèi)比生成式AI更加流行,很多語(yǔ)境下AIGC也被用于指代生成式AI。
那么生成式AI和AI、機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、大語(yǔ)言模型等等詞匯之間又是什么關(guān)系呢?有沒(méi)有一種剪不斷理還亂的感覺(jué)?這個(gè)很難一言以蔽之,那通過(guò)一張圖就可以直觀理解它們之間的關(guān)系了。
AI也叫人工智能,是計(jì)算機(jī)科學(xué)下的一個(gè)學(xué)科,旨在讓計(jì)算機(jī)系統(tǒng)去模擬人類的智能,從而解決問(wèn)題和完成任務(wù)。
早在1956年,AI就被確立為了一個(gè)學(xué)科領(lǐng)域,在此后數(shù)十年間經(jīng)歷過(guò)多輪低谷與繁榮。
二、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是AI的一個(gè)子集,它的核心在于不需要人類做顯式編程,而是讓計(jì)算機(jī)通過(guò)算法自行學(xué)習(xí)和改進(jìn),去識(shí)別模式、做出預(yù)測(cè)和決策。
比如,如果我們通過(guò)代碼告訴電腦,圖片里有紅色是玫瑰,圖片里有說(shuō)明是向日葵,那么程序?qū)ǚN類的判斷就是通過(guò)人類直接編寫邏輯達(dá)成的,不屬于機(jī)器學(xué)習(xí),機(jī)器什么也沒(méi)學(xué)。
但是如果我們給電腦大量玫瑰和向日葵的圖片,讓電腦自行識(shí)別模式、總結(jié)規(guī)律,從而能對(duì)沒(méi)見(jiàn)過(guò)的圖片進(jìn)行預(yù)測(cè)和判斷,這種就是機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)領(lǐng)域下有多個(gè)分支,包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。
在監(jiān)督學(xué)習(xí)里,機(jī)器學(xué)習(xí)算法會(huì)接受有標(biāo)簽的訓(xùn)練數(shù)據(jù),標(biāo)簽就是期望的輸出值。所以每一個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)都既包括輸入特征,也包括期望的輸出值。
算法的目標(biāo)是學(xué)習(xí)輸入和輸出之間的映射關(guān)系,從而在給定新的輸入特征后,能夠準(zhǔn)確預(yù)測(cè)出相應(yīng)的輸出值。
監(jiān)督學(xué)習(xí):
經(jīng)典的監(jiān)督學(xué)習(xí)任務(wù)包括分類,也就是把數(shù)據(jù)劃分為不同的類別以及回歸,也就是對(duì)數(shù)值進(jìn)行預(yù)測(cè)。
比如拿一堆貓貓狗狗的照片和照片對(duì)應(yīng)的“貓”“狗”標(biāo)簽進(jìn)行訓(xùn)練,然后讓模型根據(jù)沒(méi)見(jiàn)過(guò)的照片預(yù)測(cè)是貓還是狗,這就屬于分類。
拿一些房子特征的數(shù)據(jù),比如面積、臥室數(shù)量、是否帶陽(yáng)臺(tái)等和相應(yīng)的房?jī)r(jià)作為標(biāo)簽進(jìn)行訓(xùn)練,然后讓模型根據(jù)沒(méi)見(jiàn)過(guò)的房子的特征預(yù)測(cè)房?jī)r(jià)——這就屬于回歸。
無(wú)監(jiān)督學(xué)習(xí):
無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)不同的是:他學(xué)習(xí)的數(shù)據(jù)是沒(méi)有標(biāo)簽的,所以算法的任務(wù)是自主發(fā)現(xiàn)數(shù)據(jù)里的模式或規(guī)律。
經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)任務(wù)包括聚類,也就是把數(shù)據(jù)進(jìn)行分組。
比如拿一堆新聞文章,讓模型根據(jù)主題或內(nèi)容的特征自動(dòng)把相似文章進(jìn)行組織。
強(qiáng)化學(xué)習(xí):
強(qiáng)化學(xué)習(xí)則是讓模型在環(huán)境里采取行動(dòng),獲得結(jié)果反饋。
從反饋里學(xué)習(xí),從而能在給一定情況下采取最佳行動(dòng)來(lái)最大化獎(jiǎng)勵(lì)或是最小化損失。所以就跟是小狗似的,剛開(kāi)始的時(shí)候,小狗會(huì)隨心所欲做出很多動(dòng)作,但隨著和馴犬師的互動(dòng),小狗會(huì)發(fā)現(xiàn)某些動(dòng)作能夠獲得零食,某些動(dòng)作沒(méi)有零食,某些動(dòng)作甚至?xí)馐軕土P。
通過(guò)觀察動(dòng)作和獎(jiǎng)懲之間的聯(lián)系,小狗的行為會(huì)逐漸接近訓(xùn)犬師的期望。
強(qiáng)化學(xué)習(xí)可以應(yīng)用。
在很多任務(wù)上,比如說(shuō)讓模型下圍棋,獲得不同行動(dòng)導(dǎo)致的獎(jiǎng)勵(lì)或損失反饋,從而在一局局游戲里優(yōu)化策略,學(xué)習(xí)如何采取行動(dòng)達(dá)到高分。
三、深度學(xué)習(xí)的方法與應(yīng)用
那問(wèn)題來(lái)了:深度學(xué)習(xí)屬于這三類里的哪一類呢?
——他們屬于里面的任何一類!
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法,核心在于使用人工神經(jīng)網(wǎng)絡(luò)模仿人腦處理信息的方式,通過(guò)層次化的方法提取和表示數(shù)據(jù)的特征。
神經(jīng)網(wǎng)絡(luò)是由許多基本的計(jì)算和儲(chǔ)存單元組成,這些單元被稱為神經(jīng)元。
這些神經(jīng)元通過(guò)層層連接來(lái)處理數(shù)據(jù),并且深度學(xué)習(xí)模型通常有很多層,因此成為深度。
比如要讓計(jì)算機(jī)時(shí)給小貓的照片。在深度學(xué)習(xí)中,數(shù)據(jù)首先被傳遞到一個(gè)輸入層,就像人類的眼睛看到圖片一樣,然后數(shù)據(jù)通過(guò)多個(gè)隱藏層。
每一層都會(huì)對(duì)數(shù)據(jù)進(jìn)行一些復(fù)雜的數(shù)學(xué)運(yùn)算來(lái)幫助計(jì)算機(jī)理解圖片中的特征,例如小貓的耳朵、眼睛等等。最后計(jì)算機(jī)會(huì)輸出一個(gè)答案,表明這是否是一張小貓的圖片。
神經(jīng)網(wǎng)絡(luò)可以用于監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí),所以深度學(xué)習(xí)不屬于他們的子集。
生成式AI是深度學(xué)習(xí)的一種應(yīng)用,它利用神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別現(xiàn)有內(nèi)容的模式和結(jié)構(gòu),學(xué)習(xí)生成新的內(nèi)容,內(nèi)容形式可以是文本、圖片、音頻等等。
四、大語(yǔ)言模型 (LLM)
而大語(yǔ)言模型“Large Language Models”簡(jiǎn)稱 LLM,也是深度學(xué)習(xí)的一種應(yīng)用,專門用于進(jìn)行自然語(yǔ)言處理任務(wù)。
大語(yǔ)言模型里面的大字說(shuō)明模型的參數(shù)量非常大,可能有數(shù)十億甚至到萬(wàn)億個(gè),而且訓(xùn)練過(guò)程中也需要海量文本數(shù)據(jù)集,所以能更好的理解自然語(yǔ)言以及生成高質(zhì)量的文本。
大語(yǔ)言模型的例子有非常多,比如國(guó)外的GPT、LLaMA,國(guó)內(nèi)的ERNIE、ChatGLM等,可以進(jìn)行文本的理解和生成。
以GPT-3這個(gè)模型為例,它會(huì)根據(jù)輸入提示以及前面生成過(guò)的詞,通過(guò)概率計(jì)算逐步生成下一個(gè)詞或token來(lái)輸出文本序列。想對(duì)大語(yǔ)言模型背后的原理有更多了解的話,可以收看下一節(jié)視頻。
但不是所有的生成式AI都是大語(yǔ)言模型,而所有的大語(yǔ)言模型是否都是生成式AI,這也存在些許爭(zhēng)議。
前半句很好理解,生成圖像的擴(kuò)散模型就不是大語(yǔ)言模型,它并不輸出文本。同時(shí)有些人認(rèn)為不是所有大語(yǔ)言模型都是生成式AI,因?yàn)橛行┐笳Z(yǔ)言模型由于其架構(gòu)特點(diǎn)不適合進(jìn)行文本生成。
谷歌的BERT模型就是一個(gè)例子,它的參數(shù)量和序列數(shù)據(jù)很大,屬于大語(yǔ)言模型。
應(yīng)用方面,BERT理解上下文的能力很強(qiáng),因此被谷歌用在搜索上,用來(lái)提高搜索排名和信息摘錄的準(zhǔn)確性。它也被用于情感分析、文本分類等任務(wù)。但同時(shí)BERT不擅長(zhǎng)文本生成,特別是連貫的長(zhǎng)文本生成。所以有些人認(rèn)為此類模型不屬于生成式AI的范疇。
以上這些概念共同構(gòu)成了AIGC的核心要素,希望能幫助你對(duì)時(shí)下熱門的AIGC建立更多了解。
本文由 @火粒產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
寫得比我在其他文章看到的講解更通俗好理解!感謝