搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

GPT（LLM）不是AGI的全部

黃銳

2024-03-27

1 評論 2773 瀏覽 26 收藏

47 分鐘

人工智能領域正在如火如荼地發展，隨著諸如ChatGPT、Claude、Gemini、Sora和Grok等平臺的不斷涌現，AI技術和模型持續演進，引發人們對通用人工智能（AGI）的濃厚興趣。

在這一備受關注的話題中，人們常常將GPT和AGI的概念混淆在一起。

有人稱贊GPT是新的工業革命，有人則認為當前的人工智能技術已進入AGI時代或即將邁入。

盡管GPT系列模型憑借出色的自然語言生成能力和廣泛的應用聲名鵲起，但我們不能忽視的是，GPT模型雖擅長處理大量文本數據和執行各種語言任務，但并非等同于通用人工智能。

GPT展現的智能只是人工智能技術中的一小部分，其重點在語言理解與生成，而AGI則追求跨領域、多任務的全面深厚智能。

因此，理性地認識GPT與AGI之間的區別至關重要。

本文旨在探討當前最新人工智能技術的成就，梳理和分析通用人工智能的發展脈絡，盡管GPT備受矚目，卻并非AI通向AGI的全部旅程。

一、AGI全景梳理

當我們探索人工智能的發展和前景時，總是會創造一些概念和名詞。而充分理解這些詞匯則是認識人工智能的第一步。

這些名詞包括人工通用智能（AGI）、窄人工智能（ANI）、自然語言處理（NLP）、計算機視覺（CV）、大語言模型（LLM）、AIGC（生成式人工智能）、GPT（生成式預訓練Transformer模型）、BERT（基于Transformer的雙向編碼）、Diffusion Models（擴散模型）、GANs（生成對抗網絡）、Transformer、RNNs（循環神經網絡）、CNNs（卷積神經網絡）、ANN（人工神經網絡）、Fine-tuning（微調）和PLHF（人類反饋的強化學習）等。

本小結將通過概念和實現兩個層面梳理他們之間的關系。

1. 概念層

AI是人工智能（Artificial Intelligence）的簡稱，該概念最早是達特茅斯大學的一名年輕教授約翰-麥卡錫（John McCarthy）在1956年為研討會寫提案時創造的，后來被廣泛接受為描述一種由人類創造出來的技術，它模仿并擴展了人類智能的各個方面，包括感知、學習、推理和決策等。但長久以來AI概念只是描述人類的一種理想和目標，并無實際進展。

為進一步實現AI，學者和專家們根據其應用場景不同將AI的目標拆分為AGI和ANI兩種實現目標。

AGI：是指通用人工智能（Artificial General Intelligence），它是一種智能的形式，能夠理解、學習和應用知識跨越不同的領域和任務，與人類智能類似。與ANI不同，后者主要專注于特定領域或任務（如圖像識別、語言翻譯或玩特定的游戲），AGI可以在沒有專門為每個新任務編程的情況下，自主地執行任何智能生物能夠執行的學習或解決問題的任務?？梢哉fAGI是模型泛化形式。
ANI：是指窄人工智能（Artificial Narrow Intelligence），也被稱為專用人工智能，指的是專門設計來執行一個或幾個特定任務的智能系統或軟件。這類智能系統表現出在其專門領域內的高效率和強大能力，但它們的能力是局限的，只能在其被設計和訓練的特定任務范圍內工作。得益于AI三巨頭（Yann LeCun、Geoffrey Hinton & Yoshua Bengio）的貢獻，在過去10年，ANI在語言處理、圖像識別方面取得突破性進展，并廣泛在各行業中應用和推廣。但在AGI派來看，ANI并不能算真正的AI，因為ANI缺乏像人一樣對信息廣泛和通用的處理能力。人工智能到底是朝向知識專精的專家系統發展，還是知識覆蓋更廣泛、通用的百科全書方向發展？有待驗證。但AGI作為新興事物確實已得到足夠的認可和關注。

除了AGI和ANI兩個AI目標概念以外，根據人類的感官需求，AI的具體應用則主要體現在語言和視覺處理的兩大領域，即：NLP和CV。

NLP：是指自然語言處理（Natural Language Processing），是人工智能（AI）和計算機科學領域的一個分支，專注于使計算機能夠理解、解釋和生成人類的自然語言。NLP結合了計算機科學、人工智能和語言學的技術，旨在橋接人類語言和計算機之間的差距。包括但不限于：文本分析，語言翻譯，對話系統，自動文摘，命名實體識別（NER），自然語言理解（NLU）等。
CV：是指計算機視覺（Computer Vision），目標是使計算機能夠“看”和理解圖像和視頻中的內容，就像NLP使計算機能夠理解和生成人類語言一樣。計算機視覺涵蓋了從基本的圖像處理到復雜的圖像理解的各個方面，包括但不限于：圖像分類，對象檢測，圖像分割，圖像生成，圖像恢復，動作識別等。

當前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV領域最為成功的兩款應用之一。而ChatGPT就是LLM的一種具體實現。

LLM：是指大規模型語言模型（Large Language Model）。隨著ChatGPT的成功，而廣為人知。是一種利用深度學習技術訓練的人工智能系統，旨在理解、生成和翻譯人類語言。這些模型通過分析海量的文本數據來學習語言的結構、語法、語義及其使用上下文，從而能夠生成連貫、逼真的文本，回答問題，總結信息，翻譯語言，甚至編寫代碼。這里需要特別指出大規模是指模型訓練過程中使用得的超大參數量，例如：ChatGPT-4訓練參數量大概是1750億個參數，而馬斯克剛剛開源的Grok-1參數量則為3140億個參數。不同于ANI領域中的自變量概念，這里的參數是指通過神經網絡運算的權重數量。因此大樣本或大數據量并不能被認為是大規模語言模型。同時，LLM是特指大規模語言模型，即便是大規模參數的ANI模型也不能稱為LLM，例如：華為盤古氣象大模型并不是LLM，其只是采用Transformer架構的ANI模型。

最后我們要討論一個比較特殊的概念，即：生成式AI（Artificial Intelligence Generated Content，簡稱AIGC）。該概念并不是AGI概念的原生詞匯，而是國內學術造詞工廠的杰作。國內普遍認為AIGC是利用人工智能技術自動創建文本、圖片、音樂、視頻等內容的過程。包括但不限于自然語言生成（NLG）、計算機視覺、音頻合成和深度學習模型等領域。由于重復和含糊不清的定義，AIGC更像是把NLP、CV等重新包裝成產業應用，制造互聯網熱點的過程。

以上重點講解了關于人工智能最近比較熱點的概念，但不是全部。之所以叫概念是因為這些名詞本身并無實際模型支持，只是方便人們歸類和理解的一種稱呼而已。接下來講解的具體AI工具則是有模型、架構和算法支持，有實際實現意義的內容。

2. 實現層

為了便于理解，我將模型、架構和算法歸統稱為實現層，因此首先出場的是當下最火的GPT模型。

1）GPT—生成式預訓練Transformer模型（Generative Pre-trained Transformer）

這是一種LLM也是NLP，由OpenAI開發。它基于Transformer架構，主要用于處理和生成自然語言，因此GPT并不能直接生成圖像。GPT模型屬于深度學習的一部分，通過大量文本數據的預訓練，學會了語言的結構、語法、詞匯及其上下文之間的關系，使其能夠執行各種語言任務，如文本生成、翻譯、問答和摘要等。

其工作原理主要由預訓練和微調構成。

預訓練階段，GPT模型在大規模的文本數據集上進行訓練，目的是學習語言的一般特征，比如詞匯、語法和語言使用的上下文關系，這一步驟讓模型能夠理解和生成語言的基本結構；

微調階段，模型通過在特定任務的數據上再次訓練，能夠在特定的應用場景中更加精準和高效。GPT模型的特點是其“生成能力”，即能夠基于給定的文本提示生成連貫、創新、多樣化的文本內容。這使得GPT模型不僅可以用于回答問題和參與對話，還能用于創作文章、編寫代碼和更多創造性的任務。

在左圖中，首先使用的Transfomer架構開展預訓練；而在右圖則是對不同任務進行微調的輸入轉換。將所有結構化輸入轉換為Token序列，由預訓練模型處理，然后是Linear+softmax層處理。

微調（Fine-tuning）是深度學習中的一個重要概念，特別是在自然語言處理（NLP）、計算機視覺等領域的應用中。微調通常發生在預訓練模型的基礎上，目的是將這些通用模型調整為特定任務的專用模型。

2）BERT—基于Transformer的雙向編碼模型（Bidirectional Encoder Representations from Transformers）

這是一種同樣采用Transformer架構的自然語言處理（NLP）預訓練模型，由Google在2018年提出。它的核心創新之一是使用雙向Transformer編碼器來理解語言的上下文，這與之前的單向或部分雙向處理方法相比，能夠更準確地捕捉到詞語間的關系和語義。

從上圖可以看到，BERT使用雙向轉換器。OpenAI GPT使用從左到右的轉換器。ELMo使用獨立訓練的從左到右和從右到左的LSTM的級聯來生成下游任務的特征。在這三種表示中，只有BERT表示在所有層中都以左右上下文為聯合條件。

除了架構差異之外，BERT和OpenAI GPT是微調方法，而ELMo是基于特征的方法。雖然BERT也使用了大量的文本數據進行預訓練，能夠捕捉語言的深層語義和上下文關系，但其設計初衷主要是提高特定的NLP任務（如問答、命名實體識別、情感分析等）的性能，而不是“生成能力”。由于BERT的參數量大致在3.4億左右，因此一般不把BERT歸為LLM。

在自然語言處理（NLP）領域，除了著名的GPT系列和BERT之外，還有很多其他重要的模型和技術進展，例如：ELMo、RoBERTa、T5、XLNet和Grok-1采用的Mixture-of-Experts模型等，由于篇幅有限不一一介紹。

在計算機視覺（CV）領域，也是眾星璀璨，其中以Diffusion Models和GANs最為著名。

3）Diffusion Models—擴散模型

Diffusion Models同樣是生成模型，主要用于創建高質量、逼真的數據，如圖像、音頻、文本等。這些模型的靈感來自物理學中的擴散過程，即物質從高濃度區域向低濃度區域移動。

Diffusion Models 通過以下兩個階段來生成數據，即：噪聲添加過程（向前擴散），噪聲去除過程（向后擴散）。

擴散過程是一個馬爾可夫鏈，它在采樣的相反方向上逐漸向數據添加噪聲，直到信號被破壞。當擴散由少量高斯噪聲組成時，可以將采樣鏈轉換設置為條件高斯，從而實現特別簡單的神經網絡參數化。

在具體訓練架構的實現方面Diffusion models 通常利用CNNs（卷積神經網絡）作為其核心架構。這主要是因為卷積神經網絡在處理圖像數據方面的高效性和能力。

CNNs能夠從圖像中自動學習和提取有用的特征，這使得它們非常適合于圖像相關的任務，如圖像生成、圖像分類、圖像恢復等。

在Diffusion models的上下文中，CNNs被用來實現所謂的“去噪”步驟。在這一步驟中，模型試圖從部分加噪的數據中預測原始數據的干凈版本。這個過程需要模型能夠理解圖像中的復雜模式和結構，以便逐步消除噪聲并最終重建出清晰、高質量的圖像。CNNs以其強大的空間特征提取能力，非常適合這項任務。

當然，根據特定應用的需求，Diffusion models也可以集成其他類型的神經網絡架構。例如，對于涉及序列數據（如文本或音頻）的生成任務，可以考慮使用RNNs（循環神經網絡）或Transformer網絡，這些網絡能夠更好地處理序列之間的依賴關系。

最近的研究也開始探索將Transformer架構應用于Diffusion models中，尤其是在需要處理大量上下文信息或長序列數據的場景。OpenAI最近發布的Sora就是一種Transformer+Diffusion的訓練模型，其利用Transformer架構，對視頻和圖像的時空補丁進行編碼，實現在可變持續時間、分辨率和寬高比的視頻和圖像上訓練文本條件擴散模型。

總的來說，雖然Diffusion models最初和最常用的架構是基于CNNs，但隨著技術的發展和研究的深入，其他類型的神經網絡也被探索和應用，以提高模型的性能和適用性。

4）GANs—生成對抗網絡（Generative Adversarial Networks）

GANs是一種由Ian Goodfellow于2014年提出的深度學習模型。GANs通過其獨特的訓練機制，在生成新數據樣本，尤其是圖像生成領域，表現出了顯著的能力。GANs的核心思想是基于兩個相互競爭的網絡：一個生成器（Generator）和一個判別器（Discriminator）。訓練過程涉及對這兩個網絡進行交替訓練。首先，固定生成器，訓練判別器以最大化其區分真假樣本的能力。然后，固定判別器，更新生成器以最大化判別器的錯誤率。通過這種方式，生成器逐漸學會生成越來越逼真的數據。

這個過程像一個“偽造者”（生成器）試圖創造看起來真實的藝術品，和一個“鑒別者”（判別器）試圖區分藝術品是真是假的游戲。隨著游戲的進行，偽造者變得越來越擅長創造逼真的作品。它們都可以使用不同類型的神經網絡架構。

訓練從具有4×4像素的低空間分辨率的生成器（G）和鑒別器（D）開始。隨著訓練的進行，我們逐漸向G和D添加層，從而提高生成圖像的空間分辨率。GANs的強大之處在于其架構的靈活性，允許在生成器和判別器中使用多種神經網絡類型。下面是GANs中常用的幾種神經網絡類型：

卷積神經網絡（CNNs）：對于處理圖像相關的任務，如圖像生成、圖像到圖像的轉換等，卷積神經網絡是最常見的選擇。CNNs能夠有效地處理圖像數據，捕捉局部特征和模式，這使得它們在圖像識別和圖像生成任務中表現出色。
深度卷積GAN（DCGAN）：是一個著名的使用CNNs的GAN變體，專門設計用于提高圖像生成的質量和穩定性。
全連接網絡（Dense Networks）：在某些簡單的GAN應用中，尤其是在生成器和判別器的早期版本中，全連接網絡或密集網絡被用于處理相對簡單的數據生成任務。雖然在處理復雜圖像任務時，全連接網絡可能不如CNNs那樣有效，但它們在概念證明和初步實驗中仍然有其用武之地。
循環神經網絡（RNNs）：對于處理序列數據的任務，如文本生成或音樂創作，循環神經網絡（包括LSTM和GRU等變體）可以在生成器和/或判別器中使用。RNNs擅長處理時間序列數據或任何形式的順序數據，能夠捕捉數據中的時間依賴性和順序模式。
Transformer：最近Transformer網絡也開始被集成到GAN架構中，尤其是在需要處理大量序列數據的任務中。Transformer架構通過自注意力機制（self-attention）提供了一種有效的方式來捕捉序列中的長距離依賴性，這在文本生成和某些類型的圖像處理任務中非常有用。

一般而言我們把GPT、BERT、Diffusion Models和GANs統稱為訓練模型或框架，而將Transformer、RNNs、CNNs歸為訓練架構。區別是模型或框架可以根據不同應用場景選擇不同的訓練架構，而訓練架構中又可在不同的環節，采用了不同的神經網絡算法。由于篇幅有限，我們不再討論出現比較早的RNNs、CNNs，而是主要介紹當前多用途的明星架構Transformer。

5）Transformer架構

Transformer是最初在2017年由Vaswani等人在論文《Attention is All You Need》中提出。它主要用于處理序列化數據，如文本或時間序列數據，特別在自然語言處理（NLP）領域內取得了革命性的進步。Transformer模型的核心思想是利用“自注意力（Self-Attention）”機制，使模型能夠在處理序列數據時考慮序列中各元素之間的全局依賴關系。

其主要編碼器和解碼器構成：

編碼器（Encoder）：編碼器由多個相同結構的層堆疊而成，每一層都包含一個多頭自注意力子層和一個前饋神經網絡子層。在論文中Transformer由1個輸入層和6個編碼層構成，但在實踐中層數可自行設置。編碼器的作用是將輸入序列轉換為一系列注意力表示。
解碼器（Decoder）：解碼器也由多個相同結構的層堆疊而成,每一層包含一個多頭自注意力子層、一個編碼器-解碼器注意力子層和一個前饋神經網絡子層。在論文中Transformer由1個輸入層、6個解碼層和1個輸入層構成，同樣實踐中層數可自行設置。

解碼器的作用是根據編碼器的輸出和先前生成的部分目標序列來逐步生成目標序列。解碼器中的自注意力機制允許模型關注輸入序列的不同位置，而編碼器-解碼器注意力機制允許模型在解碼器的每個位置對編碼器的輸出進行注意力計算，以便獲取輸入序列的信息。

在 Transformer 模型中，每個編碼器和解碼器層都包含殘差連接（Residual Connection）和層歸一化（Layer Normalization）操作。這些操作有助于緩解深層模型訓練時的梯度消失和梯度爆炸問題，并且有助于模型更好地訓練和收斂。殘差連接允許梯度更直接地反向傳播，并且層歸一化有助于穩定訓練過程中的每一層的梯度流。

Transformer作為通用架構，不同與傳統深度學習中具象化和關系復雜的自變量設置，而是將自變量泛化為：鍵向量（Key）、值向量（Value）和查詢向量（Query），模型泛化可極大增加架構的通用性，且避免過度擬合。

鍵向量（Key）：鍵向量可以被視為一種索引，用于幫助查詢向量找到相關的信息。在自注意力機制中，每個輸入元素都有一個對應的鍵向量，查詢向量與這些鍵向量進行點積運算，得到的結果經過softmax函數處理后，可以得到一個權重分布，這個分布決定了模型對輸入序列中各個部分的關注程度。
值向量（Value）：值向量可以被視為實際的信息內容。在自注意力機制中，每個輸入元素都有一個對應的值向量，這些值向量根據由查詢向量和鍵向量計算得到的權重分布進行加權求和，得到的結果就是自注意力層的輸出。
查詢向量（Query）：查詢向量可以被視為對信息的請求或查詢。在自注意力機制中，查詢向量用于與鍵向量進行匹配，以確定模型應該關注輸入序列中的哪些部分。

在Transformer架構中驅動模型訓練的機制是自注意力機制（Self-Attention Mechanism），自注意力機制允許模型在計算編碼器和解碼器的輸出時，對輸入序列的不同位置賦予不同的注意力權重。

具體而言，給定一個輸入序列，自注意力機制計算出每個詞與其他詞之間的相關性，然后通過加權求和的方式得到每個詞的表示。

這種機制使得模型可以同時關注輸入序列中的所有位置，而不是像RNN一樣逐步處理。自注意力機制幫助Transformer實現并行向量運算能力，從而充分發揮GPU的并行計算能力或分布式計算能力，從而大幅提高訓練效率和訓練數據量，這也是大語言模型（LLM）的基礎。

為了進一步增強模型的表達能力，Transformer將自注意力機制分為多個頭，即：多頭注意力（Multi-Head Attention）。每個頭學習一種不同的表示。最后，將多個頭的輸出拼接在一起并通過線性變換進行投影，得到最終的注意力表示。多頭注意力由于同時考慮文字序列不同位置的相關性和語義信息，使得模型能夠更好地理解輸入序列中的各個部分之間的關系。

對Transformer最大的誤解是認為它是一種神經網絡。例如，某商業大佬就是說：“Transformer模擬了人腦神經網絡”。Transformer是一種深度學習的訓練架構，而非一種神經網絡或算法，Transformer是利用前饋神經網絡（Feedforward Neural Networks），實現向量矩陣的運算。在每個編碼器和解碼器的每個位置都有一個前饋神經網絡。

該網絡是一個全連接的前饋神經網絡，用于在每個位置對注意力表示進行非線性變換。在實踐中往往都是根據實際情況對Transformer的基礎架構進行調整和優化，并非一成不變。

6) MoE—混合專家模型（Mixture-of-Experts）

MoE是一種采用人工神經網絡的訓練架構，最早由Jacobs 等人在1991年的論文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一種將多個局部專家模型組合在一起的方法，以適應不同的輸入數據分布，并且這些專家模型可以動態地分配權重。

在MoE中，每個專家模型都被訓練來解決特定的子問題，而門控網絡則是用來決定在給定輸入情況下，哪個專家模型應該負責給出最終的輸出。MoE出現時間較早，是為解決算法復雜性、提高訓練性能、降低成本而提出的。

與Transformer不同，其架構充分利用GPU集群的分布式計算能力，將多任務執行從算法結構層面轉移到GPU集群層面從而降低算法的結構復雜性。而馬斯克剛剛開源的Grok-1就是采用這種架構。

Mixture-of-Experts架構的主要組成部分：

專家模型（Expert Models）：每個專家模型是一個獨立的神經網絡，它們被設計用于解決特定的子問題或者在特定的輸入數據分布下表現良好。每個專家模型都接收輸入數據，并且輸出對應的預測結果。
門控網絡（Gating Network）：門控網絡用于動態地分配權重給各個專家模型。給定輸入數據，門控網絡計算每個專家模型對于當前輸入數據的相關性或者重要性。這些權重通常是通過softmax函數歸一化得到的，以確保它們的總和為1。
混合操作（Mixture Operation）：通過將每個專家模型的輸出與門控網絡計算得到的權重相乘并相加，可以得到最終的輸出。每個專家模型的輸出都被乘以對應的權重，然后再相加，以產生最終的輸出。
訓練策略：MoE模型通常使用端到端的反向傳播算法進行訓練。在訓練過程中，專家模型和門控網絡的參數都會被調整，以最小化模型在訓練數據上的損失函數。門控網絡的訓練目標通常是最大化模型的整體性能，并且也可以通過額外的正則化策略來提高模型的泛化能力。

Mixture-of-Experts模型通過將多個專家模型組合在一起，并且通過門控網絡動態地分配權重，可以提高模型的靈活性和適應性，從而在處理復雜的輸入數據分布時取得更好的性能表現。

7）RLHF—人類反饋的強化學習（Reinforcement Learning from Human Feedback）

RLHF是一種機器學習一種方法和階段，為避免最終訓練輸出的結果違背人類道德倫理、民俗習慣、社會規則和法律，在機器學習的最后階段結合來自人類的反饋和強化學習（RL），以指導和優化人工智能模型的行為和決策。這種方法特別適用于在那些難以為機器提供明確、數學化的獎勵函數的情況下，訓練模型執行復雜或高度專業化的任務。

在傳統的強化學習中，一個AI模型通過與環境互動，嘗試最大化其所獲得的累積獎勵。這些獎勵通常是預先定義好的，基于任務的目標。然而，在許多實際應用中（特別是生成式模型中），定義一個能夠有效引導學習過程的獎勵函數是非常困難的。

RLHF通過以下步驟解決這個問題：

人類反饋：收集人類對AI行為的評估或偏好。這可以通過直接評分、選擇偏好（偏好排序兩個或多個選項）或提供糾正性反饋的形式進行。
建立獎勵模型：使用這些人類反饋來訓練一個獎勵模型，該模型預測哪些行為或決策會獲得正面的人類評價。
強化學習：利用這個獎勵模型作為獎勵函數，采用強化學習算法訓練AI模型。使其通過試錯的方式學習在給定環境中如何行動，以最大化從獎勵模型中獲得的獎勵。

RLHF的優點在于，它可以在沒有明確數學形式獎勵函數的情況下訓練AI模型，使其在復雜環境中作出更接近人類期望和價值觀的行為。這種方法被廣泛應用于自然語言處理、游戲、機器人技術和其他需要復雜決策過程的領域。通過人類的直觀反饋，模型可以學習執行抽象的、多樣化的任務，同時減少不希望的行為或偏差的風險。

二、GPT的局限性

在當前人工智能領域中，GPT系列大模型作為自然語言處理的重要里程碑，展現了令人矚目的文本生成和理解能力。然而，我們必須認識到，盡管GPT系列模型的表現卓越，其固有的局限性并不代表通用人工智能（AGI）的終極實現。

首先，研究顯示，在復雜的邏輯推理和多步推斷任務中，GPT模型可能表現不佳。雖然GPT可以生成流暢的文本，但在需要深入邏輯判斷和跨領域推理的任務中，其表現可能有限。

復雜的邏輯推理和多步推斷任務要求模型能夠理解和操縱抽象概念、規則和關系。這些任務在人工智能領域中被視為挑戰性任務，因為它們需要模型具備高級的符號推理和邏輯推斷能力；GPT模型在語法和詞匯上表現優秀，因其訓練數據源自大規模文本語料庫。

然而，在需要邏輯推理和推斷的任務中，缺乏結構化數據和標簽可能限制了GPT的表現，因而難以學習和理解抽象規則和邏輯關系；另一個挑戰是跨領域推理，在現實世界中，許多任務可能涉及多領域的知識和信息，而GPT這類模型在跨領域推理方面可能受制于其單一領域的訓練數據和知識范圍，導致其推理能力受限。

其次，GPT模型在需要專業知識和精確推理的領域（如生物、醫學、金融、法律等）中面臨巨大挑戰。在專業領域中，模型需要準確理解和運用領域特有的知識和術語，GPT等預訓練模型可能無法完全掌握這些專業領域的復雜性和細節，導致其在特定領域任務中表現不佳；在特定領域的任務中，若訓練數據受限或缺乏專業領域相關的數據，模型可能無法準確學習和理解該領域的概念和規則；特定領域對術語和語境的極高的精確性要求，GPT等模型目前可能難以準確處理這些領域的復雜信息和語言，導致理解和推理的準確性受到影響。GPT等通用模型可能在更具挑戰性的專業領域任務中缺乏領域自適應性，無法有效應對領域內的復雜問題和需求。

最后，從長期發展來看，AGI的實現需要超越單一技術和單一領域的智能。AGI的實現要求模型能夠綜合利用不同感官數據和信息，包括視覺、聽覺、觸覺等多個感知層面。

GPT等模型雖在自然語言生成領域表現出色，但實現AGI需要整合多種感知數據，并具備跨模態智能處理能力，這超出了目前單一模態智能的范疇。

AGI還需要具備認知能力、規劃決策能力等高級智能，要求模型能夠思考未來、制定計劃以及做出決策，這遠比單純的信息處理和生成更為復雜和綜合。

AGI還需要具備長期記憶和持續學習的能力，以不斷積累和更新知識，適應不斷變化的環境和任務。

GPT等預訓練模型可能在長期記憶和持續學習方面存在挑戰，因其主要用于靜態數據集的預訓練。實現AGI需要模型能夠在廣泛領域和任務中表現出色，而不僅僅局限于特定任務或數據集。GPT等模型可能面臨面向普適性通用性的挑戰，因其訓練數據和任務較為單一和特定。

三、我們離AGI還有多遠?

這個問題激發了無數學者和研究人員、未來主義者的想象。

隨著每一次AI技術的飛躍，這個話題都會被重新點燃，引起公眾的熱烈討論。

盡管我們在特定領域內的人工智能（如圖像識別、自然語言處理等）取得了顯著的進展，但通用人工智能——一種具有廣泛認知能力、能在各種任務上達到或超越人類水平的智能系統——仍然是一個遙遠的目標。

1. AGI的評價方法

評價AGI能力的量化指標涉及多種方法，每種方法都嘗試從不同角度捕捉智能的某個方面。

以下是一些常見的評價方法：

知識測驗（如智商測試、學術考試等）用于評估知識水平和邏輯推理能力；
專業技能測試（如編程、法律、醫學）用于評估AGI在專業領域內的知識和應用能力；
復雜游戲測試（如國際象棋、圍棋、星際爭霸等）用于評估策略制定、學習能力和適應性；
虛擬仿真環境（如OpenAI的Gym、DeepMind的Lab），通過模擬真實世界的復雜環境來測試AGI的適應性和解決問題的能力；
藝術創作評估AI生成藝術作品的原創性和審美價值；
創新解決方案（設計、工程或科學領域），評估AGI提出新穎解決方案的能力；
圖靈測試，通過判斷機器是否能在文本交流中讓人類誤以為是與另一人類交流，來評估其自然語言處理和生成能力；
情感和社會交互，評估AGI理解和生成情感反應的能力，以及在社交情境中的表現；
多任務性能，評估AGI在同時處理或快速切換不同任務時的表現；
學習遷移，評估AGI將在一個任務中學到的知識應用到新任務的能力；
復雜問題解決，通過解決需要廣泛知識和創造性思維的開放式問題來評估AGI的能力；
實時決策制定，在變化的環境中，評估AGI進行決策和適應的能力；
道德困境，通過模擬涉及倫理和道德抉擇的情境，評估AGI的判斷和決策過程；
社會規范學習，評估AGI理解和遵循人類社會規范的能力；
綜合感知任務，評估AGI整合視覺、聽覺等多種感知信息的能力。
交互式任務，在涉及多模態輸入（如圖像和文本）的任務中評估AGI的處理和響應能力。

這些評價方法通常需要結合使用，以全面地衡量AGI的能力和性能，更好地反映AGI在模仿人類智能方面的進步。

2. 技術挑戰

近年來，大型語言模型和多模態AI模型的發展讓我們對達到AGI的可能性有了更多的希望。例如，ChatGPT、Claude、Gemini等模型，其具備在多模態情境下理解和生成信息的能力，標志著我們在模擬人類的認知和理解能力上邁出了重要一步。

然而，盡管這些模型在各自的領域內表現出色，它們依然缺乏人類智能的靈活性和通用性。

這些模型在特定任務上的表現雖然令人印象深刻，但在面對未曾訓練或完全不同類型的任務時，其性能會大幅下降。

3. 理論和方法論上的挑戰

目前，我們尚未完全理解人類智能的工作原理，包括我們如何學習新技能、如何進行抽象思考，以及我們的智能是如何在如此廣泛的任務中展現出靈活性和適應性的。沒有這些理論基礎，我們很難設計出能模擬這些能力的AI系統。

此外，當前的AI系統大多依賴大量數據進行訓練，而這種方法在達到真正的AGI時可能不再適用。

Yann LeCun（楊立昆）認為智能行為的核心特征包括理解物理世界、記憶與檢索信息的能力、持久記憶、推理能力和規劃能力，而自回歸式大語言模型在這五個方面均表現不足或僅能實現初級功能，它們無法真正理解和模擬物理世界，不具備持續的記憶和深入的推理機制，也無法進行有效的規劃。

4. 倫理和安全挑戰

一個具備廣泛智能和自主能力的系統可能會產生無法預測的行為，這對于確保這些系統能夠以符合人類價值觀和安全要求的方式行動至關重要。如何設計這樣的系統，以及如何確保它們的行為不會對人類或環境造成不利影響，是我們在邁向AGI的道路上必須面對的問題。

Geoffrey Hinton認為，數字智能終將取代生物智能。在接受了海量網絡信息訓練的AI會比人類更聰明，因而能夠輕易操縱人類——這是超級智能接管人類控制權的路徑之一。

5. 能源挑戰

通用人工智能（AGI）在運行和發展過程中需要大量的電力支持，算力競爭的背后是能源競爭。

ChatGPT每天需要響應大約2億個請求，其背后的GPT大語言模型（LLM）在訓練和運行過程中消耗了大量的電力。據估計，ChatGPT每天消耗的電力超過50萬度，相當于1.7萬個美國家庭的日均用電量。

而OpenAI CEO Altman就公開表示：人工智能行業正在走向能源危機。特斯拉CEO馬斯克此前預計，AI下一階段將會是“缺電”。

在愛爾蘭，僅70個數據中心就消耗了全國14%的能源。到2030年，預計全球30-50%的生產電力將用于AI計算和冷卻。

四、最后

在人工智能領域中，通用人工智能（AGI）、大型語言模型（LLM）、Transformers、擴散模型（Diffusion Models）和人類反饋的強化學習（RLHF）等技術之間存在著緊密的聯系和相互作用，共同推動這一領域的進步。

AGI代表了AI的終極目標，即在各種任務和環境中展現出與人類類似的適應性和靈活性。雖然我們距離實現AGI仍有很長的路要走，但當前的進展和研究為這一終極目標奠定了基礎。這些技術的融合和發展，不僅擴展了我們對AI能力的理解，也為攻克復雜問題開辟了新途徑。

特別是，通過結合Transformers的模型架構，擴散模型的生成能力，以及RLHF的細致調優，我們已經能夠創建出更為高效和靈活的模型。這些模型在理解語言、生成內容、解決問題等方面的能力越來越接近人類的思維模式。

隨著這些領域的不斷深入，我們對于實現AGI的路徑也將更加清晰，為未來的科技革命鋪平道路。

參考文獻

Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27.
Karras T, Aila T, Laine S, et al. Progressive growing of gans for improved quality, stability, and variation[J]. arXiv preprint arXiv:1710.10196, 2017.
Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30.
Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint arXiv:1909.08593, 2019.

專欄作家

黃銳，人人都是產品經理專欄作家。高級系統架構設計師、資深產品經理、多家大型互聯網公司顧問，金融機構、高校客座研究員。主要關注新零售、工業互聯網、金融科技和區塊鏈行業應用版塊，擅長產品或系統整體性設計和規劃。

本文原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App