Transformer能解釋一切嗎?

0 評論 2872 瀏覽 4 收藏 19 分鐘

Transformer的高內存消耗和高推理成本的局限性開始顯現出來,替代者躍躍欲試。本篇文章詳細利用各種數據介紹了Transformer的替代者以及各種理論知識,推薦想了解人工智能的同學閱讀。

提出Transformer的那篇論文《Attention is All You Need》問世已經是六年前的事了。當初的8位論文作者有6人出自谷歌,但到現在大多也已轉身尋找新的故事。

Lukasz Kaiser去了OpenAI,他曾經谷歌大腦的同事Noam Shazeer成立了Character AI,估值已經超過10億美元。另外兩位同事Ashish Vaswani和Niki Parmar在創立了AI軟件開發公司Adept AI Labs后,把這個同樣估值超過10億的初創公司交給了另一位聯合創始人,又開始下一次創業了。

只有Llion Jones,這個從威爾士一個小村莊里走出來的程序員,還留在谷歌。他曾經談起這個并不夠學術的論文標題的由來,是對披頭士的那首《All You Need is Love》的簡單致敬。

而利用注意力機制來提高模型訓練速度的Transformer架構,確實讓AI從實驗室深處的極寒之地里走出來了。它成為當下這場生成式AI浪潮無可爭議的基礎。某種程度上,上面提到的所有人,都沒有真正離開這篇論文。

Mikolov在2010年提出RNN,這個框架在7年后被Transformer取代。而在Transformer問世后的一個相似時間周期后,其高內存消耗和高推理成本的局限性也開始顯現出來。

替代者也躍躍欲試了。

一、“不可能三角”

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Transformer的自注意力機制增強了模型并行計算的能力,并且正契合了GPU對大規模數據進行并發處理的設計傾向。但Transformer在面對大型數據集和較長輸入序列時,需要的計算量會陡增。

于是并行訓練能力、性能和低成本推理,逐漸成為Transformer框架下的“不可能三角”。

近日,微軟研究院和清華大學的研究團隊提出了一個新的框架RetNet(Retentive Network)來代替Transformer,并表示RetNet可以打破這個“不可能三角”。

“這就像是M1芯片之于筆記本電腦?!币晃划a品經理在推特上這樣形容RetNet。

二、O(N)困境

在這個“不可能三角”中,RetNet選擇的突破口是推理成本。

由于使用了自注意力機制,Transformer模型展現出較高的訓練并行性,同時在機器翻譯、語言建模等任務上也取得了很好的表現。但取代了RNN的自注意力機制同樣成為一種桎梏。

這集中體現在時間復雜度這個標尺上。在描述算法復雜度時,常用O(n)、O(n^2)、O(logn)等表示某個算法在計算耗時與輸入數據量(n)之間的關系表示。

O(n)意味著數據量的增加與算法耗時成正比,O(n^2)意味著像冒泡排序那樣,算法耗時是數據量的n^n倍。計算耗時越長,算法越復雜,也就意味著推理成本越高。

Transformer能解釋一切嗎?

圖源:博客園

拿文本翻譯做個例子,在處理長文本序列時(假設文本長度為N),自注意力機制的時間復雜度為O(N^2),當N過大時,翻譯速度很低。這也是為什么當前的大語言模型,在文本token長度上的進展頗為受人關注。

雖然Transformer可以有效訓練并行性,但由于每步的O(N)復雜度以及內存綁定的鍵值緩存,它們的推理效率低下。這種低效率使得Transformer模型會消耗大量GPU內存并降低推理速度,因此不適合部署。

三、從O(N)到O(1)

O(1)無疑是最優的選擇,這意味著無論數據輸入量n如何變化,算法耗時都是一個常量。

RetNet框架的最大的驚艷之處就在這里,它將O(N)降維到了O(1)。

RetNet引入了一種多尺度保留機制(multi-scale retention mechanism)來取代多頭注意力。作為三種計算范式之一的分塊循環表示,可在內存和計算方面實現高效的O(1)推斷,從而顯著降低部署成本和延遲。

這意味著RetNet的推理成本是固定不變的。在一系列對比RETNet與Transformer及其變體的實驗中,對比7B模型和 8k序列長度,RetNet的解碼速度比帶鍵值緩存的Transformers快8.4倍,節省70%的內存。RetNet的推理延遲變化對輸入數據量的大小變化并不敏感,這也讓它能夠包容更大的吞吐量(Throughput)。

測試結果表示,在訓練期間RetNet比標準Transformer節省了25-50%的內存和7倍的加速。

四、一些重要的實驗結果

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

O(1)為RetNet在GPU內存方面帶來的優勢是,它完全不隨token數增加而變化。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Throughput(神經網絡的吞吐量)是一個算法模型在單位時間內(例如,1s)可以處理的最大輸入的訓練樣本數據。RetNet在輸入端token數增加的情況下仍然能夠維持高吞吐量,而Transformer在這方面的數據則隨著token數的增加而逐漸衰減。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Perplexity(困惑度)是語言模型最鮮明的評價標準。它衡量語言模型對單詞序列中下一個單詞的預測能力。當模型參數量變大時,困惑度往往會降低,即語言模型能夠做出更優的預測——這也是為什么我們對萬億參數模型抱有極大期待。

論文中比較了RetNet與Transformer在1.3B、2.7B以及6.7B這三種不同尺寸上的困惑度變化,實驗結果RetNet的困惑度下降更快,并且當模型大小超過2B時,RetNet的表現開始優于Transformer。

這一觀察結果意義重大,它表明RetNet更適合需要大量計算資源和內存的大型語言模型。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

2018年,大模型仍然前景未明的時候,黃仁勛在深度學習的綜合性能評價方面提出了PLASTER框架。這是七個測量維度的縮寫,其中延遲(Latency)的重要性僅僅被放在可編程性(Programmability)之后(其他五個維度分別是準確率(A)、模型大?。⊿)、吞吐量(T)、能效(E)以及學習率(R))。

RetNet與Transformer在不同Batch Size(一次訓練所選取的樣本數)下的延遲表現同樣印證了,RetNet的響應速度將在訓練規模進一步擴大后展現出優勢。

五、Transformer能解釋一切嗎

這篇論文中的幾位核心作者,在更早時候就已經開始關注GPT在上下文學習中的運行機制。2022年末ChatGPT問世后不久,他們發表了一篇表明Transformer注意力具有雙重形式的梯度下降的論文。而這些研究者對于RetNet的野心并不會停留在文本輸入上。

論文在最后表示,RetNet將會成為未來訓練多模態大語言模型的核心角色。

在這篇論文發表的10天之前,世界人工智能大會上一家投資了智譜AI等多個大模型明星團隊的創投公司表示,Transformer在短期內會是多模態的主流網絡結構,但并不是人工智能技術的重點,“壓縮整個數字世界的通用方法仍未出現”。

Transformer是目前幾乎所有主流大模型的基石,這場基于Transformer而起的技術革命,已經快速到達了一個新的搖擺點。外部的壓力來自暴漲的算力資源需求,以及人類所有的高質量語料可能在有限的期限內枯竭。

Transformer能解釋一切嗎?

圖源:推特

搖擺的地方在于,到底是Transformer還不夠好,還是Transformer本身并不是一條正確道路?

至少從RetNet的角度,它仍然是相信Transformer的,RetNet是后者的顛覆版本,但并沒有跳出以深度學習為基礎,全神貫注在自然語言處理任務上做突破的邏輯框架。

另一種更劇烈的反對聲音則直接站在了Transformer的對面,比如再度活躍起來的“卷積神經網絡之父”楊立昆。

六、模型和數據,誰更重要

在幾個月前的一次公開演講中,楊立昆再次批評了GPT大模型。他認為根據概率生成自回歸的大模型,根本無法破除幻覺難題。甚至直接斷言GPT模型活不過5年。

LeCun的質疑是,基于文本訓練的大型語言模型只能理解極片面的真實世界知識,而僅僅靠自回歸預測下一個token的單一方式所形成的“智能”缺乏物理直覺。這樣的模型能夠在真實世界中對物理直覺問題做出對的回答——也可能做出錯的回答。因為回答的依據來自將整個真實世界壓縮成文本進行訓練后所形成的邏輯關系,但這并不是直接面對物理世界本身。

并且由于這樣的預測方式本質上缺乏時間尺度,這樣的模型也就缺乏真正意義上的規劃和決策能力。

矛頭在根本上對準Transformer。

言下之意,Transformer統領了一種以預訓練規模兌換智能涌現能力——所謂大力出奇跡——的發展道路(并且到目前為止取得了矚目的成果),但如果真的有一條通往AGI的道路,到底是該以數據驅動模型,還是模型驅動數據?這仍是一個懸而未決的問題。

七、“刺激—反應”

楊立昆與這條區別于GPT的AGI未來猜想路徑,更強調智能體主動發起的與物理世界之間的實時關系,這是強化學習擅長的事。在這一點上,Transformer的繼承者RetNet也只是治標不治本。

OpenAI在ChatGPT中以人類反饋強化學習(RLHF)的微調方法補充了這種實時反饋的能力。但大語言模型的所有“常識”——也就是其智能所在——都來自一次次隆重的預訓練,即在知道最優數據分布時,依靠巨大的模型、算力以及數據去擬合分布。這是Transformer與GPU在并行計算能力上的契合所帶來的便利,而作為Transformer繼任者的RetNet,只是在極力優化這整個后續的計算過程。

而強化學習與有監督學習、無監督學習都不一樣。它本身并不知道最優分布,而是通過獎勵信號的反饋機制不停的尋找相對的“最優”。這種在與環境交互中主動“試錯”,并且獲取正反饋(收益),進而從自身經驗中進一步理解環境的方式,相比自監督學習來說更加接近人類對于物理世界的理解方式,這就像心理學中的“刺激—反應”理論。

很多人對強化學習的第一次感性認識都來自曾顛覆了人類圍棋世界的AlphaGO,而到目前為止。全世界可能也沒有另一家公司比AlphaGO背后的公司DeepMind更懂強化學習。

與RetNet在Transformer的基礎上做調整不同,DeepMind在6月末提出了另一種大模型的迭代思路——AlphaGo+GPT4。

八、AlphaGo和AlphaZero

人類一敗涂地的故事總是矚目,但AlphaGO曾有一個后輩AlphaGo Zero。

2016年,AlphaGO用樹搜索和上萬張棋局的預先學習,4:1擊敗了李世乭。但另一個延續下去的故事是,AlphaGo Zero在一年后以100:0的戰績擊潰了AlphaGO。

2017年《自然》上的一篇論文介紹了這項壯舉,核心的內容是AlphaGo Zero如何在完全沒有先驗知識,即不依賴任何人類數據、指導或領域知識的前提下,通過自我學習來獲得超越人類水平的專業領域能力。

換言之,AlphaGo Zero就好像帶著一個空腦袋,坐在一間屋子里,在只掌握圍棋游戲規則信息,眼前只有一副圍棋棋盤和棋子的情況下,擊敗了AlphaGO。

AlphaGo Zero的不同之處在于它采用了一種完全基于強化學習的算法,僅僅將自己作為老師,以此誕生出更高質量的走法選擇。與使用人類專家數據進行訓練相比,純粹的強化學習方法只需要多訓練幾個小時,但漸近性能(算法在接近其理論極限時的性能)要好得多。

AlphaGo Zero的勝利是強化學習的勝利。但它的局限性也很明顯,就像楊立昆所推崇的能量模型(Energy-based Models)所具有的問題一樣,“采樣速度太慢了”,一位強化學習領域的研究者表示。

九、Gemini

現在這條更側重強化學習的AGI路徑,壓在了DeepMind正在研究的一個新的名為Gemini的大模型身上。DeepMind CEO 哈薩比斯表示,對Gemini的研發投入將會超過數千萬甚至數億美金。做個對比,OpenAI用1個億美金迭代出了GPT-4。

“Gemini”本身是雙子座的意思。在哈薩比斯的表述中,這個全新的大模型將會是GPT4和AlphaGo的結合體,它仍然是一個大語言模型,但AlphaGo所具備的強化學習和樹搜索能力會給Gemini帶來更強的決策和規劃能力——這個楊立昆認為GPT在AGI道路上早晚會遇到的阿喀琉斯之踵。

Gemini背后的谷歌顯然希望能借著Gemini重新在與微軟的爭鋒中占到一個好的位置。在ChatGPT問世之后,谷歌快速站到了OpenAI的對手Anthropic的背后。如果這被看作一種防守姿態的話,Gemini則更像谷歌主動發起的一場新的路線之爭,就像曾經在GPT與BERT身上發生過的事情一樣。

但無論如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已經包含了對這個偉大框架的所有敬意。

作者:油醋

來源公眾號:品玩GenAI(ID:PW_GenAI),比一部分人更先進入GenAI 。

本文由人人都是產品經理合作媒體 @品玩 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!