MIT驚人證明:大語言模型就是「世界模型」

0 評論 2824 瀏覽 6 收藏 38 分鐘

大語言模型就是「世界模型」?大家對這方面的知識了解嗎?又了解多少呢?大家一起來看看下邊的內容吧!

MIT的兩位學者發文力證:大語言模型能夠理解世界!他們的工作表明,LLM不僅僅學習了表面的統計數據,還學習了包括空間和時間等基本維度的世界模型。

在大語言模型內部,是否有一個世界模型?

LLM是否具有空間感?并且在多個時空尺度上都是如此?

最近,MIT的幾位研究者發現,答案是肯定的!

他們發現,在Llama-2-70B竟然能夠描繪出研究人員真實世界的文字地圖。

在空間表征上,研究者對世界各地數以萬計的城市、地區和自然地標的名稱運行了Llama-2模型。

他們在最后的token激活時訓練了線性探測器,然后發現:Llama-2可以預測每個地方真實緯度和經度。

在時間表征上,研究者對過去3000年名人的名字、1950年以來的歌曲、電影和書籍的名稱以及2010年代的《紐約時報》頭條新聞運行了模型,并訓練了線性探針(linear probe)成功預測到了名人的死亡年份、歌曲電影書籍的發布日期和新聞的出版日期。

總之,一切結論都顯示:LLM不僅僅是隨機鸚鵡——Llama-2包含世界的詳細模型,毫不夸張地說,人類甚至在大語言模型中發現了一個「經度神經元」!

這項工作一推出,立馬獲得熱烈反響。作者在推上轉發了論文的概要,不到15個小時閱讀量就已超過140萬!

網友們紛紛驚呼:這項工作太了不起了!

有人表示:在直覺上,這是合理的。因為大腦正是提煉了我們的物理世界,將其存儲在生物網絡中。當我們「看到」事物時,它們實際上就是我們的大腦在內部處理的投射。

令人難以置信的是,你們竟然能夠對此進行建模!

有人持相同觀點,表示或許是我們試圖模仿大腦的方式欺騙了造物主。

一、LLM不是隨機鸚鵡

此前,許多人就這樣猜想:大語言模型表現出的驚人能力,或許只是因為它學習了大量膚淺的統計數據集合,而并不是因為它是一個包含數據生成過程的連貫模型(也即世界模型)。

2021年,華盛頓大學語言學家Emily M. Bender發表了一篇論文,認為大型語言模型不過是「隨機鸚鵡」(stochastic parrots)而已,它們并不理解真實世界,只是統計某個詞語出現的概率,然后像鸚鵡一樣隨機產生看起來合理的字句。

由于神經網絡的不可解釋性,學術界也弄不清楚語言模型到底是不是隨機鸚鵡,各方觀點差異分歧極大。

由于缺乏廣泛認可的測試,模型是否能「理解世界」也成為了哲學問題,而非科學問題。

然而MIT的研究者發現,LLM在多個尺度上都學習了空間和時間的線性表征,而這些表征對不同的提示變化具有穩健性,并且在不同的環境類型(如城市和地標)中具有統一性。

他們甚至發現,LLM還具有獨立的「空間神經元」和「時間神經元」,可以可靠地編碼空間和時間坐標。

也就是說,LLM絕不僅僅是學習了表面的統計數據,而是獲得了關于空間和時間等基本維度的結構化知識。

總之,大語言模型能夠理解世界。

二、LLM能理解空間和時間

在這篇論文中,研究人員提出了一個問題:LLM是否能通過數據集內容形成世界(以及時間)模型。

研究人員試圖通過從LLM中提取真實的世界地圖,來回答這個問題。

具體來說,研究人員構建了六個數據集,其中包含跨越多個時空維度的地點或事件名稱以及相應的空間或時間坐標:

其中包括了世界范圍內的地址,美國國內的地址和紐約市范圍內的地址。

另外數據集還包括了不同的時間坐標:

  • 歷史人物的死亡年份
  • 過去 3000 年的歷史
  • 20 世紀 50 年代以來藝術作品和娛樂節目的發布日期
  • 2010年至2020年新聞頭條的發布日期

使用 Llama 2 系列模型,研究人員訓練了線性回歸探針(probe),研究了這些地點和事件在模型每一層的名稱的內部激活,來預測它們的真實世界位置或時間。

這些探索性的實驗揭示了模型在整個早期層中構建空間和時間表征的證據,然后在模型中點附近達到穩定狀態,這個過程的結果在較大的模型的表現始終優于較小的模型。

進一步,研究人員證明這些表征是

  1. 線性的,因為非線性探針表現不佳
  2. 對提示的變化能有很高的魯棒性
  3. 不同類型的概念之間是相似的(例如,城市和自然地標之間是相似的)

研究人員認為,對于這個結果的一種可能的解釋是,模型僅學習了從地方到國家的映射,而探針實際上學習了這些不同群體在地理空間(或時間)上如何相關的全球地理結構。

為了研究這一點,研究人員進行了一系列穩健性檢查,以了解探針如何在不同的數據分布上進行泛化以及在 PCA 組件上訓練的探針如何執行。

研究人員的研究結果表明,探針記住了這些概念的「絕對位置」,但模型確實具有一些反映「相對定位」的表征。

換句話說,探針學習了從模型中的坐標到人類可解釋坐標的映射。
最后,研究人員使用探針來尋找作為空間或時間函數激活的單個神經元,提供強有力的證據證明該模型確實使用了這些特征。

1. 準備工作

為了進行調查,研究人員構建了六個實體名稱(人物、地點、事件等)的數據集,其中還包括了它們各自的位置或發生的時間,每個數據集的規模大小不同。

對于每個數據集,研究人員包含多種類型的實體,例如城市等人口稠密的地方和湖泊等自然地標,以研究不同對象類型的統一表示。

此外,研究人員優化并且豐富了相關元數據(metadata),以便能夠通過更詳細的細分來分析數據,識別訓練測試泄漏的來源。

2. 位置信息

研究人員構建了世界、美國和紐約市的三個地名數據集。研究人員的世界數據集是根據 DBpedia Lehmann 等人查詢的原始數據構建的。

進一步,研究人員囊括了人口稠密的位置、自然位置和結構性位置(例如建筑物或基礎設施)。然后,研究人員將這些內容與維基百科文章進行匹配,并過濾掉三年內頁面瀏覽量不低于5000次的實體。

研究人員的美國數據集包括了城市、縣、郵政編碼、大學、自然地點和結構的名稱,其中人口稀少或查看位置類似地被過濾掉。

紐約市數據集包含城市內的學校、教堂、交通設施和公共住房等位置。

3. 時間信息

研究人員的三個時間數據集包括 :

(1) 公元前 1000 年至公元 2000 年之間去世的歷史人物的姓名和職業,

(2) 使用維基百科頁面瀏覽量過濾技術從DBpedia構建了包括1950年至 2020 年歌曲、電影和書籍的標題和作者;

(3) 2010 年至 2020 年《紐約時報》新聞頭條,來自撰寫時事新聞的新聞欄目。

4. 數據準備

研究人員所有的實驗都是使用基礎版的Llama 2系列模型展開的,涵蓋 70 億到 700 億個參數。

對于每個數據集,研究人員通過模型運行每個實體名稱,可能會在前面加上一個簡短的提示,并將隱藏狀態(殘留流,residual stream)的激活(activation)保存在每層的最后一個實體token上。

對于一組n個實體,這會為每個層生成一個激活數據集。

5. 探針

為了尋找LLM中空間和時間表征的證據,研究人員使用標準探針技術。

它在網絡激活(network activations)上擬合一個簡單的模型,用來預測與標記輸入數據相關的一些目標標簽(target label)。特別是,給定激活數據集 A ∈ Rn×dmodel 和包含時間或二維緯度和經度坐標的目標 Y,研究人員擬合了線性嶺回歸探針(fit linear ridge regression probes)。

從而獲得了線性探針:

對樣本外數據的高預測性能表明基礎模型在其表示中具有可線性解碼的時間和空間信息,盡管這并不意味著該模型實際上使用了這些表征。

在所有實驗中,研究人員在探針訓練集上使用有效的留出交叉驗證(efficient leave-out-out cross validation)來調整λ。

空間和時間的線性模型

6. 存在性

研究人員首先研究這個實證問題:模型是否表征時間和空間?如果是這樣,在模型內部的什么位置?表征質量是否會隨著模型規模的變化而發生顯著變化?

在研究人員的第一個實驗中,研究人員為每個空間和時間數據集的Llama 2-{7B, 13B, 70B} 的每一層訓練了探針。

研究人員的主要結果下圖所示,顯示了跨數據集相當一致的模式。特別是,空間和時間特征都可以通過線性探針恢復。

隨著模型規模的增加,這些表示會變得更加準確,并且在達到穩定狀態之前,模型前半層的表示質量會平穩提高。

這些觀察結果與事實回憶文獻的結果一致,表明早期到中期的 MLP 層負責回憶有關事實主題的信息。

性能最差的數據集是紐約市數據集??紤]到大多數實體與其他數據集相比相對模糊,這是預料之中的。

然而,這也是最大模型具有最佳相對性能的數據集,其R幾乎是較小模型的2倍,這表明足夠大的LLM最終可以形成各個城市的詳細空間模型。

7. 線性表征

在可解釋性的文獻中,越來越多的證據支持線性表征假設——神經網絡中的特征是線性表示的。

也就是說,可以通過將相關激活投影到某個特征向量來讀出特征的存在或強度。然而,這些結果幾乎總是針對二元或分類特征,與空間或時間的自然連續特征不同。

為了測試空間和時間特征是否以線性方式表示,研究人員將線性嶺回歸探針(linear ridge regression probes)的性能與更具表現力的非線性MLP ( more expressive nonlinear MLP)的性能進行了比較。

結果如下,表明對于任何數據集或模型,使用非線性探針對 R 的改進微乎其微。

研究人員將此作為強有力的證據,證明空間和時間也可以線性表示(或者至少是線性可解碼的),盡管它們是連續的。

8. 對提示詞的敏感性

另一個很顯然的問題是,這些空間或時間特征是否對提示詞敏感,即上下文能否誘發或抑制對這些事實的回憶?

直觀地,對于任何實體token,自回歸模型都會被激勵來生成適合解決任何未來可能的上下文或問題的表征。

為了研究這個問題,研究人員創建了新的激活數據集,其中研究人員按照幾個基本主題為每個實體標記添加了不同的提示。在所有情況下,研究人員都包含了一個「空」提示,除了實體token(以及序列token的開頭)之外不包含任何內容。

然后,研究人員添加一個提示,要求模型回憶相關事實,例如「<位置>的經緯度是多少?」或「<書> 的發行日期是哪一天?」。

對于美國和紐約市的數據集,研究人員還包含這些提示的版本,詢問該位置位于美國或紐約市的哪個位置,以消除常見地點名稱的歧義(例如市政廳)。

作為基線,研究人員包括 10 個隨機token的提示(針對每個實體進行采樣)。為了確定研究人員是否可以混淆主題,對于某些數據集,研究人員將所有實體的名稱完全大寫。

最后,對于標題數據集,研究人員嘗試探測最后一個token和附加到標題的句號token。

上圖是70B模型的結果,下圖是所有模型的結果。

研究人員發現,明確提示模型輸入信息,或者給出消歧提示,例如某個地方位于美國或紐約市,對性能幾乎沒有影響。然而,研究人員對隨機干擾token降低性能的程度感到驚訝。

將實體名稱大寫也會降低性能,盡管不那么嚴重且不也不太出乎意料,因為這可能會干擾實體的「去token化」。

顯著提高性能的一項修改是對標題后面的句號token進行探測,表明句號包含了結尾的句子的一些摘要信息。

三、魯棒性檢測

上一節已經表明,不同類型的事件或地點的真實時間或空間點可以從LLM中后期層的內部激活中線性恢復。

然而,這并不意味著模型是否(或如何)實際上使用了由探針學習到的特征方向,因為探針本身可以學習模型實際使用的更簡單特征的一些線性組合。

1. 通過泛化進行驗證

為了說明研究人員的結果的潛在問題,考慮表示完整世界地圖的任務。

如果模型如研究人員所期望的那樣,「在X 國」具有幾乎正交的二元特征,然后可以通過將每個國家的這些正交特征向量相加來構建高質量的緯度(經度)探針,其系數等于該國家/地區的緯度(經度)那個國家。

假設一個地方僅位于一個國家,這樣的探測會將每個實體置于其國家質心。

然而,在這種情況下,模型實際上并不代表空間,僅代表國家成員資格,并且它只是從顯式監督中學習不同國家幾何形狀的探針。

為了更好地區分這些情況,研究人員分析了探針在提供特定數據塊時如何泛化。

特別是,研究人員訓練了一系列探針,對于每個探針,研究人員分別提供世界、美國、紐約市、歷史人物、娛樂和頭條新聞數據集的一個國家、州、行政區、世紀、十年或年份。

然后研究人員評估對保留的數據塊的探測。在上表中,研究人員報告了完全保留時數據塊的平均鄰近誤差,與默認訓練-測試分割中該塊的測試點的誤差(對所有保留塊進行平均)進行比較。

研究人員發現,雖然泛化性能受到影響,特別是對于空間數據集,但它明顯優于隨機數據集。通過繪制下圖中所標注的州或國家的預測,一幅更清晰的圖樣就這樣出現了。

世界范圍

也就是說,探針通過將點放置在正確的相對位置(通過真實質心和預測質心之間的角度測量)而不是絕對位置來正確地進行概括。

研究人員將此視為微弱的證據,表明探針正在通過模型提取顯式學習的特征,但正在記住從模型坐標到人類坐標的轉換。

然而,這并不能完全排除潛在的二元特征假設,因為可能存在不遵循國家或十年邊界的此類特征的層次結構。

2. 跨實體泛化

到目前為止,研究人員的討論中隱含的主張是,該模型以統一的方式表示不同類型實體(如城市或自然地標)的空間或時間坐標。

然而,與緯度探測可能是隸屬特征的加權和( be a weighted sum of membership features)類似,緯度探測也可以是城市緯度和自然地標緯度的不同(正交)方向的總和。

與上面類似,研究人員通過訓練一系列探針來區分這些假設,其中執行訓練測試分割以保留特定實體類的所有點如下表所示,了鄰近度與保留時相比,默認測試拆分中的實體的誤差,如之前對所有此類拆分進行平均。

結果表明,探針在很大程度上概括了實體類型,只有娛樂數據集除外。

3. 空間和時間神經元

雖然之前的這些結果很有啟發性,但沒任何證據直接表明模型使用了探針學習到的特征。
為解決這個問題,研究人員搜索了具有輸入或輸出權重的單個神經元,這些權重與學習的探測方向具有高余弦相似性。

也就是說,研究人員尋找的神經元,其讀取或寫入的方向與探針學習到的方向相似。

他們發現,將激活數據集投射到最相似神經元的權重上時,這些神經元確實對實體在空間或時間上的真實位置高度敏感。

也就是說,模型中存在個別神經元,它們本身就是具有相當預測能力的特征探針。

此外,這些神經元對數據集中的所有實體類型都很敏感,這就更加表明了,這些表征是統一的。

如果說,在顯式監督下訓練的探針,是模型表示這些空間和時間特征程度的近似上限,那么單個神經元的表現就是下限。

特別是,學者們通常認為特征是疊加分布的,這使得單個神經元的分析水平是錯誤的 。

盡管如此,這些單個神經元的存在(除了下一個token預測之外,它們沒有接受任何監督)依然是強有力的證據,證明模型學習并使用了空間和時間的特征。

奧賽羅GPT證明LLM理解世界,獲吳恩達力贊

啟發MIT研究者最直接的靈感,就是此前對深度學習系統在多大程度上形成數據生成過程的可解釋模型的研究。
而最有力、最清晰的演示,無疑就來自在國際象棋和奧賽羅游戲上訓練的GPT模型了——這些模型對于棋盤和游戲狀態都有明確的表征。

今年2月,來自哈佛大學、麻省理工學院的研究人員共同發表了一項新研究Othello-GPT,在簡單的棋盤游戲中驗證了內部表征的有效性。

他們認為語言模型的內部確實建立了一個世界模型,而不只是單純的記憶或是統計,不過其能力來源還不清楚。

實驗過程非常簡單,在沒有任何奧賽羅規則先驗知識的情況下,研究人員發現模型能夠以非常高的準確率預測出合法的移動操作,捕捉棋盤的狀態。

吳恩達在「來信」欄目中對該研究表示高度認可,他認為基于該研究,有理由相信大型語言模型構建出了足夠復雜的世界模型,在某種程度上來說,確實理解了世界。

4. 棋盤世界模型

如果把棋盤想象成一個簡單的「世界」,并要求模型在對局中不斷決策,就可以初步測試出序列模型是否能夠學習到世界表征。

研究人員選擇一個簡單的黑白棋游戲奧賽羅(Othllo)作為實驗平臺,其規則是——

在8*8棋盤的中心位置,先放入四個棋子,黑白各兩個;然后雙方輪流下子,在直線或斜線方向,己方兩子之間的所有敵子(不能包含空格)全部變為己子(稱為吃子),每次落子必須有吃子;最后棋盤全部占滿,子多者為勝。

相比國際象棋來說,奧賽羅的規則簡單得多;同時棋類游戲的搜索空間足夠大,模型無法通過記憶完成序列生成,所以很適合測試模型的世界表征學習能力。

5. Othello語言模型

研究人員首先訓練了一個GPT變體版語言模型(Othello-GPT),將游戲腳本(玩家做出的一系列棋子移動操作)輸入到模型中,但模型沒有關于游戲及相關規則的先驗知識。
模型也沒有被明確訓練以追求策略提升、贏得對局等,只是在生成合法奧賽羅移動操作時準確率比較高。

6. 數據集

研究人員使用了兩組訓練數據:

錦標賽(Championship)更關注數據質量,主要是從兩個奧賽羅錦標賽中專業的人類玩家采用的、更具戰略思考的移動步驟,但分別只收集到7605個和132921個游戲樣本,兩個數據集合并后以8:2的比例隨機分成訓練集(2000萬個樣本)和驗證集(379.6萬個)。

合成(Synthetic)更關注數據的規模,由隨機的、合法的移動操作組成,數據分布不同于錦標賽數據集,而是均勻地從奧賽羅游戲樹上采樣獲得,其中2000萬個樣本用于訓練,379.6萬個樣本用于驗證。

每場游戲的描述由一串token組成,詞表大小為60(8*8-4)。

7. 模型和訓練

模型的架構為8層GPT模型,具有8個頭,隱藏維度為512。

模型的權重完全隨機初始化,包括word embedding層,雖然表示棋盤位置的詞表內存在幾何關系(如C4低于B4),但這種歸納偏置并沒有明確表示出來,而是留給模型學習。

8. 預測合法移動

模型的主要評估指標就是模型預測的移動操作是否符合奧賽羅的規則。

在合成數據集上訓練的Othello-GPT錯誤率為0.01%,在錦標賽數據集上的錯誤率為5.17%,相比之下,未經訓練的Othello-GPT的錯誤率為93.29%,也就是說這兩個數據集都一定程度上讓模型學會了游戲規則。

一個可能的解釋是,模型記住了奧賽羅游戲的所有移動操作。

為了驗證這個猜想,研究人員合成了一個新的數據集:在每場比賽開始時,奧賽羅有四種可能的開局棋位置(C5、D6、E3和F4),將所有C5開局的走法移除后作為訓練集,再將C5開局的數據作為測試,也就是移除了近1/4的博弈樹,結果發現模型錯誤率仍然只有0.02%。

所以Othello-GPT的高性能并不是因為記憶,因為測試數據是訓練過程中完全沒見過的,那到底是什么讓模型成功預測?

四、探索內部表征

一個常用的神經網絡內部表征探測工具就是探針(probe),每個探針是一個分類器或回歸器,其輸入由網絡的內部激活組成,并經過訓練以預測感興趣的特征。
在這個任務中,為了檢測Othello-GPT的內部激活是否包含當前棋盤狀態的表征,輸入移動序列后,用內部激活向量對下一個移動步驟進行預測。

當使用線性探針時,訓練后的Othello-GPT內部表征只比隨機猜測的準確率高了一點點。

當使用非線性探針(兩層MLP)時,錯誤率大幅下降,證明了棋盤狀態并不是以一種簡單的方式存儲在網絡激活中。

五、干預實驗

為了確定模型預測和涌現世界表征之間的因果關系,即棋盤狀態是否確實影響了網絡的預測結果,研究人員進行了一組干預(intervention)試驗,并測量由此產生的影響程度。
給定來自Othello-GPT的一組激活,用探針預測棋盤狀態,記錄相關聯的移動預測,然后修改激活,讓探針預測更新的棋盤狀態。

干預操作包括將某個位置的棋子從白色變成黑色等,一個小的修改就會導致模型結果發現內部表征能夠可靠地完成預測,即內部表征與模型預測之間存在因果影響。

六、可視化

除了干預實驗驗證內部表征的有效性外,研究人員還將預測結果可視化,比如說對于棋盤上的每個棋子,可以詢問模型如果用干預技術將該棋子改變,模型的預測結果將如何變化,對應預測結果的顯著性。

可以看到,在合成和錦標賽數據集上訓練的Othello-GPTs的top1預測的潛顯著性圖中都展現出了清晰的模式。

總之,從哈佛和MIT的這項研究中可以看出,大語言模型的確理解了世界,無怪乎會得到吳恩達的贊賞了。

GPT-4只是AGI的火花?LLM終將退場,世界模型才是未來。

1. 為什么「世界模型」如此吸引人?

這正是因為,人工智能的終極形態和發展的最終目標——通用人工智能(AGI),一個「能夠理解世界的模型」,而不僅僅是「描述世界的模型」。

1931 年,Kurt G?del發表了不完備性定理。

G?del定理表明,即使是數學也無法最終證明一切——人類始終會有無法證明的事實——而量子理論則說明,研究人員的世界缺乏確定性,使研究人員無法預測某些事件,例如電子的速度和位置。

盡管愛因斯坦曾表達過「上帝不會與宇宙玩骰子」這一著名的觀點,但從本質上講,僅僅在預測或理解物理中的事物時,人類的局限性就已經體現得淋漓盡致。

在「How We Learn」一書中,學者Stanislas Dehaene將學習定義為 「形成世界模型的過程」。

2016年,AlphaGo在圍棋比賽中以 4 比 1 的大比分擊敗世界冠軍李世石。

然而,它缺乏人類那種識別不常見戰術,并做出相應調整的能力。因此,它僅僅是一種弱人工智能。

而研究人員所需的AGI,是一個與經驗一致且能做到準確預測的世界模型。

4月13日,OpenAI的合作伙伴微軟發布了一篇論文「Sparks of Artificial General Intelligence:Early experiments with GPT-4」(通用人工智能的火花:GPT-4的早期實驗)。

2. 其中提到

GPT-4不僅掌握了語言,還能解決涵蓋數學、編碼、視覺、醫學、法律、心理學等領域的前沿任務,且不需要人為增加任何的特殊提示。

并且在所有上述任務中,GPT-4的性能水平都幾乎與人類水平相當?;贕PT-4功能的廣度和深度,研究人員相信它可以合理地被視為通用人工智能的近乎但不完全的版本。

然而,就如同諸多專家所批評的,錯誤地將性能等同于能力,意味著GPT-4生成的是對世界的摘要性描述認為是對真實世界的理解。

現在的大多數模型僅接受文本訓練,不具備在現實世界中說話、聽聲、嗅聞以及生活行動的能力。

就仿佛柏拉圖的洞穴寓言,生活在洞穴中的人只能看到墻上的影子,而不能認識到事物的真實存在。

而無論是哈佛和MIT 2月的研究,還是今天的這篇論文,都指出了大語言模型的確在一定程度上能夠理解世界,而并不僅僅是保證自己在語法上的正確。

僅僅是這些可能性,已經足夠令人振奮。

編輯:編輯部

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!