OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經元全被看透
最近,OpenAI發布了令人震驚的新發現,即GPT-4已經可以解釋GPT-2的行為。這樣看來,難道AI的“可解釋性”真的被AI自己破解了?大語言模型的黑箱問題,真的可以被解答嗎?不妨來看看本文的解讀。
OpenAI發布了震驚的新發現:GPT-4,已經可以解釋GPT-2的行為!
大語言模型的黑箱問題,是一直困擾著人類研究者的難題。
模型內部究竟是怎樣的原理?模型為什么會做出這樣那樣的反應?LLM的哪些部分,究竟負責哪些行為?這些都讓他們百思不得其解。
萬萬沒想到,AI的「可解釋性」,竟然被AI自己破解了?
網友驚呼,現在AI能理解AI,用不了多久,AI就能創造出新的AI了。
就是說,搞快點,趕緊快進到天網吧。
一、GPT-4破解GPT-2黑箱之謎
剛剛,OpenAI在官網發布了的博文《語言模型可以解釋語言模型中的神經元》(Language models can explain neurons in language models),震驚了全網。
論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro
只要調用GPT-4,就能計算出其他架構更簡單的語言模型上神經元的行為。
GPT-2,就這樣被明明白白地解釋了。
要想研究大模型的「可解釋性」,一個方法是了解單個神經元的具體含義。這就需要人類手動檢測神經元,但是,神經網絡中有數百億或數千億個神經元。
OpenAI的思路是,對這個過程進行自動化改造,讓GPT-4對神經元的行為進行自然語言解釋,然后把這個過程應用到GPT-2中。
這何以成為可能?首先,我們需要「解剖」一下LLM。
像大腦一樣,它們由「神經元」組成,它們會觀察文本中的某些特定模式,這就會決定整個模型接下來要說什么。
比如,如果給出這么一個prompt,「哪些漫威超級英雄擁有最有用的超能力?」 「漫威超級英雄神經元」可能就會增加模型命名漫威電影中特定超級英雄的概率。
OpenAI的工具就是利用這種設定,把模型分解為單獨的部分。
第一步:使用GPT-4生成解釋
首先,找一個GPT-2的神經元,并向GPT-4展示相關的文本序列和激活。
然后,讓GPT-4根據這些行為,生成一個可能的解釋。
比如,在下面的例子中GPT-4就認為,這個神經元與電影、人物和娛樂有關。
第二步:使用GPT-4進行模擬
接著,讓GPT-4根據自己生成的解釋,模擬以此激活的神經元會做什么。
第三步:對比打分
最后,將模擬神經元(GPT-4)的行為與實際神經元(GPT-2)的行為進行比較,看看GPT-4究竟猜得有多準。
還有局限
通過評分,OpenAI的研究者衡量了這項技術在神經網絡的不同部分都是怎樣的效果。對于較大的模型,這項技術的解釋效果就不佳,可能是因為后面的層更難解釋。
目前,絕大多數解釋評分都很低,但研究者也發現,可以通過迭代解釋、使用更大的模型、更改所解釋模型的體系結構等方法,來提高分數。
現在,OpenAI正在開源「用GPT-4來解釋GPT-2中全部307,200個神經元」結果的數據集和可視化工具,也通過OpenAI API公開了市面上現有模型的解釋和評分的代碼,并且呼吁學界開發出更好的技術,產生得分更高的解釋。
此外,團隊還發現,越大的模型,解釋的一致率也越高。其中,GPT-4最接近人類,但依然有不小的差距。
以下是不同層神經元被激活的例子,可以看到,層數越高,就越抽象。
二、把AI的對齊問題,交給AI
這項研究,對于OpenAI的「對齊」大業,意義重大。
在2022年夏天,OpenAI就曾發布博文「Our approach to alignment research」,在那篇文章中,OpenAI就曾做出預測:對齊將由三大支柱支撐。
- 利用人工反饋訓練 AI
- 訓練AI系統協助人類評估
- 訓練AI系統進行對齊研究
在前不久,萬名大佬聯名簽署公開信,要求在六個月內暫停訓練比GPT-4更強大的AI。
Sam Altman在一天之后,做出的回應是:構建更好的通用人工智能,就需要有對齊超級智能的技術能力。
究竟怎樣讓AI「與設計者的意圖對齊」,讓AGI惠及全人類?
今天的這項研究,無疑讓OpenAI離目標更邁進了一步。
Sam Altman轉發:GPT-4對GPT-2做了一些可解釋性工作
OpenAI的對齊團隊負責人也表示,這是一個新的方向,可以讓我們同時獲得:
- 詳細理解模型到單個神經元的層
- 運行整個模型,這樣我們就不會錯過任何重要的東西
令人興奮的是,這給了我們一種衡量神經元解釋好壞的方法:我們模擬人類如何預測未來的模式,并將此與實際的模式進行比較。
目前這種衡量方式并不準確,但隨著LLM的改進,它會變得更好。
雖然現在還處于初期階段,但已經展現了一些有趣的趨勢:
- 后期的層比早期的更難解釋
- 簡單的預訓練干預可以提高神經元的可解釋性
- 簡單的技巧,如迭代細化,可以改進解釋
OpenAI可解釋性團隊負責人William Saunders也表示,團隊希望開發出一種方法,來預測AI系統會出現什么問題?!肝覀兿M苷嬲屵@些模型的行為和生產的回答可以被信任。」
三、有趣的神經元
在這個項目中,研究者還發現了許多有趣的神經元。
GPT-4為一些神經元做出了解釋,比如「比喻」神經元、與確定性和信心有關的短語的神經元,以及做對事情的神經元。
這些有趣的神經元是怎么發現的?策略就是,找到那些token空間解釋很差的神經元。
就這樣,背景神經元被發現了,也就是在某些語境中密集激活的神經元,和許多在文檔開頭的特定單詞上激活的神經元。
另外,通過尋找在上下文被截斷時以不同方式激活的上下文敏感神經元,研究者發現了一個模式破壞神經元,它會對正在進行的列表中打破既定模式的token進行激活(如下圖所示)。
研究者還發現了一個后typo神經元,它經常在奇怪或截斷的詞之后激活。
還有某些神經元,似乎會在與特定的下一個token匹配時被激活。
比如,當下一個標記可能是「from」時,一個神經元會被激活。
這是怎么回事?起初研究者猜測,這些神經元可能是根據其他信號對下一個token進行預測。然而,其中一些神經元并不符合這種說法。
目前,研究者還沒有進行足夠的調查,但有可能許多神經元編碼了以特定輸入為條件的輸出分布的特定微妙變化,而不是執行其激活所提示的明顯功能。
總的來說,這些神經元給人的主觀感覺是,更有能力的模型的神經元往往更有趣。
毫不意外地,網友們又炸了。
咱就是說,OpenAI,你搞慢點行不?
在評論區,有人祭出這樣一張梗圖。
這就是傳說中的「存在主義風險神經元」吧,只要把它關掉,你就安全了(Doge)。
ChatGPT從互聯網中學習,現在它正在創造更多的互聯網。很快,它就會自我反哺,真正的天網就要來臨。
聽說GPT-5已經達到奇點,并且它正在與地外生命談判和平條約。
有網友惡搞了一個關于「Yudkowsky」的解釋,他一直是「AI將殺死所有人」陣營的主要聲音之一。
之前「暫停AI訓練」公開信在網上炒得沸沸揚揚時,他就曾表示:「暫停AI開發是不夠的,我們需要把AI全部關閉!如果繼續下去,我們每個人都會死?!?/p>
他知道我們在計劃什么
我們必須不惜一切代價讓他喪失信譽
一旦他走了,就沒有人能夠反對我們了
「Eliezer Yudkowsky看到這一幕,一定又笑又哭——讓我們使用自己不能信任的技術來告訴我們,它是如何工作的,并且它是對齊的?!?/p>
現在,人類反饋強化學習(RLHF)是主場,當AI懂了AI,將會在微調模型上開辟一個新紀元:
人工智能反饋的神經元過濾器(NFAIF)
參考資料:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/
作者:新智元;編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!