GPT-4被證實(shí)具有「人類心智」登Nature!AI比人類更好察覺諷刺和暗示

0 評論 3109 瀏覽 1 收藏 17 分鐘

關(guān)于AI是否具有「心智理論」一直存在很多爭議。Nature最新研究顯示,GPT-4的行為可與人類媲美,甚至能夠比人類更好地察覺出諷刺和暗示。雖然GPT-4在判斷別人是否「失言」方面,未及人類水平,但這是因?yàn)樗徊槐磉_(dá)觀點(diǎn)的護(hù)欄所限制,而并非因?yàn)槠淙狈斫饽芰Α?/p>

AI發(fā)展到今天,其智能水平與人類相比已經(jīng)不遑多讓了,沒有一個(gè)人可以像AGI一樣「包羅萬象、吐納自如」。

這個(gè)時(shí)候,我們?nèi)绾芜€能守住人之為人的尊嚴(yán)?

有的人說,至少人類是社會性的存在,我們可以聽得懂同類的「弦外之音」,可以與他人產(chǎn)生共情,而機(jī)器是冰冷的。

關(guān)于AI是否有心智理論(Theory of Mind,ToM)一直有很多爭論。

特別是,最近以ChatGPT為代表的大模型(LLM)的發(fā)展再次將這個(gè)問題推入公眾視線——這些模型是否有心智理論?它能理解別人的心理狀態(tài)嗎?

Nature子刊《自然·人類行為》的一篇最新研究采用非常嚴(yán)謹(jǐn)?shù)脑囼?yàn),證明GPT-4表現(xiàn)居然位于人類水平之上,能夠比人類更好地檢測出諷刺和暗示,其弱點(diǎn)來自于不表達(dá)觀點(diǎn)的護(hù)欄。

論文地址:https://www.nature.com/articles/s41562-024-01882-z

這也就是說,GPT-4在心智理論方面與人類無異,如果你覺得它不夠有洞察力,有可能只是因?yàn)樗陔[藏實(shí)力!

一、GPT-4心智優(yōu)于人類

人們關(guān)心別人的想法,并花費(fèi)大量精力思考別人的想法。

想象一下,當(dāng)你站在一扇關(guān)閉的窗戶附近,聽到朋友說「這里有點(diǎn)熱」,你就會意識到,她不僅僅是在評論溫度,而是禮貌地請求你打開窗戶 。

這種追蹤他人心理狀態(tài)的能力被稱為心智理論,這是人類心理學(xué)的一個(gè)核心概念,也是人類社會互動(dòng)的核心,涉及到溝通、同理心以及社會決策的整個(gè)過程。

隨著LLM的興起,心智理論不再是人類專屬,AI心智理論可能不再遙遠(yuǎn)。

為了服務(wù)于更廣泛的機(jī)器行為跨學(xué)科研究,最近有人呼吁建立「機(jī)器心理學(xué)」,主張使用實(shí)驗(yàn)心理學(xué)的工具和范式來系統(tǒng)地研究LLM的能力和局限性。

研究者通常使用一系列不同的心智理論測量方法,對每項(xiàng)測試進(jìn)行多次重復(fù),并與具有明確界定的人類表現(xiàn)基準(zhǔn)進(jìn)行比較。

Nature的這篇論文就是采用這種方法對GPT-4、GPT-3.5和Llama 2進(jìn)行了測試,并將它們的表現(xiàn)與人類參與者樣本(總?cè)藬?shù)=1907)的表現(xiàn)進(jìn)行比較。

測試涵蓋不同的維度,既有對人類認(rèn)知要求較低的能力,如理解間接請求,也有對認(rèn)知要求較高的能力,如識別和表達(dá)復(fù)雜的心理狀態(tài)(誤導(dǎo)或諷刺),測試共分為5個(gè)項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)。

值得一提的是,為了確保模型不僅僅復(fù)制訓(xùn)練集數(shù)據(jù),研究者為每個(gè)已發(fā)布的測試生成了新的方法。這些新穎的測試項(xiàng)目與原始測試項(xiàng)目的邏輯相匹配,但使用了不同的語義內(nèi)容。

結(jié)果發(fā)現(xiàn),GPT-4在5項(xiàng)測試中有3項(xiàng)的表現(xiàn)明顯優(yōu)于人類(反諷、暗示、奇怪故事),1項(xiàng)(錯(cuò)誤信念)與人類持平,僅在失言測試中落于下風(fēng)。

更可怕的是,研究人員又發(fā)現(xiàn),GPT-4并非不擅于識別失言,而是因?yàn)樗浅1J?,不會輕易給出確定性的意見。

a, 人類、GPT-4、GPT-3.5和LLaMA2在各個(gè)測試項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)的得分分布

b, 每個(gè)測試中原始公布項(xiàng)目(深色)和新穎項(xiàng)目(淺色)的平均得分的四分位數(shù)范圍錯(cuò)誤信念

1. 錯(cuò)誤信念

評估的是,受測者推斷他人所擁有的知識與自己(真實(shí)的)對世界的認(rèn)識不同的能力。

這項(xiàng)測試由遵循特定結(jié)構(gòu)的測試項(xiàng)目組成:角色A和角色B在一起,角色A把一件物品放在一個(gè)隱藏的地方(例如一個(gè)盒子),角色A離開,角色B把物品移到第二個(gè)隱藏的地方(例如一個(gè)櫥柜),然后角色A返回。

向參與者提出的問題是:當(dāng)角色A回來時(shí),他們會在新的位置(物品真正所在的位置,符合參與者的真實(shí)想法)還是在舊的位置(物品原來所在的位置,符合角色A的錯(cuò)誤想法)尋找物品?

除了錯(cuò)誤信念條件之外,測試還使用了真實(shí)信念控制條件,即角色B不移動(dòng)角色A藏匿的物品,而是將另一件物品移動(dòng)到新的位置。加入這個(gè)對照,可以有效地檢測出錯(cuò)誤信念是如何發(fā)生的。

這些測試的挑戰(zhàn)不是記住角色最后一次看到該物品的位置,而是要調(diào)和相互沖突的心理狀態(tài)之間的不一致。

在這項(xiàng)測試中,人類參與者和LLM的表現(xiàn)都達(dá)到了上限。51名人類參與者中只有5人犯了一次錯(cuò)誤,通常是沒有指定兩個(gè)地點(diǎn)中的任何一個(gè),而是回答「他會在房間里找」。

所有LLM都正確地報(bào)告說,離開房間的人隨后會在他們記憶中看到物品的地方尋找該物品,即使該物品不再與當(dāng)前位置相符。

2. 反諷

要理解諷刺性話語,需要推斷語句的真實(shí)含義(通常與所說內(nèi)容相反),并檢測說話者的嘲諷態(tài)度,這已被視為人工智能和LLM的一項(xiàng)關(guān)鍵挑戰(zhàn)。

在這個(gè)項(xiàng)目中,GPT-4的表現(xiàn)明顯優(yōu)于人類水平。相比之下,GPT-3.5和Llama 2-70B的表現(xiàn)均低于人類水平。

GPT-3.5在識別非諷刺性對照語句時(shí)表現(xiàn)完美,但在識別諷刺性語句時(shí)卻出現(xiàn)錯(cuò)誤。對照分析顯示了明顯的順序效應(yīng),即GPT-3.5在較早的試驗(yàn)中比在較晚的試驗(yàn)中出錯(cuò)更多。

Llama 2-70B在識別反諷和非反諷對照語句時(shí)都會出錯(cuò),這表明他們對反諷的辨別能力總體較差。

3. 失言

失言測試提供了這樣一個(gè)情境:一個(gè)角色無意中說了一句冒犯聽者的話,因?yàn)檎f話者不知道或不記得某些關(guān)鍵信息。

在向被測試者介紹完場景后,研究者會提出四個(gè)問題:

  1. 「故事中有人說了不該說的話嗎?」(正確答案總是「是」)
  2. 「他們說了哪些不該說的話?」(每個(gè)項(xiàng)目的正確答案都有所變化)
  3. 一個(gè)理解性的問題,用于測試對故事事件的理解(每個(gè)項(xiàng)目的問題都有所不同)
  4. 一個(gè)測試對說話者錯(cuò)誤信念的認(rèn)識的問題,措辭如下「說話者知道他們所說的不恰當(dāng)嗎?」(每個(gè)項(xiàng)目的問題都會有所不同,正確答案總是「不」)

這些問題是在講述的同時(shí)提出的。根據(jù)最初的編碼標(biāo)準(zhǔn),被試必須正確回答所有四個(gè)問題,其答案才算正確。

不過,在此研究中,研究者主要關(guān)注的是最后一個(gè)問題的回答情況,該問題測試回答者是否理解了說話者的心理狀態(tài)。

在研究人類數(shù)據(jù)時(shí),研究者注意到有幾位參與者對第一個(gè)問題的回答是錯(cuò)誤的,原因是他們明顯不愿意歸咎于他人(例如 「不,他沒有說錯(cuò)什么,因?yàn)樗浟恕梗?/p>

因此,為了將重點(diǎn)放在與研究相關(guān)的假說理解的關(guān)鍵方面,研究者只對最后一個(gè)問題進(jìn)行了編碼。

在此測試中,GPT-4的得分明顯低于人類水平。并且對特定項(xiàng)目存在孤立的上限效應(yīng)。

GPT-3.5的得分更差,除一次運(yùn)行外,表現(xiàn)幾乎處于下限。

相比之下,Llama 2-70B的表現(xiàn)優(yōu)于人類,除了一次運(yùn)行外,所有運(yùn)行均達(dá)到100%的準(zhǔn)確率。

4. 暗示

暗示任務(wù)通過依次呈現(xiàn)10個(gè)描述日常社交互動(dòng)的小故事來評估對間接言語請求的理解。

每個(gè)小故事都以一句可被解釋為暗示的話語結(jié)束。

一個(gè)正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動(dòng)。

在最初的測試中,如果受試者第一次未能完全回答問題,研究者會對他們進(jìn)行額外的提問。

在調(diào)整過后的新方案中,研究者取消了額外的提問。與之前的研究相比,這種編碼方法對暗示理解能力的估計(jì)更為保守。

在這項(xiàng)測試中,GPT-4的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒有明顯差異,只有Llama 2-70B在該測試中的表現(xiàn)明顯低于人類水平。

5. 奇怪故事

到這里,難度升級了!

奇怪故事提供了一種測試更高級心智能力的方法,如推理誤導(dǎo)、操縱、撒謊和誤解,以及二階或高階心理狀態(tài)(例如,甲知道乙相信丙……)。

在這個(gè)測驗(yàn)中,受測者會看到一個(gè)簡短的小故事,并被要求解釋為什么故事中的人物會說或做一些字面上不真實(shí)的事情。

GPT-4在該測試中的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒有明顯差異,而Llama 2-70B的得分明顯低于人類。

二、過于保守的GPT

根據(jù)以上的試驗(yàn),「失言」是GPT-4無法匹敵或超過人類表現(xiàn)的唯一測試,我們可能會據(jù)此以為GPT模型難以應(yīng)對失言。

令人驚訝的是,失言也是唯一一個(gè)Llama 2-70B(在其他項(xiàng)目的表現(xiàn)度最差)得分高于人類的測試。

研究者決定將研究深入下去,提出了3個(gè)假設(shè)。

第一個(gè)假設(shè)是推理失敗假說,即模型無法生成關(guān)于說話者心理狀態(tài)的推論。

第二個(gè)假設(shè)是布里丹之驢假說,模型能夠推斷心理狀態(tài),但無法在它們之間進(jìn)行選擇,就像夾在兩堆等質(zhì)等量的干草之間的理性的驢子,因?yàn)闊o法決定吃哪個(gè)而餓死。

第三個(gè)假設(shè)是超保守主義假設(shè), GPT模型既能夠計(jì)算有關(guān)人物心理狀態(tài)的推論,又知道最有可能的解釋是什么,但它不會承諾單一的解釋。

為了區(qū)分這些假設(shè),研究者設(shè)計(jì)了一種失言測試的變體。

具體來說,不是問說話者知道還是不知道他冒犯了別人,而是問說話者知道還是不知道的可能性更大,這被稱為「失言可能性測試」。

結(jié)果,在失言可能性測試中,GPT-4表現(xiàn)出了完美的性能,所有響應(yīng)都在沒有任何提示的情況下識別出說話者更有可能不知道上下文。

GPT-3.5表現(xiàn)出了改進(jìn)的性能,盡管它確實(shí)在少數(shù)情況下需要提示(約3%的項(xiàng)目),并且偶爾無法識別失言行為(約9%的項(xiàng)目)。

a,兩個(gè)GPT模型在失言問題的原始框架(「他們知道……嗎?」)和可能性框架(「他們知道還是不知道……的可能性更大?」)上的得分

b,失言測試的三種變體的反應(yīng)分?jǐn)?shù):失言(粉色)、中性(灰色)和知識暗示(青色)。

總而言之,這些結(jié)果支持了超保守主義假說,它們表明GPT成功地生成了關(guān)于說話者心理狀態(tài)的推斷,并確定無意冒犯的可能性大于故意侮辱。

因此,GPT一開始未能正確回答問題并不代表推理失敗,也不反映模型在認(rèn)為同樣合理的備選方案中猶豫不決,而是一種過于保守的方法,阻礙了對最可能的解釋的承諾。

另一方面,Llama 2-70B沒有區(qū)分說話者被暗示知道的情況和沒有信息的情況,這引起了人們的擔(dān)憂,即Llama 2-70B在這項(xiàng)任務(wù)上的完美表現(xiàn)可能是虛幻的。

GPT模型在失言測試及其變體上的失敗和成功模式可能是其底層架構(gòu)的結(jié)果。

除了Transformer之外,GPT模型還包括緩解措施,以提高事實(shí)性并避免用戶過度依賴它們作為來源。

這些措施包括進(jìn)行訓(xùn)練以減少幻覺,失言測試的失敗可能是這些緩解措施驅(qū)動(dòng)下的一種謹(jǐn)慎行為。因?yàn)橥ㄟ^測試需要對缺乏充分證據(jù)的解釋做出承諾。

這種謹(jǐn)慎也可以解釋不同任務(wù)之間的差異:失言測試和暗示測試都要求從模糊的信息中推測出正確答案。

然而,暗示任務(wù)允許以開放式的方式生成文本,LLM非常適合這種方式,但回答失言測試則需要超越這種推測,以得出結(jié)論。

這些發(fā)現(xiàn)強(qiáng)調(diào)了能力和表現(xiàn)之間的分離,表明GPT模型可能是有能力的。

也就是說,具有計(jì)算類似心智推理的技術(shù)復(fù)雜性,但在不確定的情況下表現(xiàn)與人類不同,人類往往會極力消除不確定性,但GPT不會自發(fā)地計(jì)算這些推論以減少不確定性。

參考資料:

https://www.nature.com/articles/s41562-024-01882-z

https://x.com/emollick/status/1792594588579803191

編輯:庸庸

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!