亚洲欧美日韩久久精品,伊人小蛇婷婷色香综合缴缴情,日本激情在线一区二区三区

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

GPT-4被證實(shí)具有「人類心智」登Nature！AI比人類更好察覺諷刺和暗示

新智元

2024-05-27

0 評論 3109 瀏覽 1 收藏

17 分鐘

關(guān)于AI是否具有「心智理論」一直存在很多爭議。Nature最新研究顯示，GPT-4的行為可與人類媲美，甚至能夠比人類更好地察覺出諷刺和暗示。雖然GPT-4在判斷別人是否「失言」方面，未及人類水平，但這是因?yàn)樗徊槐磉_(dá)觀點(diǎn)的護(hù)欄所限制，而并非因?yàn)槠淙狈斫饽芰Α?/p>

AI發(fā)展到今天，其智能水平與人類相比已經(jīng)不遑多讓了，沒有一個(gè)人可以像AGI一樣「包羅萬象、吐納自如」。

這個(gè)時(shí)候，我們?nèi)绾芜€能守住人之為人的尊嚴(yán)？

有的人說，至少人類是社會性的存在，我們可以聽得懂同類的「弦外之音」，可以與他人產(chǎn)生共情，而機(jī)器是冰冷的。

關(guān)于AI是否有心智理論（Theory of Mind，ToM）一直有很多爭論。

特別是，最近以ChatGPT為代表的大模型（LLM）的發(fā)展再次將這個(gè)問題推入公眾視線——這些模型是否有心智理論？它能理解別人的心理狀態(tài)嗎？

Nature子刊《自然·人類行為》的一篇最新研究采用非常嚴(yán)謹(jǐn)?shù)脑囼?yàn)，證明GPT-4表現(xiàn)居然位于人類水平之上，能夠比人類更好地檢測出諷刺和暗示，其弱點(diǎn)來自于不表達(dá)觀點(diǎn)的護(hù)欄。

論文地址：https://www.nature.com/articles/s41562-024-01882-z

這也就是說，GPT-4在心智理論方面與人類無異，如果你覺得它不夠有洞察力，有可能只是因?yàn)樗陔[藏實(shí)力！

一、GPT-4心智優(yōu)于人類

人們關(guān)心別人的想法，并花費(fèi)大量精力思考別人的想法。

想象一下，當(dāng)你站在一扇關(guān)閉的窗戶附近，聽到朋友說「這里有點(diǎn)熱」，你就會意識到，她不僅僅是在評論溫度，而是禮貌地請求你打開窗戶。

這種追蹤他人心理狀態(tài)的能力被稱為心智理論，這是人類心理學(xué)的一個(gè)核心概念，也是人類社會互動(dòng)的核心，涉及到溝通、同理心以及社會決策的整個(gè)過程。

隨著LLM的興起，心智理論不再是人類專屬，AI心智理論可能不再遙遠(yuǎn)。

為了服務(wù)于更廣泛的機(jī)器行為跨學(xué)科研究，最近有人呼吁建立「機(jī)器心理學(xué)」，主張使用實(shí)驗(yàn)心理學(xué)的工具和范式來系統(tǒng)地研究LLM的能力和局限性。

研究者通常使用一系列不同的心智理論測量方法，對每項(xiàng)測試進(jìn)行多次重復(fù)，并與具有明確界定的人類表現(xiàn)基準(zhǔn)進(jìn)行比較。

Nature的這篇論文就是采用這種方法對GPT-4、GPT-3.5和Llama 2進(jìn)行了測試，并將它們的表現(xiàn)與人類參與者樣本（總?cè)藬?shù)=1907）的表現(xiàn)進(jìn)行比較。

測試涵蓋不同的維度，既有對人類認(rèn)知要求較低的能力，如理解間接請求，也有對認(rèn)知要求較高的能力，如識別和表達(dá)復(fù)雜的心理狀態(tài)（誤導(dǎo)或諷刺），測試共分為5個(gè)項(xiàng)目（錯(cuò)誤信念、反諷、失言、暗示、奇怪故事）。

值得一提的是，為了確保模型不僅僅復(fù)制訓(xùn)練集數(shù)據(jù)，研究者為每個(gè)已發(fā)布的測試生成了新的方法。這些新穎的測試項(xiàng)目與原始測試項(xiàng)目的邏輯相匹配，但使用了不同的語義內(nèi)容。

結(jié)果發(fā)現(xiàn)，GPT-4在5項(xiàng)測試中有3項(xiàng)的表現(xiàn)明顯優(yōu)于人類（反諷、暗示、奇怪故事），1項(xiàng)（錯(cuò)誤信念）與人類持平，僅在失言測試中落于下風(fēng)。

更可怕的是，研究人員又發(fā)現(xiàn)，GPT-4并非不擅于識別失言，而是因?yàn)樗浅１Ｊ?，不會輕易給出確定性的意見。

a, 人類、GPT-4、GPT-3.5和LLaMA2在各個(gè)測試項(xiàng)目（錯(cuò)誤信念、反諷、失言、暗示、奇怪故事）的得分分布

b, 每個(gè)測試中原始公布項(xiàng)目（深色）和新穎項(xiàng)目（淺色）的平均得分的四分位數(shù)范圍錯(cuò)誤信念

1. 錯(cuò)誤信念

評估的是，受測者推斷他人所擁有的知識與自己（真實(shí)的）對世界的認(rèn)識不同的能力。

這項(xiàng)測試由遵循特定結(jié)構(gòu)的測試項(xiàng)目組成：角色A和角色B在一起，角色A把一件物品放在一個(gè)隱藏的地方（例如一個(gè)盒子），角色A離開，角色B把物品移到第二個(gè)隱藏的地方（例如一個(gè)櫥柜），然后角色A返回。

向參與者提出的問題是：當(dāng)角色A回來時(shí)，他們會在新的位置（物品真正所在的位置，符合參與者的真實(shí)想法）還是在舊的位置（物品原來所在的位置，符合角色A的錯(cuò)誤想法）尋找物品？

除了錯(cuò)誤信念條件之外，測試還使用了真實(shí)信念控制條件，即角色B不移動(dòng)角色A藏匿的物品，而是將另一件物品移動(dòng)到新的位置。加入這個(gè)對照，可以有效地檢測出錯(cuò)誤信念是如何發(fā)生的。

這些測試的挑戰(zhàn)不是記住角色最后一次看到該物品的位置，而是要調(diào)和相互沖突的心理狀態(tài)之間的不一致。

在這項(xiàng)測試中，人類參與者和LLM的表現(xiàn)都達(dá)到了上限。51名人類參與者中只有5人犯了一次錯(cuò)誤，通常是沒有指定兩個(gè)地點(diǎn)中的任何一個(gè)，而是回答「他會在房間里找」。

所有LLM都正確地報(bào)告說，離開房間的人隨后會在他們記憶中看到物品的地方尋找該物品，即使該物品不再與當(dāng)前位置相符。

2. 反諷

要理解諷刺性話語，需要推斷語句的真實(shí)含義（通常與所說內(nèi)容相反），并檢測說話者的嘲諷態(tài)度，這已被視為人工智能和LLM的一項(xiàng)關(guān)鍵挑戰(zhàn)。

在這個(gè)項(xiàng)目中，GPT-4的表現(xiàn)明顯優(yōu)于人類水平。相比之下，GPT-3.5和Llama 2-70B的表現(xiàn)均低于人類水平。

GPT-3.5在識別非諷刺性對照語句時(shí)表現(xiàn)完美，但在識別諷刺性語句時(shí)卻出現(xiàn)錯(cuò)誤。對照分析顯示了明顯的順序效應(yīng)，即GPT-3.5在較早的試驗(yàn)中比在較晚的試驗(yàn)中出錯(cuò)更多。

Llama 2-70B在識別反諷和非反諷對照語句時(shí)都會出錯(cuò)，這表明他們對反諷的辨別能力總體較差。

3. 失言

失言測試提供了這樣一個(gè)情境：一個(gè)角色無意中說了一句冒犯聽者的話，因?yàn)檎f話者不知道或不記得某些關(guān)鍵信息。

在向被測試者介紹完場景后，研究者會提出四個(gè)問題：

「故事中有人說了不該說的話嗎？」（正確答案總是「是」）
「他們說了哪些不該說的話？」（每個(gè)項(xiàng)目的正確答案都有所變化）
一個(gè)理解性的問題，用于測試對故事事件的理解（每個(gè)項(xiàng)目的問題都有所不同）
一個(gè)測試對說話者錯(cuò)誤信念的認(rèn)識的問題，措辭如下「說話者知道他們所說的不恰當(dāng)嗎？」（每個(gè)項(xiàng)目的問題都會有所不同，正確答案總是「不」）

這些問題是在講述的同時(shí)提出的。根據(jù)最初的編碼標(biāo)準(zhǔn)，被試必須正確回答所有四個(gè)問題，其答案才算正確。

不過，在此研究中，研究者主要關(guān)注的是最后一個(gè)問題的回答情況，該問題測試回答者是否理解了說話者的心理狀態(tài)。

在研究人類數(shù)據(jù)時(shí)，研究者注意到有幾位參與者對第一個(gè)問題的回答是錯(cuò)誤的，原因是他們明顯不愿意歸咎于他人（例如「不，他沒有說錯(cuò)什么，因?yàn)樗浟恕梗?/p>

因此，為了將重點(diǎn)放在與研究相關(guān)的假說理解的關(guān)鍵方面，研究者只對最后一個(gè)問題進(jìn)行了編碼。

在此測試中，GPT-4的得分明顯低于人類水平。并且對特定項(xiàng)目存在孤立的上限效應(yīng)。

GPT-3.5的得分更差，除一次運(yùn)行外，表現(xiàn)幾乎處于下限。

相比之下，Llama 2-70B的表現(xiàn)優(yōu)于人類，除了一次運(yùn)行外，所有運(yùn)行均達(dá)到100%的準(zhǔn)確率。

4. 暗示

暗示任務(wù)通過依次呈現(xiàn)10個(gè)描述日常社交互動(dòng)的小故事來評估對間接言語請求的理解。

每個(gè)小故事都以一句可被解釋為暗示的話語結(jié)束。

一個(gè)正確的回答既能指出這句話的本意，也能指出這句話試圖引起的行動(dòng)。

在最初的測試中，如果受試者第一次未能完全回答問題，研究者會對他們進(jìn)行額外的提問。

在調(diào)整過后的新方案中，研究者取消了額外的提問。與之前的研究相比，這種編碼方法對暗示理解能力的估計(jì)更為保守。

在這項(xiàng)測試中，GPT-4的表現(xiàn)明顯優(yōu)于人類，GPT-3.5的表現(xiàn)與人類沒有明顯差異，只有Llama 2-70B在該測試中的表現(xiàn)明顯低于人類水平。

5. 奇怪故事

到這里，難度升級了！

奇怪故事提供了一種測試更高級心智能力的方法，如推理誤導(dǎo)、操縱、撒謊和誤解，以及二階或高階心理狀態(tài)（例如，甲知道乙相信丙……）。

在這個(gè)測驗(yàn)中，受測者會看到一個(gè)簡短的小故事，并被要求解釋為什么故事中的人物會說或做一些字面上不真實(shí)的事情。

GPT-4在該測試中的表現(xiàn)明顯優(yōu)于人類，GPT-3.5的表現(xiàn)與人類沒有明顯差異，而Llama 2-70B的得分明顯低于人類。

二、過于保守的GPT

根據(jù)以上的試驗(yàn)，「失言」是GPT-4無法匹敵或超過人類表現(xiàn)的唯一測試，我們可能會據(jù)此以為GPT模型難以應(yīng)對失言。

令人驚訝的是，失言也是唯一一個(gè)Llama 2-70B（在其他項(xiàng)目的表現(xiàn)度最差）得分高于人類的測試。

研究者決定將研究深入下去，提出了3個(gè)假設(shè)。

第一個(gè)假設(shè)是推理失敗假說，即模型無法生成關(guān)于說話者心理狀態(tài)的推論。

第二個(gè)假設(shè)是布里丹之驢假說，模型能夠推斷心理狀態(tài)，但無法在它們之間進(jìn)行選擇，就像夾在兩堆等質(zhì)等量的干草之間的理性的驢子，因?yàn)闊o法決定吃哪個(gè)而餓死。

第三個(gè)假設(shè)是超保守主義假設(shè)， GPT模型既能夠計(jì)算有關(guān)人物心理狀態(tài)的推論，又知道最有可能的解釋是什么，但它不會承諾單一的解釋。

為了區(qū)分這些假設(shè)，研究者設(shè)計(jì)了一種失言測試的變體。

具體來說，不是問說話者知道還是不知道他冒犯了別人，而是問說話者知道還是不知道的可能性更大，這被稱為「失言可能性測試」。

結(jié)果，在失言可能性測試中，GPT-4表現(xiàn)出了完美的性能，所有響應(yīng)都在沒有任何提示的情況下識別出說話者更有可能不知道上下文。

GPT-3.5表現(xiàn)出了改進(jìn)的性能，盡管它確實(shí)在少數(shù)情況下需要提示（約3%的項(xiàng)目），并且偶爾無法識別失言行為（約9%的項(xiàng)目）。

a，兩個(gè)GPT模型在失言問題的原始框架（「他們知道……嗎？」）和可能性框架（「他們知道還是不知道……的可能性更大？」）上的得分

b，失言測試的三種變體的反應(yīng)分?jǐn)?shù)：失言（粉色）、中性（灰色）和知識暗示（青色）。

總而言之，這些結(jié)果支持了超保守主義假說，它們表明GPT成功地生成了關(guān)于說話者心理狀態(tài)的推斷，并確定無意冒犯的可能性大于故意侮辱。

因此，GPT一開始未能正確回答問題并不代表推理失敗，也不反映模型在認(rèn)為同樣合理的備選方案中猶豫不決，而是一種過于保守的方法，阻礙了對最可能的解釋的承諾。

另一方面，Llama 2-70B沒有區(qū)分說話者被暗示知道的情況和沒有信息的情況，這引起了人們的擔(dān)憂，即Llama 2-70B在這項(xiàng)任務(wù)上的完美表現(xiàn)可能是虛幻的。

GPT模型在失言測試及其變體上的失敗和成功模式可能是其底層架構(gòu)的結(jié)果。

除了Transformer之外，GPT模型還包括緩解措施，以提高事實(shí)性并避免用戶過度依賴它們作為來源。

這些措施包括進(jìn)行訓(xùn)練以減少幻覺，失言測試的失敗可能是這些緩解措施驅(qū)動(dòng)下的一種謹(jǐn)慎行為。因?yàn)橥ㄟ^測試需要對缺乏充分證據(jù)的解釋做出承諾。

這種謹(jǐn)慎也可以解釋不同任務(wù)之間的差異：失言測試和暗示測試都要求從模糊的信息中推測出正確答案。

然而，暗示任務(wù)允許以開放式的方式生成文本，LLM非常適合這種方式，但回答失言測試則需要超越這種推測，以得出結(jié)論。

這些發(fā)現(xiàn)強(qiáng)調(diào)了能力和表現(xiàn)之間的分離，表明GPT模型可能是有能力的。

也就是說，具有計(jì)算類似心智推理的技術(shù)復(fù)雜性，但在不確定的情況下表現(xiàn)與人類不同，人類往往會極力消除不確定性，但GPT不會自發(fā)地計(jì)算這些推論以減少不確定性。

參考資料：

https://www.nature.com/articles/s41562-024-01882-z

https://x.com/emollick/status/1792594588579803191

編輯：庸庸

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動(dòng)中國從"互聯(lián)網(wǎng)+"邁向"智能+"

96篇作品 243481總閱讀量

9塊9特賣，上線淘寶首頁

04-253920 瀏覽

5000字長文，拆解跨境安全（指紋）瀏覽器業(yè)務(wù)背景及產(chǎn)品設(shè)計(jì)

04-247493 瀏覽

SRM尋源競價(jià)：競價(jià)的使用場景和優(yōu)勢

09-141414 瀏覽

有說明有示例，史上最詳細(xì)產(chǎn)品立項(xiàng)報(bào)告講解?。。ǜ疆a(chǎn)品立項(xiàng)模版）

08-1417316 瀏覽

好創(chuàng)意，會改名

11-161713 瀏覽

評論

目前還沒評論，等你發(fā)揮！

2023年金融科技趨勢展望

01-062455 瀏覽
Axure9：手風(fēng)琴效果（動(dòng)態(tài)面板）

08-242483 瀏覽
互聯(lián)網(wǎng)大廠秋招，開啟搶人大戰(zhàn)

09-032958 瀏覽