大模型智障檢測+1:Strawberry有幾個r紛紛數(shù)不清,最新最強Llama3.1也傻了

0 評論 2030 瀏覽 0 收藏 11 分鐘

最近,一系列大模型在處理一些看似簡單的問題時卻出現(xiàn)了意外的“集體失智”,特別是關(guān)于數(shù)單詞 "Strawberry" 中 "r" 的個數(shù)問題。這一現(xiàn)象不僅引起了技術(shù)愛好者的廣泛關(guān)注,也讓普通用戶對 AI 的能力產(chǎn)生了疑問。

繼分不清9.11和9.9哪個大以后,大模型又“集體失智”了!

數(shù)不對單詞“Strawberry”中有幾個“r”,再次引起一片討論。

GPT-4o不僅錯了還很自信。

剛出爐的Llama-3.1 405B,倒是能在驗證中發(fā)現(xiàn)問題并改正。

比較離譜的是Claude 3.5 Sonnet,還越改越錯了。

說起來這并不是最新發(fā)現(xiàn)的問題,只是最近新模型接連發(fā)布,非常熱鬧。

一個個號稱自己數(shù)學漲多少分,大家就再次拿出這個問題來試驗,結(jié)果很是失望。

在眾多相關(guān)討論的帖子中,還翻出一條馬斯克對此現(xiàn)象的評論:

好吧,也許AGI比我想象的還要更遠。

01 路遇失智AI,拼盡全力終于教會

有人發(fā)現(xiàn),即使使用Few-Shot CoT,也就是“一步一步地想”大法附加一個人類操作示例,ChatGPT依然學不會:

倒是把r出現(xiàn)的位置都標成1,其他標成0,問題的難度下降了,但是數(shù)“1”依舊不擅長。

為了教會大模型數(shù)r,全球網(wǎng)友腦洞大開,開發(fā)出各種奇奇怪怪的提示詞技巧。

比如讓ChatGPT使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。

ChatGPT想出的方法倒是也很樸素,就是分別把每個字母寫出來再一個一個數(shù)并記錄位置,總之終于答對了。

有Claude玩家寫了整整3682個token的提示詞,方法來自DeepMind的Self-Discover論文,可以說是連夜把論文給復現(xiàn)了。

整個方法分為兩大階段:先針對特定任務讓AI自我發(fā)現(xiàn)推理步驟,第二階段再具體執(zhí)行。

發(fā)現(xiàn)推理步驟的方法簡單概括就是,不光要會抽象的思維方法,也要具體問題具體分析。

這套方法下,Claude給出的答案也非常復雜。

作者補充,花這么大力氣解決“數(shù)r問題”其實并不真正實用,只是在嘗試復現(xiàn)論文方法時偶然測試到了,希望能找出一個能用來回答所有問題的通用提示詞。

不過很可惜,這位網(wǎng)友目前還沒公布完整的提示詞。

還有人想到更深一層,如果要計算文檔中straberry出現(xiàn)多少次怎么辦?

他的方法是讓AI想象有一個從0開始的內(nèi)存計數(shù)器,每次遇到這個單詞就往上加。

有人評論這種方法就像在用英語編程。

02 也有AI可以一次做對

那么究竟有沒有大模型,可以不靠額外提示詞直接答對呢?

其實不久之前有網(wǎng)友報告,ChatGPT是有小概率能直接答對的,只不過不常見。

谷歌Gemini 大概有三分之二的概率能答對,打開“草稿”就能發(fā)現(xiàn),默認每個問題回答三次,兩次對一次錯。

至于國內(nèi)選手,在提問方式統(tǒng)一、每個模型只給一次嘗試機會的測試下,上次能正確判斷數(shù)字大小的,這次同樣穩(wěn)定發(fā)揮。

字節(jié)豆包給出了正確回答,還猜測用戶問這個問題是要學習單詞拼寫嗎?

智譜清言的ChatGLM,自動觸發(fā)了代碼模式,直接給出正確答案“3”。

騰訊元寶像解數(shù)學題一樣列方程給出了正確答案(雖然貌似沒有必要)。

文心一言4.0收費版則更加詳細,也是先正確理解了意圖,然后掰指頭挨個找出了全部的“r”。

不過有意思的是,在同一種方法下,文心一言APP中的免費版文心3.5掰指頭也能數(shù)錯。

訊飛星火也通過找出“r”所在位置給出了正確回答。

03 還是token的鍋

雖然“數(shù)r”和“9.11與9.9哪個大”,看似一個是數(shù)字問題一個是字母問題,但對于大模型來說,都是token問題。

單個字符對大模型來說意義有限,使用GPT系列的Llama系列的tokenizer就會發(fā)現(xiàn),20個字符的問題,在不同AI眼中是10-13個token。

其中相同之處在于,strawberry被拆成了st-,raw,-berry三個部分來理解。

換一個思路用特殊字符??????????來提問,每一個字符對應的token也就會分開了。

面對這種問題,其實最簡單的方法就是像智譜清言一樣,調(diào)用代碼來解決了。

可以看到,ChatGPT直接用Python語言字符串的count函數(shù),就能簡單搞定。

剛剛創(chuàng)業(yè)開了所學校的大神卡帕西認為,關(guān)鍵在于需要讓AI知道自己能力的邊界,才能主動去調(diào)用工具。

至于教給大模型判斷自己知道不知道的方法,Meta在LLama 3.1論文中也有所涉及。

最后正如網(wǎng)友所說,希望OpenAI等大模型公司,都能在下個版本中解決這個問題。

GPT Tokenizer試玩

https://gpt-tokenizer.devLlama

Tokenizer試玩

https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/

參考鏈接:

[1]https://x.com/diegoasua/status/1816146114573394143

[2]https://www.reddit.com/r/ClaudeAI/comments/1eap6b1/comment/leolf3t/

[3]https://www.reddit.com/r/ChatGPT/comments/1do7cnq/counting_the_rs_a_chat_with_chatgpt/

[4]https://www.reddit.com/r/ChatGPT/comments/1dpfj2c/a_prompt_where_chatgpt_gets_the_strawberry/

夢晨 一水 發(fā)自 凹非寺

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號:【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!