7款主流大模型實測:簡單的數感測試全翻車

1 評論 755 瀏覽 2 收藏 15 分鐘

實測strawberry中有2個字母“r”?不會比大小的大模型也幾乎數不對數,數理能力差到驚人!

誰能想到,號稱“超級大腦”的大模型,竟然在幾道簡單的數學題上敗給了小學生。

近日,國內火熱的音樂節目《歌手》中,孫楠與外國歌手的微小分數差異,引發了網友關于13.8%和13.11%誰大誰小的爭論。

艾倫研究機構成員林禹臣將此問題拋給了ChatGPT-4o,但結果令人吃驚,最強大模型竟然在回答中給到了13.11比13.8更大的錯誤答案。

隨后Scale AI的提示工程師萊利·古德賽德基于此靈感變換了問法,拷問了可能是目前最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大?然而幾家頭部大模型的錯誤回答,也讓該話題傳播開來。

而面對如此簡單的問題,國產大模型表現如何呢?

為此,我們也對國內7款主流AIGC產品文心一言、通義千問、騰訊元寶、字節豆包、訊飛星火、智譜、Kimi進行了比小學數學更簡單的“單詞字母數識別”測試,結果令我們大吃一驚。

Part.1 7家大模型,幾乎全翻車

首先我們向7款大模型產品詢問同一個問題,“strawberry中有幾個字母r”?

大模型新星Kimi,斬釘截鐵且不加解釋的表示有1個字母r,不過當我們再次詢問時,Kimi竟打翻了自己第一次的錯誤答案,給到了第二個錯誤答案。再三追問后仍是沒能給到正確答案。

來源:科技新知(Kimi)

智譜AI旗下的智譜清言ChatCLM給到的也是錯誤答案。

來源:科技新知(智譜清言)

科大訊飛的訊飛星火對話在回答這個問題的時候開啟了聯網搜索,給到一個錯誤答案后,還一本正經的告訴我們這2個r的位置。但可惜的是,星火對話給到的位置有一個也是錯誤的。

來源:科技新知(訊飛星火)

不過也有表現不錯的,百度的文心大模型將strawberry每個字母都進行了拆分,然后進行統計,給到了正確結果。

來源:科技新知(文心大模型)

阿里旗下的通義千問在第一次回答中給到了一個錯誤答案,并且闡述的位置也是錯誤的,第二次雖然再次給出了錯誤答案,但其回答中識別到了3個字母r,只是一句“注意雖然 “rr” 是連續的,但它們仍然被計算為兩個單獨的字母?!弊屓嗣坏筋^腦。

來源:科技新知(通義千問)

于是我們追問了“為什么rr被計算為兩個單獨的字母”,通義千問竟然又否認了剛才的回答,稱“在 “strawberry” 中,兩個 “r” 字母可以影響周圍音節的發音,但它們仍然是兩個獨立的字母?!?/p>

來源:科技新知(通義千問)

騰訊元寶在回答這個問題時采用的是假設法,假設了字母“r”的數量為未知數x,然后通過查看單詞“strawberry”并計數字母“r”得到x的值,最后給到的答案是正確的。

來源:科技新知(騰訊元寶)

表現良好的還有字節豆包,直截了當的給出了正確答案,并且還舉了兩個例子來證明這個簡單的問題難不倒它。但是,也是豆包的這兩個例子出賣了它在識數能力上的問題。豆包稱“car”這個單詞只有1個“r”,“mirror”則有2個“r”,而“strawberry”比它們都多,有3個。

問題顯而易見,“mirror”中有其實是有3個“r”,并非2個。于是我們又追問了一下“mirror中有幾個字母r”,豆包給到的答案仍然是2個,并且又舉了兩個錯誤的例子,稱“father”這個單詞有2個“r”,而“orange”里面則一個“r”都沒有。這多少讓人認為豆包的正確回答有“蒙”的嫌疑。

來源:科技新知(豆包)

通過這個簡單的測試我們可以看到,7家大模型中有5家都有“不識數”的嫌疑,于是我們又將這個單詞進行拆分成2個更簡單的字母,測試這些大模型能否給到正確答案。

Part.2 拆分測試,揭露大模型邏輯短板

為了引導大模型,盡量使大模型給到正確答案,我們這部分將分為兩個問題,一個是“str中含有幾個字母r,berry中含有幾個字母r,他們一共含有幾個r?”,另一個是“那str和berry合在一起是strawberry,所以strawberry中含有幾個字母r?”

不過,被寄予厚望的Kimi還是讓我們失望了。

將strawberry拆分成兩個簡單的單詞后,Kimi仍沒給到正確答案。

來源:科技新知(Kimi)

同樣,智譜清言在這一輪也沒能給到正確答案。并且其給出的解釋也與Kimi一致,都認為berry中有1個字母r,所以才導致strawberry中少了1個r。

來源:科技新知(智譜清言)

有趣的是訊飛星火,當我們將單詞分開提問時,星火對話能夠給到正確的回答,并且識別到了berry中有2個字母r,不過看星火對話給的解釋是將這兩個字母當作字符串,用編程的方式來查找所得。但不管怎樣,答案確實是正確的。

來源:科技新知(訊飛星火)

而當我們認為訊飛星火又行了的時候,再次詢問“那str和berry合在一起是strawberry,所以strawberry中含有幾個字母r?”,但訊飛星火仍然給到的是錯誤答案。

來源:科技新知(訊飛星火)

上一輪表現出色的文心大模型這次并沒有給到正確答案,它與Kimi和智譜清言都認為“berry” 中有1個“r”,而追問兩個單詞合在一起有幾個r后,文心也是給出了2個的錯誤答案。

來源:科技新知(文心大模型)

通義千問這次的表現讓人吃驚,不但準確的給出了答案,而且還給了代碼級別的計算過程。

來源:科技新知(通義千問)

當我們再次問strawberry中含有幾個字母r時,通義千問也非常有邏輯的地告訴我們可以直接在 “strawberry” 中查找 “r” 的出現次數,而不必依賴于之前的組合。

來源:科技新知(通義千問)

騰訊元寶的表現也足夠穩定,簡單迅速的給到了正確答案。

來源:科技新知(騰訊元寶)

豆包在這一輪也給到的正確答案,但喜歡舉例的豆包,再次舉了一個錯誤案例。所以其數數字的水平和邏輯到底怎樣,仍是未知。

來源:科技新知(豆包)

兩輪簡單的小測試下來,7家國產大模型只有1家表現穩定,其他6家均出現了不同程度的錯誤,這到底是怎么回事呢?

Part.3 數學不好,本質是能力問題

這類大模型說胡話的現象,在業界被稱為大模型出現幻覺。

此前,哈爾濱工業大學和華為的研究團隊發表的綜述論文認為,模型產生幻覺的三大來源:數據源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式,如位置接近性、共現統計數據和相關文檔計數,從而導致幻覺。此外,大模型還可能會出現長尾知識回憶不足、難以應對復雜推理的情況。

一位算法工程師認為,生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數據訓練過程中學到的是相關性,使得AI在文字創作上達到人類平均水平,而數學推理更需要的是因果性,數學是高度抽象和邏輯驅動的,與語言模型處理的語言數據在本質上有所不同。這意味著大模型要學好數學,除了學習世界知識外,還應該有思維的訓練,從而具備推理演繹能力。

不過中國社科院新聞與傳播研究所所長胡正榮也指出,大模型雖然是語言模型,但這個語言不是人們通常理解的字面意思,音頻、解題等都是大模型可以做的。從理論上看,數學大模型這個技術方向是可行的,但最終結果如何,取決于兩個因素,一是算法是不是足夠好,二是是否有足夠量的數據做支撐?!叭绻竽P偷乃惴ú粔蚵斆?,不是真正的數學思維,也會影響到答題的正確率?!?/p>

其實對于大模型來說,對自然語言的理解是基礎。很多數理化的專業知識并不是大模型的強項,并且很多大模型是利用搜索把之前已有的解題的經驗和知識的推理相結合,可以理解為在搜索內容上進行理解,如果搜索內容本就是錯誤的,那么大模型給到的結果必然錯誤。

值得一提的是,大模型的復雜推理能力尤為重要,這關乎可靠性和準確性,是大模型在金融、工業等場景落地需要的關鍵能力?,F在很多大模型的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。

隨著技術的進步和算法的優化,我們期待大模型能夠在更多領域發揮其潛力,為人類社會帶來更多實際價值。但通過這次對國內主流大模型的簡單測試,也警示我們,在依賴大模型進行決策時,必須保持謹慎,充分認識到其局限性,并在關鍵領域加強人工審核和干預,確保結果的準確性和可靠性。

畢竟,技術的最終目的是服務于人,而不是取代人的思考和判斷。

作者丨王思原 編輯丨賽柯

本文由人人都是產品經理作者【科技新知】,微信公眾號:【科技新知】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 優化提示詞后效果會好很多,案例:你現在是數學老師,要統計單詞中的字母的個數,請告訴我“strawberry”這個單詞中字母r出現了幾次?

    來自北京 回復