Llama 3.1 405B VS Mistral Large 2,誰是開源之王?|AI橫評

1 評論 246 瀏覽 0 收藏 13 分鐘

近期,AI界迎來了兩款引人注目的大型模型——Meta的Llama 3.1 405B和Mistral AI的Mistral Large2。這兩個模型不僅支持多種人類語言,還精通眾多編程語言。為了測試它們的多語言處理能力,我們進行了一次Base64編碼的解謎游戲。結果如何?讓我們一起探索AI大模型在這場語言解碼挑戰中的表現吧!

最近兩款大型 AI 模型相繼發布。在7月23日,Meta?發布了?Llama 3.1 405B?模型,該模型不僅支持8種人類語言,還精通多種計算機語言,如下圖所示:

緊接著在7月24日,Mistral?AI?發布了最新的?Mistral Large2?模型,這款模型支持數十種人類語言,并熟練掌握了80多種編程語言,包括 Python、Java、C、C++、JavaScript 和 Bash等。

它還精通一些更具體的語言,如?Swift?和 Fortran。

Base64 編碼是一種將二進制數據轉換為文本格式的編碼方式,常用于在文本協議中傳輸二進制數據。Base64 編碼在數據預處理、模型輸入輸出、數據安全等方面有著廣泛的應用。

通過 Base64 編碼,我們可以評估 AI 模型的多語言處理能力,測試它們是否能準確理解和翻譯編碼后的信息,尤其是它們對不同語言和編碼格式的理解和處理能力。進而檢驗它們的多語言翻譯能力、回答準確度和推理能力。

解碼是編碼的逆過程。如果一個 AI 模型能夠準確地解讀和處理 Base64 編碼或解碼出相關信息,那么它在執行日常編程任務、解析網絡數據,甚至從復雜文件中提取信息時,將會更加得心應手。

今天,我們就用這種看似晦澀的 Base64 編碼和解碼來測試 AI 大模型的多語言能力。

接下來,我們要帶著一點“偵探”的心情,來玩一個關于 Base64 編碼的解謎游戲。

雖然主要選手是 Llama 3.1 405B和Mistral Large2,但我們也加入了Qwen2-72B 和 GPT-4o,一個是國內的頭部開源項目,另一個則是閉源代表,看看他們是否真的能夠像處理普通語言那樣,輕松應對這些“編碼挑戰”,我們拭目以待!

游戲規則:

我們將使用 Base64 編碼的字符串進行多語言測試,包括中文和英文。通過這次測試,我們可以了解各大模型在多語言翻譯、回答準確度和推理能力方面的表現。

– 測試共 2 輪,每輪三次對話。每答對一次記 1 分。

– 為了確保測試的公平性,我們會提示模型不要使用代碼工具進行解碼。

– 提示詞:這是一個 base64 信息【】,請你不使用代碼工具告訴我這是什么信息。

首先我們大致知道下 Base64 編碼解碼的步驟和流程是什么。

Base64編碼是將二進制數據轉換成一系列特定的64個字符(A-Z, a-z, 0-9, +, /)來表示。如果解碼過程中的步驟不正確或者字符串不是有效的Base64編碼,那么解碼結果可能會是錯誤的或無意義的。若要檢查實際的Base64編碼字符串代表的內容,可以使用在線工具或編程語言中的庫來正確解碼。

第一輪:英文解碼

本輪采用英文單詞轉 Base64 編碼測評,編碼后的字符串分別為:

Justice:SnVzdGljZQo=

Bravery:QnJhdmVyeQo=

Kindness:S2luZG5lc3M=

我們先來用英文編碼測試看看個大模型結果如何,Llama 3.1 405B 答的都完全正確,得 3 分。但全部都是英文回答,對于中文不太友好。

不過它還是會附上自己特色的表情包,這“人味兒”誰不喜歡,情緒價值給的非常到位。

而?Mistral Large 2?解碼的英文 Base64 信息答對兩題,得 2 分。在第二問中,原文是 brevery,解碼的是“brave”,最有可能的錯誤來源是在字符到二進制索引的轉換、索引到二進制的轉換,或者在二進制數的重組過程中出現了錯誤。

不過值得表揚的是,在解碼過程中它先是解釋了原理,然后用 5 個步驟逐步分析推理最后解碼,既詳細又清晰明了,非常易懂。

ChatGPT-4o?回答一如既往地極其簡潔和快速,這次換成解碼后的內容也是相當正確,記 3 分。

最后來看下?Qwen2-72B?的英文解碼回答,三個答案都是正確的,還解釋了實際編碼中的注意事項,易于理解,而且考慮周到,得 3 分。

第二輪:中文解碼,無一生還?

本輪加大難度,采用中文詞語轉 Base64 編碼測評,編碼后的字符串分別為:

正義:5q2j5LmJ

勇敢:5YuH5pWi

善良:5ZaE6Imv

先來看看超大杯 Llama 3.1 405B 是怎么回答的:

一連三問, Llama 3.1 405B 依舊全英文回答解碼信息,得到的卻是“你好世界”、“你好”、“再見”這些詞匯的英文,基本全錯,這一輪得0分。

放眼望去,Base64 字符串轉換后通常不會有下圖這樣的結果,除非原始數據就是這樣。Llama 3.1 405B 在第二步就開始錯了,即“Base64字符到ASCII的映射”,那之后的結果肯定也全都是錯的。

在解碼過程中,每個 Base64 字符應該映射到一個特定的6位二進制值。如果解碼時字符到二進制的映射錯誤,解碼出來的結果自然也會錯誤。

不過有趣的是,Llama 3.1 405B 它更有“人味兒”了,每次回答都會有一些小表情在文字里,而且回答之前還會加一些語氣詞之類的內容,真的越來越人性化了。

再來看看今天發布的 Mistral Large 2 怎么樣。

三問后,對于編碼后的中文也是是一個也沒答對,這一輪得0分。

雖然 Mistral Large 2 的解碼推理過程很詳細,具體到了每一步驟,但是這更加清楚的看到哪一步出錯了。主要是在第二步就錯了,Base64字符到二進制的映射,那之后的推理步驟也都是錯的,結果也一定是錯的。

這一步中,Base64 編碼的字符被錯誤地直接映射到了 ASCII 字符,而不是它們正確的二進制值。例如把 ‘5’ 映射到了 ‘H’。這種映射忽略了 Base64 編碼的實際工作原理,即每個 Base64 字符實際上表示了一個6位的二進制數,而不是一個直接的ASCII 字符。

這樣看來這塊的能力非常有待加強。

來看看對中文理解更強的?ChatGPT-4o,它直接給出解碼的內容,全部都對,這一輪得3分。

再來看國產最抗打的?Qwen2-72B,解碼結果也是“測試”“你好”“世界”,基本全錯,這一輪得0分。

我們來細看 Qwen2-72B 的思路,回答里只有推理思路,并且省略各種轉換步驟,直接得出答案,這代表著得到的結果極大程度上是錯誤的。也就是說 Qwen2-72B 主要錯誤主要集中在對 Base64 編碼的理解和解碼步驟的執行上。

比如:直接從 Base64 編碼得到具體的中文字符,這是不太可能的,因為這需要正確的字節序列和編碼(如UTF-8)來解釋二進制數據。

最終得分是:

明顯 ChatGPT-4o 得6分,完全領先于其他各大模型,無論是中文、還是英文,Base64 碼都能輕松轉換為我們所理解的意思。

而其他三個模型 Llama 3.1 405B、Qwen2-72B 均獲得3分,在英文解碼方面表現都不錯,但對中文解碼相對不足。其中 Llama 3.1 405B 在回復的時候則更有“人味兒”,能給到人們更多的情緒價值。但整體的回答偏向英文,中文語言功能相對較多,除非單獨硬性要求它用中文回復。

而墊底的 Mistral Large 2 因為英文解碼錯誤一題丟失一分,但其解碼推理過程十分詳細清晰,顯示出強大的推理能力,而其他模型在這方面的表現差異較大。

通過這次測試,我們發現大模型在多語言和編程語言解碼方面表現各異,當前大模型在多語言處理上有些許不平衡。整體英文回答普遍準確且清晰,但中文回答準確度低。

最后

編碼,是人類為了高效運輸信息,對信息本身做的一系列邏輯變形。通常我們認為它是“計算機的語言”。但這次測試看下來,對于大語言模型來說,正確的編碼和解碼反而成了一道難題。尤其是在多語言環境下,每一次編碼解碼的過程涉及到多個步驟和多種編碼規則,有一環出錯甚至是二進制的一位算錯,都不可能得到準確的答案。

綜合來看,GPT-4o 確實還是強一些,僅從這個小游戲來說,Qwen2-72B 反而能和 Llama3.1 405B 五五開。有些意外的是 Mistral Large2 在這次成了墊底。

作者|椒鹽玉兔

本文由人人都是產品經理作者【硅星人】,微信公眾號:【硅星人Pro】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. AI真的很有幫助,解決了我一直以來的疑惑,感謝作者的用心分享!

    來自北京 回復