欧美人与动牲交大全免费,99久久精品免费看国产一区二区三区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

Llama 3.1 405B VS Mistral Large 2，誰是開源之王？｜AI橫評

硅星人

2024-07-29

1 評論 1369 瀏覽 0 收藏

13 分鐘

近期，AI界迎來了兩款引人注目的大型模型——Meta的Llama 3.1 405B和Mistral AI的Mistral Large2。這兩個模型不僅支持多種人類語言，還精通眾多編程語言。為了測試它們的多語言處理能力，我們進行了一次Base64編碼的解謎游戲。結果如何？讓我們一起探索AI大模型在這場語言解碼挑戰中的表現吧！

最近兩款大型 AI 模型相繼發布。在7月23日，Meta?發布了?Llama 3.1 405B?模型，該模型不僅支持8種人類語言，還精通多種計算機語言，如下圖所示：

緊接著在7月24日，Mistral?AI?發布了最新的?Mistral Large2?模型，這款模型支持數十種人類語言，并熟練掌握了80多種編程語言，包括 Python、Java、C、C++、JavaScript 和 Bash等。

它還精通一些更具體的語言，如?Swift?和 Fortran。

Base64 編碼是一種將二進制數據轉換為文本格式的編碼方式，常用于在文本協議中傳輸二進制數據。Base64 編碼在數據預處理、模型輸入輸出、數據安全等方面有著廣泛的應用。

通過 Base64 編碼，我們可以評估 AI 模型的多語言處理能力，測試它們是否能準確理解和翻譯編碼后的信息，尤其是它們對不同語言和編碼格式的理解和處理能力。進而檢驗它們的多語言翻譯能力、回答準確度和推理能力。

解碼是編碼的逆過程。如果一個 AI 模型能夠準確地解讀和處理 Base64 編碼或解碼出相關信息，那么它在執行日常編程任務、解析網絡數據，甚至從復雜文件中提取信息時，將會更加得心應手。

今天，我們就用這種看似晦澀的 Base64 編碼和解碼來測試 AI 大模型的多語言能力。

接下來，我們要帶著一點“偵探”的心情，來玩一個關于 Base64 編碼的解謎游戲。

雖然主要選手是 Llama 3.1 405B和Mistral Large2，但我們也加入了Qwen2-72B 和 GPT-4o，一個是國內的頭部開源項目，另一個則是閉源代表，看看他們是否真的能夠像處理普通語言那樣，輕松應對這些“編碼挑戰”，我們拭目以待！

游戲規則：

我們將使用 Base64 編碼的字符串進行多語言測試，包括中文和英文。通過這次測試，我們可以了解各大模型在多語言翻譯、回答準確度和推理能力方面的表現。

– 測試共 2 輪，每輪三次對話。每答對一次記 1 分。

– 為了確保測試的公平性，我們會提示模型不要使用代碼工具進行解碼。

– 提示詞：這是一個 base64 信息【】，請你不使用代碼工具告訴我這是什么信息。

首先我們大致知道下 Base64 編碼解碼的步驟和流程是什么。

Base64編碼是將二進制數據轉換成一系列特定的64個字符（A-Z, a-z, 0-9, +, /）來表示。如果解碼過程中的步驟不正確或者字符串不是有效的Base64編碼，那么解碼結果可能會是錯誤的或無意義的。若要檢查實際的Base64編碼字符串代表的內容，可以使用在線工具或編程語言中的庫來正確解碼。

第一輪：英文解碼

本輪采用英文單詞轉 Base64 編碼測評，編碼后的字符串分別為：

Justice：SnVzdGljZQo=

Bravery：QnJhdmVyeQo=

Kindness：S2luZG5lc3M=

我們先來用英文編碼測試看看個大模型結果如何，Llama 3.1 405B 答的都完全正確，得 3 分。但全部都是英文回答，對于中文不太友好。

不過它還是會附上自己特色的表情包，這“人味兒”誰不喜歡，情緒價值給的非常到位。

而?Mistral Large 2?解碼的英文 Base64 信息答對兩題，得 2 分。在第二問中，原文是 brevery，解碼的是“brave”，最有可能的錯誤來源是在字符到二進制索引的轉換、索引到二進制的轉換，或者在二進制數的重組過程中出現了錯誤。

不過值得表揚的是，在解碼過程中它先是解釋了原理，然后用 5 個步驟逐步分析推理最后解碼，既詳細又清晰明了，非常易懂。

ChatGPT-4o?回答一如既往地極其簡潔和快速，這次換成解碼后的內容也是相當正確，記 3 分。

最后來看下?Qwen2-72B?的英文解碼回答，三個答案都是正確的，還解釋了實際編碼中的注意事項，易于理解，而且考慮周到，得 3 分。

第二輪：中文解碼，無一生還？

本輪加大難度，采用中文詞語轉 Base64 編碼測評，編碼后的字符串分別為：

正義：5q2j5LmJ

勇敢：5YuH5pWi

善良：5ZaE6Imv

先來看看超大杯 Llama 3.1 405B 是怎么回答的：

一連三問， Llama 3.1 405B 依舊全英文回答解碼信息，得到的卻是“你好世界”、“你好”、“再見”這些詞匯的英文，基本全錯，這一輪得0分。

放眼望去，Base64 字符串轉換后通常不會有下圖這樣的結果，除非原始數據就是這樣。Llama 3.1 405B 在第二步就開始錯了，即“Base64字符到ASCII的映射”，那之后的結果肯定也全都是錯的。

在解碼過程中，每個 Base64 字符應該映射到一個特定的6位二進制值。如果解碼時字符到二進制的映射錯誤，解碼出來的結果自然也會錯誤。

不過有趣的是，Llama 3.1 405B 它更有“人味兒”了，每次回答都會有一些小表情在文字里，而且回答之前還會加一些語氣詞之類的內容，真的越來越人性化了。

再來看看今天發布的 Mistral Large 2 怎么樣。

三問后，對于編碼后的中文也是是一個也沒答對，這一輪得0分。

雖然 Mistral Large 2 的解碼推理過程很詳細，具體到了每一步驟，但是這更加清楚的看到哪一步出錯了。主要是在第二步就錯了，Base64字符到二進制的映射，那之后的推理步驟也都是錯的，結果也一定是錯的。

這一步中，Base64 編碼的字符被錯誤地直接映射到了 ASCII 字符，而不是它們正確的二進制值。例如把 ‘5’ 映射到了 ‘H’。這種映射忽略了 Base64 編碼的實際工作原理，即每個 Base64 字符實際上表示了一個6位的二進制數，而不是一個直接的ASCII 字符。

這樣看來這塊的能力非常有待加強。

來看看對中文理解更強的?ChatGPT-4o，它直接給出解碼的內容，全部都對，這一輪得3分。

再來看國產最抗打的?Qwen2-72B，解碼結果也是“測試”“你好”“世界”，基本全錯，這一輪得0分。

我們來細看 Qwen2-72B 的思路，回答里只有推理思路，并且省略各種轉換步驟，直接得出答案，這代表著得到的結果極大程度上是錯誤的。也就是說 Qwen2-72B 主要錯誤主要集中在對 Base64 編碼的理解和解碼步驟的執行上。

比如：直接從 Base64 編碼得到具體的中文字符，這是不太可能的，因為這需要正確的字節序列和編碼（如UTF-8）來解釋二進制數據。

最終得分是：

明顯 ChatGPT-4o 得6分，完全領先于其他各大模型，無論是中文、還是英文，Base64 碼都能輕松轉換為我們所理解的意思。

而其他三個模型 Llama 3.1 405B、Qwen2-72B 均獲得3分，在英文解碼方面表現都不錯，但對中文解碼相對不足。其中 Llama 3.1 405B 在回復的時候則更有“人味兒”，能給到人們更多的情緒價值。但整體的回答偏向英文，中文語言功能相對較多，除非單獨硬性要求它用中文回復。

而墊底的 Mistral Large 2 因為英文解碼錯誤一題丟失一分，但其解碼推理過程十分詳細清晰，顯示出強大的推理能力，而其他模型在這方面的表現差異較大。

通過這次測試，我們發現大模型在多語言和編程語言解碼方面表現各異，當前大模型在多語言處理上有些許不平衡。整體英文回答普遍準確且清晰，但中文回答準確度低。

最后

編碼，是人類為了高效運輸信息，對信息本身做的一系列邏輯變形。通常我們認為它是“計算機的語言”。但這次測試看下來，對于大語言模型來說，正確的編碼和解碼反而成了一道難題。尤其是在多語言環境下，每一次編碼解碼的過程涉及到多個步驟和多種編碼規則，有一環出錯甚至是二進制的一位算錯，都不可能得到準確的答案。

綜合來看，GPT-4o 確實還是強一些，僅從這個小游戲來說，Qwen2-72B 反而能和 Llama3.1 405B 五五開。有些意外的是 Mistral Large2 在這次成了墊底。

作者｜椒鹽玉兔

本文由人人都是產品經理作者【硅星人】，微信公眾號：【硅星人Pro】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

硅星人

硅（Si）是創造未來的基礎，歡迎來到這個星球。

197篇作品 724805總閱讀量

金融科技的迭代與銀行轉型

02-046854 瀏覽

微軟同“親女兒”小冰單飛后的再聯手，AI 數字員工可行嗎？

10-092349 瀏覽

百萬人打卡煙火氣，直播+擺攤會是一門新生意嗎？

06-301345 瀏覽

現場參加了OpenAI的大會，我感覺屬于上個時代的開發者被干掉了

11-091893 瀏覽

Kos種草崛起！3個最新品牌案例教大家打造小紅書kos矩陣賣貨

10-209516 瀏覽

評論

松餅MUffin

AI真的很有幫助，解決了我一直以來的疑惑，感謝作者的用心分享！

最近來自北京回復

小投入，大收益-B2B品牌營銷的8個建議

12-011551 瀏覽
一文讀懂電商平臺之優惠券設計

10-234869 瀏覽
到底什么是數據產品？數據產品經理日常都在做什么？需要具備什么能力？

12-264564 瀏覽

Llama 3.1 405B VS Mistral Large 2，誰是開源之王？｜AI橫評

第一輪：英文解碼

第二輪：中文解碼，無一生還？

最后

Llama 3.1 405B VS Mistral Large 2，誰是開源之王？｜AI橫評

第二輪：中文解碼，無一生還？