亚洲熟女少妇一区二区三区,99久久综合狠狠综合久久,中文字幕AV无码一区二区三区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

我們舉辦了一場推理模型“年終考試”，最終奪冠的居然是

Alter

2024-12-31

1 評論 4109 瀏覽 3 收藏

14 分鐘

推理模型不僅能夠模仿人類思維，還能跨越知識領域，將信息整合并生成新的知識，這正是AGI實現通用性的基礎。

笛卡爾說：“我思，故我在?！?/p>

思考是文明存在的根本，是人類探索未知的永恒追求，現在也成了大模型技術演進的一個重要方向。

自OpenAI在9月中旬悄然發布o1模型后，一系列推理模型陸續開放測試。比如通義千問的QwQ、deepseek的R1、Kimi的K1以及智譜剛剛發布的GLM-Zero的初代版本GLM-Zero-Preview（智譜清言同步上線了智能體“Zero推理模型”）。

正好到了年末，我們萌生了舉辦一場推理模型“年終考試”的想法。

在“考試”正式開始前，先來簡單科普下推理模型的特點：相較于基座模型，推理模型在回答問題前會像人類一樣進行更長時間的“思考”，不斷驗證和糾錯，更擅長編程、數學、科學等任務。

所以，這是一場面向“理科生”的考試。

需要說明的是，我們沒有使用AIME2024、MATH500等專業的數據集，也無意對各個推理模型進行專業測評和排名，僅適用于多數人在日常生活中可能遇到的問題。

譬如給孩子輔導作業、應付面試時的“奇葩問題”、和朋友一起玩劇本殺時的推理游戲等等，和大家一起探索各個推理模型的“長項”和“短板”。

一、考試規則

一共有六道考題，分別用高三數學的單選題、多選題和計算題測試模型的數學計算能力，用一道常見的編程題目測試模型的編程能力，用一道邏輯問題和一道海龜湯問題測試模型的推理能力。

分數評定分為三個維度，最終根據推理結果（占比60%）、推理過程（占比25%）、推理時間（占比15%）加權平均?？紤]到單次測試存在的不確定性，滿分為100分，兜底分數為60分（即使做錯了也有60分）。

考生名單：OpenAI o1、通義千問QwQ-32B-preview、deepseek深度思考（R1）、Kimi視覺思考版（K1）和智譜GLM-Zero。

下面，考試正式開始。

第一題：單選題

考慮到不少人曾經拿高考真題測試，為了防止可能的“作弊”行為，我們從《2024屆浙江省鎮海中學高三下學期期中數學試題》篩選了一道單選題目進行測試。（難度的話，至少本科畢業十年的我們是不會做的。）

鑒于測試的過程比較無趣，我們把5個模型的測試錄屏放在了視頻中，感興趣的小伙伴可以點擊觀看，也可以直接查看最終的“考試”結果。

第一題成績揭曉

五個推理模型均給出了正確答案。

其中o1模型的推理速度是最快的，推理過程簡單高效，直接給出了計算過程和結果；可能是剛上線的緣故，GLM-Zero的推理速度相對慢一些，但推理過程是最符合人類思維的（在思維鏈中可以清晰地看到自我反思和優化、將復雜問題分解，并嘗試用不同方法解決問題），可以作為解題的參考答案。另外三個模型的推理速度比o1稍慢，但在結果和推理過程上可以和o1媲美。

第二題：多選題

題目來源和單選題一樣，難度有所增加，更考驗模型處理復雜問題的能力，以及思考的方式和過程。（PS：我們在考前進行過類似題目的測試，部分模型每次都只給一個答案，所以在正式考試時特意給了多選題的提示。）

第二題成績揭曉

五個推理模型中，只有三個模型給出了正確答案。

o1、GLM-Zero和QwQ回答正確，Kimi視覺思考版只給出了一個正確選項，deepseek深度思考的回答是“沒有正確答案”（排除了圖像識別問題）。在三個回答正確的模型中，GLM-Zero和QwQ表現出了不俗的歸納與演繹能力，提供了詳細的解題過程，并通過反思進行多次驗證，而且GLM-Zero的推理速度比上一題提升了不少。o1沒有顯示思考過程，直接給出了答案。

第三題：計算題

如果一個城市中 95%的人打了疫苗，而疫苗保護率是 90%，病毒傳播率是5%，未接種者感染率是 50%，計算城市中總感染率。

這是一道AI擬定的題目，因為表述有點“模糊不清”，但又不乏邏輯自洽，審題不仔細的話，很可能給出錯誤答案。（畢竟我們當年就在高考試卷上吃過“馬虎”虧，也要讓AI嘗嘗什么叫審題要認真?。。。。?/p>

第三題成績揭曉

和預料的一樣，有兩個模型“翻了車”。

這道題不僅僅計算，還考驗模型的思考過程，能否識別中題目中的邏輯漏洞，找到最合理的假設。GLM-Zero在速度上“逆襲”了，整體表現比o1的表現還要優秀。deepseek深度思考的推理過程看起來最完善，考慮到了多種可能，最終給到的是最合理的答案。Kimi和QwQ也考慮了多種可能，但在邏輯漏洞的理解上出現了偏差，最終沿著錯誤的方向進行計算，導致計算結果錯誤。