黄色A级毛片,中文字幕无码不卡免费视频

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

OpenAI新模型達到博士水平？我找幾位博士測試了一下

知危

2024-09-14

0 評論 4112 瀏覽 2 收藏

14 分鐘

OpenAI 最新發布的 o1 模型雖然號稱達到了博士水平，但總有人不信。本文作者邀請了數位作者對 o1 模型進行實際測試，評估了其在物理學、材料化學和生物學問題上的回答質量。一起來看看表現如何。

今天凌晨，OpenAI 毫無預告地發布了業內期待已久的新模型。此前，大家從 CEO 奧特曼的推文中猜測這個模型會叫 “ 草莓 ”。

而在實際發布的時候，這個模型的名字叫 OpenAI o1 模型。

奧特曼對這個模型的評價是：他們迄今為止最強、最一致的模型。

在官方給出的一組數據圖中，我們能很明顯地看到 o1 模型在國際數學奧林匹克競賽、編程競賽還有博士級別的科學問題上有很大提高。圖中最左側為 GPT-4o，中間是目前已經開放了的預覽版 o1，最右邊高高的紅色柱子為滿血版 o1。我們可以看到，基本每一項，o1 比起自己的前輩來說，都是接近 8 倍的提升。

如果把這些測試結果拆開來，新 o1 也幾乎是在各種學科、各種領域，都全量、全面、全方位地超越 4o 版本模型。

而最讓人感到可怕的是：OpenAI 說自己專門請了博士專家一起答題，結果在博士級別的測試結果上，發現 o1 答題分數均超過了博士專家，o1 得分 78，人類得分 69.7。

所以，人類一敗涂地了？

為了能大概了解 o1 模型（預覽版）的真實能力到底幾何，知危編輯部邀請了三位知名院校博士來向 o1 模型提問，并請他們對 o1 的回答進行打分。（訂閱 ChatGPT Plus 會員每周有 30 次向 o1 預覽版模型提問的機會）

為了保證多樣性和客觀性，我們邀請的博士分別涉獵生物學、物理學、材料化學。

其中，南京大學在讀物理學博士崔博士對 o1 模型的評價是最高的，他認為 o1 已經達到了 60-80 分（滿分 100 分）的水平。

甚至在某些問題上，他認為回答可以給到 90 分。

崔博士的研究方向是量子光學，所以他給出的第一個問題是：遠距離糾纏光子分發，有什么克服白噪聲的辦法？

思考 9 秒后，o1 就給出了 10 點可行的措施。

崔博士對回答的評價為：“ 答案列舉的全面，符合現有的最新研究進展，對知識儲備不足的人可能提供調研方向，但是可能對高級別專業人員沒有提供真正有用的信息，屬于科普級別的答案?！?/p>

評分方面，崔博士認為 o1 的這次回答可以打 80 分，他指出，o1 回答中提到的自適應光學的方向是今年最新的 Science 成果，回答是具有先進性的。

隨后，崔博士追問了 “ 是否可以擴展到量子自適應光學？”?這一問題，o1 思考 19 秒后給出了作答。

崔博士對這個回答的評價是：“ 可以給到 90 分，這個回答對我也很有提示性，雖然不具體，但對我們只需要指個可能的方向，剩下的我們自己來調研思考?！?/p>

崔博士指出，“ 他的回答有很多是我的知識薄弱區了，有的概念我也只是簡單理解，但他說的我認為都是有道理的，所以我認為還是可以的。”

相比之下，對于老版本模型相同問題的作答，崔博士的評價是不及格或是 60 分。

不過，在關于涉及實驗細節的 “ 基于非線性相互作用產生的高純度解關聯單光子的自關聯函數，分別在連續泵浦和脈沖泵浦的情況下，如何測量？” 這一問題上，崔博士認為 o1 的回答中規中矩，只能給 75 分。

總的來講，崔博士認為在物理方面，o1 的表現算是不錯的，和老版比下來提升基本在 20 分左右。

下面，我們來看看北京大學在讀材料化學的 K 博士對 o1 模型的評價。

K 博士圍繞 Fe-N4 材料問了一系列的問題，o1 給了很長的一串回答，為了精簡篇幅我們這里只展示了部分問題和結果。

整體測試之后，K 博士給出的評價也差不多：可能有研究生水平，但是深入的認知和給方案的能力比較弱，主要還是針對已知內容作答。

比如問到如何調節 Fe-N4，o1 可以說出基于電子態調節，但你要是問它那該如何調節，它就有點卡殼了。雖然相比 4o 模型沒那么胡說八道，但具體的問題上他倆都給不了太多建議，老版本 4o 是喪失細節亂說，新版本 o1 則是能力有限就會詞窮。

下面，我們再看看清華大學在讀生物學的信博士的評價，他的提問是：“ 如何從質譜數據集中區分賴氨酸殘基的乳?；汪纫一揎棧俊?/p>

o1 也給了一段非常長的回答，有些像綜述，后面還貼了參考文獻。

但出乎意料的是，當我們把這個回答交給信博士時，他看完就發現有些不對勁兒。

倒不是這 AI 回答的全錯，而是 AI 在參考文獻里亂編，這論文壓根不存在！

不過，總體來，信博士還是覺得比之前的 AI 強了不少，起碼理解能力是肉眼可見的增長了，編的時候也編的很像。。。

實際上，這個測試的結果并不出乎知危編輯部的預料——因為根據官方給出的數據來看，o1 在物理上的分數達到了 92.8，已經遠超其他兩門學科，這或許就是崔博士對它比較看好的原因。

綜合來講，真要說到超越專業博士水平，三位博士們認為還得緩緩。

崔博士直言，在現實科研工作中，多數情況學者們都還得自己動手，AI 只能提供大致方向，因此花錢要這樣的細致 AI 意義不大。

他表示，他更推薦本科生選擇這個 AI，要是碩博階段，那這個 AI 的回答其實并不符合導師標準，組會上肯定要挨批。

清華的信博士也同樣持這種看法，且不說 AI 的幻覺編造文獻問題，就專業程度而言，AI 的回答也只能糊弄大同行，也就是同一大學科里面方向不同的人群；而在小同行，專業研究這個方向的人眼里，AI 的毛病還是非常明顯的。

北大 K 博士則談的更深入，他認為這個 AI 只能說在認知上有了碩士生的水平，但也只是作為一個縫補匠，談不上說出什么創造性的成果。就創造性這一點來說，AI 是遠遠比不上碩博的水平的，這也是 AI 需要解決的重要問題。

在博士們的評價里，我們似乎能抓到一個重點：o1 模型之所以相對更強，是因為他有了更高維的認知和思考模式。

這，也是 o1 本次更新的要點。在 OpenAI 關于 o1 模型原理解釋的文章中，他們表示 o1 變強主要是他們用上了長思維鏈 ( CoT，Chain of thought ) ，而不是傳統的提示鏈（ Prompt chain ）。

第一眼看上去有點懵，說人話就是，這個大模型改變了以往那種你問我答的思考方式。

在以前的模式下，大模型的問答就跟下意識出答案一樣，比如你問我天是啥顏色，這問題我想都不想，秒答藍色。這實際上需要我本來就知道這個知識點，然后給你直接反應就完了。

但這個長思維鏈就相當于，我不僅要知道藍色是個啥，還能自己推一遍為啥是藍色，什么大氣散射，光譜波長都要考慮進去。

這，就需要 AI 得有實打實的構建邏輯，推理論證的能力，換句話說，他不僅要長腦子，還要動腦子。

盡管思維鏈這個概念是 2022 年谷歌提出來的，但 OpenAI 這次是第一個實現的。

實操過程中，現在你與 o1 模型對話，除了收獲答案，還可以看選擇展開看他解答問題時的思維邏輯，他的思考是具象化的而不是黑盒。

我們拿崔博士提問的 “?遠距離糾纏光子分發，有什么克服白噪聲的辦法？ ” 這一問題為例，o1 模型的思考過程如下：

當我們詢問崔博士這個思考過程是否合理時，崔博士表示：“ 合理，達到了博士級別，還是高年級博士級別?！?/p>

所以，o1 模型之所以會在物理學問答上面表現更出色，就是因為他的思維鏈達到了博士的水準，他會像博士一樣思考物理問題。

同理，o1 模型在生物學、化學方面年表現相對不佳，很有可能是是思維鏈還沒訓練到最佳狀態，但是從物理學問題的表現來看，等到訓練愈發成熟，o1 會變得更強，我們可以期待一下 o1 模型正式版的發布。

哦，對了，最后放一個有趣的小彩蛋。

思維鏈雖然使得 o1 模型能像博士一樣思考，但似乎在基礎問題上訓練的還是不夠全面，我們發現他在簡單問題上依然會犯低級錯誤。

他思考了 12 秒之后，自信地告訴我們 8.11 比 8.9 大。。。

怎么說呢，博士也會犯錯，沒毛病~

撰文：納西、四大、大餅編輯：大餅

本文由人人都是產品經理作者【知?！?，微信公眾號：【知?！?，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

知危

提供敏銳、獨到的商業信息與參考，重點關注TMT、出海、新消費等

49篇作品 124349總閱讀量

01-102573 瀏覽

03-272709 瀏覽

07-056923 瀏覽

10-123427 瀏覽

07-172901 瀏覽

評論

目前還沒評論，等你發揮！

OpenAI新模型達到博士水平？我找幾位博士測試了一下

OpenAI新模型達到博士水平？我找幾位博士測試了一下