OpenAI新模型達到博士水平?我找幾位博士測試了一下

0 評論 3764 瀏覽 2 收藏 14 分鐘

OpenAI 最新發布的 o1 模型雖然號稱達到了博士水平,但總有人不信。本文作者邀請了數位作者對 o1 模型進行實際測試,評估了其在物理學、材料化學和生物學問題上的回答質量。一起來看看表現如何。

今天凌晨,OpenAI 毫無預告地發布了業內期待已久的新模型。此前,大家從 CEO 奧特曼的推文中猜測這個模型會叫 “ 草莓 ”。

而在實際發布的時候,這個模型的名字叫 OpenAI o1 模型。

奧特曼對這個模型的評價是:他們迄今為止最強、最一致的模型。

在官方給出的一組數據圖中,我們能很明顯地看到 o1 模型在國際數學奧林匹克競賽、編程競賽還有博士級別的科學問題上有很大提高。圖中最左側為 GPT-4o,中間是目前已經開放了的預覽版 o1,最右邊高高的紅色柱子為滿血版 o1。我們可以看到,基本每一項,o1 比起自己的前輩來說,都是接近 8 倍的提升。

如果把這些測試結果拆開來,新 o1 也幾乎是在各種學科、各種領域,都全量、全面、全方位地超越 4o 版本模型。

而最讓人感到可怕的是:OpenAI 說自己專門請了博士專家一起答題,結果在博士級別的測試結果上,發現 o1 答題分數均超過了博士專家,o1 得分 78,人類得分 69.7。

所以,人類一敗涂地了?

為了能大概了解 o1 模型( 預覽版 )的真實能力到底幾何,知危編輯部邀請了三位知名院校博士來向 o1 模型提問,并請他們對 o1 的回答進行打分。( 訂閱 ChatGPT Plus 會員每周有 30 次向 o1 預覽版模型提問的機會 )

為了保證多樣性和客觀性,我們邀請的博士分別涉獵生物學、物理學、材料化學。

其中,南京大學在讀物理學博士崔博士對 o1 模型的評價是最高的,他認為 o1 已經達到了 60-80 分( 滿分 100 分 )的水平。

甚至在某些問題上,他認為回答可以給到 90 分。

崔博士的研究方向是量子光學,所以他給出的第一個問題是:遠距離糾纏光子分發,有什么克服白噪聲的辦法?

思考 9 秒后,o1 就給出了 10 點可行的措施。

崔博士對回答的評價為:“ 答案列舉的全面,符合現有的最新研究進展,對知識儲備不足的人可能提供調研方向,但是可能對高級別專業人員沒有提供真正有用的信息,屬于科普級別的答案?!?/p>

評分方面,崔博士認為 o1 的這次回答可以打 80 分,他指出,o1 回答中提到的自適應光學的方向是今年最新的 Science 成果,回答是具有先進性的。

隨后,崔博士追問了 “ 是否可以擴展到量子自適應光學?”?這一問題,o1 思考 19 秒后給出了作答。

崔博士對這個回答的評價是:“ 可以給到 90 分,這個回答對我也很有提示性,雖然不具體,但對我們只需要指個可能的方向,剩下的我們自己來調研思考?!?/p>

崔博士指出,“ 他的回答有很多是我的知識薄弱區了,有的概念我也只是簡單理解,但他說的我認為都是有道理的,所以我認為還是可以的?!?/p>

相比之下,對于老版本模型相同問題的作答,崔博士的評價是不及格或是 60 分。

不過,在關于涉及實驗細節的 “ 基于非線性相互作用產生的高純度解關聯單光子的自關聯函數,分別在連續泵浦和脈沖泵浦的情況下,如何測量?” 這一問題上,崔博士認為 o1 的回答中規中矩,只能給 75 分。

總的來講,崔博士認為在物理方面,o1 的表現算是不錯的,和老版比下來提升基本在 20 分左右。

下面,我們來看看北京大學在讀材料化學的 K 博士對 o1 模型的評價。

K 博士圍繞 Fe-N4 材料問了一系列的問題,o1 給了很長的一串回答,為了精簡篇幅我們這里只展示了部分問題和結果。

整體測試之后,K 博士給出的評價也差不多:可能有研究生水平,但是深入的認知和給方案的能力比較弱,主要還是針對已知內容作答。

比如問到如何調節 Fe-N4,o1 可以說出基于電子態調節,但你要是問它那該如何調節,它就有點卡殼了。雖然相比 4o 模型沒那么胡說八道,但具體的問題上他倆都給不了太多建議,老版本 4o 是喪失細節亂說,新版本 o1 則是能力有限就會詞窮。

下面,我們再看看清華大學在讀生物學的信博士的評價,他的提問是:“ 如何從質譜數據集中區分賴氨酸殘基的乳酰化和羧乙基修飾?”

o1 也給了一段非常長的回答,有些像綜述,后面還貼了參考文獻。

但出乎意料的是,當我們把這個回答交給信博士時,他看完就發現有些不對勁兒。

倒不是這 AI 回答的全錯,而是 AI 在參考文獻里亂編,這論文壓根不存在!

不過,總體來,信博士還是覺得比之前的 AI 強了不少,起碼理解能力是肉眼可見的增長了,編的時候也編的很像。。。

實際上,這個測試的結果并不出乎知危編輯部的預料——因為根據官方給出的數據來看,o1 在物理上的分數達到了 92.8,已經遠超其他兩門學科,這或許就是崔博士對它比較看好的原因。

綜合來講,真要說到超越專業博士水平,三位博士們認為還得緩緩。

崔博士直言,在現實科研工作中,多數情況學者們都還得自己動手,AI 只能提供大致方向,因此花錢要這樣的細致 AI 意義不大。

他表示,他更推薦本科生選擇這個 AI,要是碩博階段,那這個 AI 的回答其實并不符合導師標準,組會上肯定要挨批。

清華的信博士也同樣持這種看法,且不說 AI 的幻覺編造文獻問題,就專業程度而言,AI 的回答也只能糊弄大同行,也就是同一大學科里面方向不同的人群;而在小同行,專業研究這個方向的人眼里,AI 的毛病還是非常明顯的。

北大 K 博士則談的更深入,他認為這個 AI 只能說在認知上有了碩士生的水平,但也只是作為一個縫補匠,談不上說出什么創造性的成果。就創造性這一點來說,AI 是遠遠比不上碩博的水平的,這也是 AI 需要解決的重要問題。

在博士們的評價里,我們似乎能抓到一個重點:o1 模型之所以相對更強,是因為他有了更高維的認知和思考模式。

這,也是 o1 本次更新的要點。在 OpenAI 關于 o1 模型原理解釋的文章中,他們表示 o1 變強主要是他們用上了長思維鏈 ( CoT,Chain of thought ) ,而不是傳統的提示鏈( Prompt chain )。

第一眼看上去有點懵,說人話就是,這個大模型改變了以往那種你問我答的思考方式。

在以前的模式下,大模型的問答就跟下意識出答案一樣,比如你問我天是啥顏色,這問題我想都不想,秒答藍色。這實際上需要我本來就知道這個知識點,然后給你直接反應就完了。

但這個長思維鏈就相當于,我不僅要知道藍色是個啥,還能自己推一遍為啥是藍色,什么大氣散射,光譜波長都要考慮進去。

這,就需要 AI 得有實打實的構建邏輯,推理論證的能力,換句話說,他不僅要長腦子,還要動腦子。

盡管思維鏈這個概念是 2022 年谷歌提出來的,但 OpenAI 這次是第一個實現的。

實操過程中,現在你與 o1 模型對話,除了收獲答案,還可以看選擇展開看他解答問題時的思維邏輯,他的思考是具象化的而不是黑盒。

我們拿崔博士提問的 “?遠距離糾纏光子分發,有什么克服白噪聲的辦法? ” 這一問題為例,o1 模型的思考過程如下:

當我們詢問崔博士這個思考過程是否合理時,崔博士表示:“ 合理,達到了博士級別,還是高年級博士級別?!?/p>

所以,o1 模型之所以會在物理學問答上面表現更出色,就是因為他的思維鏈達到了博士的水準,他會像博士一樣思考物理問題。

同理,o1 模型在生物學、化學方面年表現相對不佳,很有可能是是思維鏈還沒訓練到最佳狀態,但是從物理學問題的表現來看,等到訓練愈發成熟,o1 會變得更強,我們可以期待一下 o1 模型正式版的發布。

哦,對了,最后放一個有趣的小彩蛋。

思維鏈雖然使得 o1 模型能像博士一樣思考,但似乎在基礎問題上訓練的還是不夠全面,我們發現他在簡單問題上依然會犯低級錯誤。

他思考了 12 秒之后,自信地告訴我們 8.11 比 8.9 大。。。

怎么說呢,博士也會犯錯,沒毛病~

撰文:納西、四大、大餅 編輯:大餅

本文由人人都是產品經理作者【知危】,微信公眾號:【知危】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!