看懂OpenAI o1背后玄機!打破數據瓶頸,AI也能像人一樣思考

0 評論 779 瀏覽 0 收藏 10 分鐘

OpenAI發布的o1系列模型標志著AI推理能力的飛躍,它在數學解題、代碼生成等復雜任務上展現出了前所未有的能力,為AI向通用復雜推理的邁進鋪平了道路!

今天凌晨,OpenAI發了一個新模型——OpenAI o1系列模型。

對比以往發布的模型,o1模型可以說相當有特色。用官方的說法,o1代表了現階段AI最強的推理能力,尤其擅長解決數學解題、代碼生成等等復雜推理任務。

OpenAI也很重視這個模型,沒有用GPT繼續給這個模型命名,而是采用了一個新名字:OpenAI o1。

Sam Altman更是將OpenAI o1的發布比作一個新階段的開始:

可以進行通用復雜推理的AI。

那么,為什么AI學會復雜推理這么重要?o1的發布,又對AI通往AGI有著什么樣的意義?

01 AI也會慢思考了

與之前發布的模型相比,o1最大的特點就是推理能力很強。

打個比方,之前大模型更像是文科生,擅長文本類工作,但邏輯推理和復雜計算方面差點意思,遇到奧數題目就歇菜。而o1則更像一個理科生,不僅能推理復雜任務,還能解決科學、編碼和數學領域中比以往更為困難的問題。

o1的邏輯能力有多強?用OpenAI發布的一組圖,你就明白了。

第一個圖是o1參加AIME 2024的成績。AIME 2024是國際數學奧林匹克競賽(IMO)的資格考試,難度不言而喻。在這個比賽里,o1的準確率是83.3%,而GPT4o的準確率只有13.4%。

第二項是編程競賽,o1的準確率高達89%,而GPT4o準確率只有11.0%。最后一項測試是GPQA Diamond,主要測試的是化學、物理和生物學方面的專業知識。在這個測試里,o1超越了人類專家的表現,成為第一個在這個測試中表現優于博士級別專家的模型。

這些測試結果表明,o1在數學、編程、科學等推理類任務上達到了新高度,甚至在某些任務上已經超過了人類專家的水平。

為什么o1的推理能力這么強?這得益于思維鏈的構建。

思維鏈,最早出現在2022年谷歌發布論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,是大模型提示詞(Prompting)工作的一種。

在o1回答問題前,會產生一個內部的思維鏈,思維鏈會把大模型沒辦法直接回答的復雜問題,分解為一個個簡單的任務各自計算,然后把這些答案拼接在一起進行求解,而不是直接給出計算結果。

對于思維鏈的價值,知乎答主絕密伏擊打過一個很形象的比喻:

標準 Prompting

給大模型一道數學題,在標準Prompting下,模型無法做出正確的回答。但如果我們給模型一些關于解題的思路,在CoT提示下,它就會像我們數學考試,都會把解題過程寫出來再最終得出答案,比如下圖:

CoT提示

在這個過程中,大模型能夠識別和修正自己的錯誤,不斷改進推理策略。這種思維過程不僅讓它的推理能力得到顯著提升,還讓模型在回答問題時更加可靠。

不過這種思維方式,需要更長的響應時間。理論上,大模型思考的時間越長,推理任務上的表現就越好,可以理解為用時間換取推理深度。

o1的發布補足了GPT模型在推理方面的缺陷,讓AI更接近人類雙系統的思考方式。

人類大腦在處理信息和做出決策通常有兩種方式:快思考(系統1)和慢思考(系統2)。前者無意識且快速的,它依賴直覺、記憶和經驗迅速作出判斷。后者則有意識的、需要調動注意力的思考方式,它通過分析和解決問題,并作出決定,雖然較慢,但不容易出錯。

這種互補性,也極有可能會出現在GPT和o1上。

GPT系列對應系統1,負責快速、直接決策,依賴于經驗和情感,而o1則對應系統2,復雜較慢的思考和推理,依賴于邏輯和理性分析。

兩種系統協同運作,當系統1快速反應不足以面對復雜情況時,系統2會介入進行更深入的分析,進而讓AI最終能夠讓人一樣思考。

當然,讓AI像人一樣思考,還不是o1唯一的意義。

02 智能提升的另一種路徑

在o1發布后,OpenAI研究員諾姆·布朗(Noam Brown)在X上寫下:

o1模型,意味著一種新的擴展范式。

這是o1發布的另一個重要意義。大模型將進入了一個新的擴張范式:從模型參數增大,轉向強化學習的探索。

眾所周知,過去一年里,大模型的升級全靠“大力出奇跡”的方式,也就是說,隨著計算量、模型參數和數據集大小的增加,模型的性能通常會顯著提高。

但現在這條路越來越不好走了。因為在這種訓練模式下,大模型需要大量且優質的訓練數據,但這帶來了兩個問題:

一是隨著訓練需要的數據量越來越大,去哪找這么多高質量數據是個問題。二是喂了這么多數據,大模型學習方式本質還是歸納總結,但并沒有真正搞懂事物的邏輯。

舉個例子,大模型發現人渴了,就需要喝水。大模型理解了口渴和喝水之間的關聯性,但它可能沒辦法理解,為什么人渴了,要喝水。這也是為什么大模型面對復雜問題時,經常出現邏輯錯誤的原因。

在這種情況下,就需要新的擴張范式來提升大模型的智能能力。于是,強化學習進入了AI大廠的視野。

所謂的強化學習,是讓AI在一個環境里自己探索。在探索過程中會得到很多反饋,這些反饋有好的,也有不好的,AI再根據反饋不斷調整自己的策略和對環境的認知。

這樣的策略以前在AlphaGo身上也用過。為了提高AlphaGo的圍棋水平,研究員讓AlphaGo自己和自己下棋,從而產生大量高水平的棋譜,這有點像金庸武俠小說里老頑童周伯通的左右互搏武功。再通過下棋輸贏(或者平棋)的結果對走棋路徑進行評估。

在后來的AlphaZero訓練里,模型進行了大約500萬局自我對弈,每局大約200步,做好每一步平均需要1600次模擬。這使得總的模擬次數達到了1.6萬億次。大量的高質量合成數據,最終讓AI探索出和人類不一樣的游戲套路,并戰勝了大部分職業選手。

從本質上說,這個方法是用AI無限的計算能力,來補足它數據利用效率不夠的短板。也就是說,只要擴張推理計算能力,就能實現大模型智能水平的提升。

這更符合當下AI發展的現狀。相比尋找更大規模的優質數據,通過基建實現推理算力的增長是一條更可行的路徑。

如今,有了思維鏈,大模型可以把推理過程中的每一步思考都記錄下來,并進行打分,再根據評分高低反饋給模型進行調整。在這個過程中,大模型不僅能學到如何給出正確答案,還能舉一反三獲得更多的數據反饋,進而提升其智能水平。

當然,作為剛剛發布的新模型,o1仍然有很多的缺陷。但在GPT5遙遙無期的情況下,這至少給行業帶來了新的思路。至于這條路線究竟是否會將我們帶向AGI,我們可以拭目以待。

文/林白
本文由人人都是產品經理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!