欧美一进一出抽搐大尺度视频,国产在线欧美日韩精品一区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

看懂OpenAI o1背后玄機！打破數據瓶頸，AI也能像人一樣思考

烏鴉智能說

2024-09-18

0 評論 779 瀏覽 0 收藏

10 分鐘

OpenAI發布的o1系列模型標志著AI推理能力的飛躍，它在數學解題、代碼生成等復雜任務上展現出了前所未有的能力，為AI向通用復雜推理的邁進鋪平了道路！

今天凌晨，OpenAI發了一個新模型——OpenAI o1系列模型。

對比以往發布的模型，o1模型可以說相當有特色。用官方的說法，o1代表了現階段AI最強的推理能力，尤其擅長解決數學解題、代碼生成等等復雜推理任務。

OpenAI也很重視這個模型，沒有用GPT繼續給這個模型命名，而是采用了一個新名字：OpenAI o1。

Sam Altman更是將OpenAI o1的發布比作一個新階段的開始：

可以進行通用復雜推理的AI。

那么，為什么AI學會復雜推理這么重要？o1的發布，又對AI通往AGI有著什么樣的意義？

01 AI也會慢思考了

與之前發布的模型相比，o1最大的特點就是推理能力很強。

打個比方，之前大模型更像是文科生，擅長文本類工作，但邏輯推理和復雜計算方面差點意思，遇到奧數題目就歇菜。而o1則更像一個理科生，不僅能推理復雜任務，還能解決科學、編碼和數學領域中比以往更為困難的問題。

o1的邏輯能力有多強？用OpenAI發布的一組圖，你就明白了。

第一個圖是o1參加AIME 2024的成績。AIME 2024是國際數學奧林匹克競賽（IMO）的資格考試，難度不言而喻。在這個比賽里，o1的準確率是83.3%，而GPT4o的準確率只有13.4%。

第二項是編程競賽，o1的準確率高達89%，而GPT4o準確率只有11.0%。最后一項測試是GPQA Diamond，主要測試的是化學、物理和生物學方面的專業知識。在這個測試里，o1超越了人類專家的表現，成為第一個在這個測試中表現優于博士級別專家的模型。

這些測試結果表明，o1在數學、編程、科學等推理類任務上達到了新高度，甚至在某些任務上已經超過了人類專家的水平。

為什么o1的推理能力這么強？這得益于思維鏈的構建。

思維鏈，最早出現在2022年谷歌發布論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中，是大模型提示詞（Prompting）工作的一種。

在o1回答問題前，會產生一個內部的思維鏈，思維鏈會把大模型沒辦法直接回答的復雜問題，分解為一個個簡單的任務各自計算，然后把這些答案拼接在一起進行求解，而不是直接給出計算結果。

對于思維鏈的價值，知乎答主絕密伏擊打過一個很形象的比喻：

標準 Prompting

給大模型一道數學題，在標準Prompting下，模型無法做出正確的回答。但如果我們給模型一些關于解題的思路，在CoT提示下，它就會像我們數學考試，都會把解題過程寫出來再最終得出答案，比如下圖：

CoT提示

在這個過程中，大模型能夠識別和修正自己的錯誤，不斷改進推理策略。這種思維過程不僅讓它的推理能力得到顯著提升，還讓模型在回答問題時更加可靠。

不過這種思維方式，需要更長的響應時間。理論上，大模型思考的時間越長，推理任務上的表現就越好，可以理解為用時間換取推理深度。

o1的發布補足了GPT模型在推理方面的缺陷，讓AI更接近人類雙系統的思考方式。

人類大腦在處理信息和做出決策通常有兩種方式：快思考（系統1）和慢思考（系統2）。前者無意識且快速的，它依賴直覺、記憶和經驗迅速作出判斷。后者則有意識的、需要調動注意力的思考方式，它通過分析和解決問題，并作出決定，雖然較慢，但不容易出錯。

這種互補性，也極有可能會出現在GPT和o1上。

GPT系列對應系統1，負責快速、直接決策，依賴于經驗和情感，而o1則對應系統2，復雜較慢的思考和推理，依賴于邏輯和理性分析。

兩種系統協同運作，當系統1快速反應不足以面對復雜情況時，系統2會介入進行更深入的分析，進而讓AI最終能夠讓人一樣思考。

當然，讓AI像人一樣思考，還不是o1唯一的意義。

02 智能提升的另一種路徑

在o1發布后，OpenAI研究員諾姆·布朗（Noam Brown）在X上寫下：

o1模型，意味著一種新的擴展范式。

這是o1發布的另一個重要意義。大模型將進入了一個新的擴張范式：從模型參數增大，轉向強化學習的探索。

眾所周知，過去一年里，大模型的升級全靠“大力出奇跡”的方式，也就是說，隨著計算量、模型參數和數據集大小的增加，模型的性能通常會顯著提高。

但現在這條路越來越不好走了。因為在這種訓練模式下，大模型需要大量且優質的訓練數據，但這帶來了兩個問題：

一是隨著訓練需要的數據量越來越大，去哪找這么多高質量數據是個問題。二是喂了這么多數據，大模型學習方式本質還是歸納總結，但并沒有真正搞懂事物的邏輯。

舉個例子，大模型發現人渴了，就需要喝水。大模型理解了口渴和喝水之間的關聯性，但它可能沒辦法理解，為什么人渴了，要喝水。這也是為什么大模型面對復雜問題時，經常出現邏輯錯誤的原因。

在這種情況下，就需要新的擴張范式來提升大模型的智能能力。于是，強化學習進入了AI大廠的視野。

所謂的強化學習，是讓AI在一個環境里自己探索。在探索過程中會得到很多反饋，這些反饋有好的，也有不好的，AI再根據反饋不斷調整自己的策略和對環境的認知。

這樣的策略以前在AlphaGo身上也用過。為了提高AlphaGo的圍棋水平，研究員讓AlphaGo自己和自己下棋，從而產生大量高水平的棋譜，這有點像金庸武俠小說里老頑童周伯通的左右互搏武功。再通過下棋輸贏（或者平棋）的結果對走棋路徑進行評估。

在后來的AlphaZero訓練里，模型進行了大約500萬局自我對弈，每局大約200步，做好每一步平均需要1600次模擬。這使得總的模擬次數達到了1.6萬億次。大量的高質量合成數據，最終讓AI探索出和人類不一樣的游戲套路，并戰勝了大部分職業選手。

從本質上說，這個方法是用AI無限的計算能力，來補足它數據利用效率不夠的短板。也就是說，只要擴張推理計算能力，就能實現大模型智能水平的提升。

這更符合當下AI發展的現狀。相比尋找更大規模的優質數據，通過基建實現推理算力的增長是一條更可行的路徑。

如今，有了思維鏈，大模型可以把推理過程中的每一步思考都記錄下來，并進行打分，再根據評分高低反饋給模型進行調整。在這個過程中，大模型不僅能學到如何給出正確答案，還能舉一反三獲得更多的數據反饋，進而提升其智能水平。

當然，作為剛剛發布的新模型，o1仍然有很多的缺陷。但在GPT5遙遙無期的情況下，這至少給行業帶來了新的思路。至于這條路線究竟是否會將我們帶向AGI，我們可以拭目以待。

文／林白
本文由人人都是產品經理作者【烏鴉智能說】，微信公眾號：【烏鴉智能說】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

烏鴉智能說

人工智能新時代的商業智庫和價值燈塔

26篇作品 76366總閱讀量

聊聊B端常見的功能入口設計

01-1516226 瀏覽

近期小紅書常見問題匯總合集，如何判斷對標有無聚光投放？

12-053429 瀏覽

抖音不需要「帶貨一哥」

09-081435 瀏覽

整合ChatGPT：微軟與谷歌的搜索大戰

01-166446 瀏覽

三張圖搞懂賬戶設計

11-246867 瀏覽

評論

目前還沒評論，等你發揮！

看懂OpenAI o1背后玄機！打破數據瓶頸，AI也能像人一樣思考

01 AI也會慢思考了

02 智能提升的另一種路徑

看懂OpenAI o1背后玄機！打破數據瓶頸，AI也能像人一樣思考