OpenAI發布最新模型o1應用場景和對大語言模型產品的7點啟發

0 評論 1083 瀏覽 0 收藏 11 分鐘

OpenAI 最新推出的 GPT-o1 模型,以其卓越的推理能力和安全性,為人工智能領域帶來了新的發展機遇。本文深入探討了 GPT-o1 的命名由來、安全性優勢、適用的新場景,以及它在 AIGC 領域的七點啟發。

OpenAI新模型為何命名為GPT-o1?

像人類一樣在說話前花更多時間思考問題。通過訓練OpenAI-o1學會了優化思維過程,嘗試不同的策略,并能識別自己的錯誤。在國際數學奧林匹克(IMO)資格考試中,GPT-4o 僅正確解決了 13% 的問題,而o1推理模型的得分為 83%。它們的編程能力也在競賽中得到評估,達到了 Codeforces 比賽的 89% 分位。

o1尚未具備許多讓 ChatGPT 實用的功能,例如瀏覽網頁獲取信息、上傳文件和圖像。在許多常見情況下,GPT-4o 在近期內將更具能力。

但對于復雜的推理任務,這是一項重大進展,代表了人工智能能力的新水平。鑒于此,將計數器重置為1,并將這個系列命名為 OpenAI o1。

安全性

在開發這些新模型的過程中,o1提出了一種新的安全訓練方法,利用模型的推理能力使其遵循安全和一致性指南。

通過在上下文中推理安全規則,模型能夠更有效地應用這些規則。

衡量安全性的一種方式是測試模型在用戶試圖繞過其安全規則時(稱為“越獄”)能多大程度上繼續遵守安全規則。在最難的越獄測試之一中,GPT-4o 的得分為 22(在 0-100 的評分標準上),而 o1-preview 模型得分為 84。

適用新場景

在處理科學、編程、數學等領域中的復雜問題,這些增強的推理能力特別有用。

例如,o1 可以被醫療研究人員用來標注細胞測序數據,被物理學家用來生成量子光學所需的復雜數學公式,并可供各領域的開發者用于構建和執行多步驟的工作流程。

OpenAI o1-mini

o1系列在準確生成和調試復雜代碼方面表現出色。為了為開發者提供更高效的解決方案,發布了 OpenAI o1-mini,這是一款速度更快、成本更低的推理模型,尤其在編程方面非常有效。作為一款較小的模型,o1-mini 比 o1-preview 便宜 80%,使其成為在需要推理但不需要廣泛世界知識的應用中,一款強大且具有成本效益的模型。

一、如何使用 OpenAI o1

從今天開始,ChatGPT Plus 和 Team 用戶將能夠在 ChatGPT 中訪問 o1 模型。用戶可以在模型選擇器中手動選擇 o1-preview 和 o1-mini 兩個版本。上線時,o1-preview 每周的消息限制為 30 條,o1-mini 的限制為 50 條。并使 ChatGPT 能夠根據給定的提示自動選擇合適的模型。

綜上我們終于看到了推理階段擴展范式的普及和生產部署。

二、o1 帶給我們AIGC領域的啟發

在預訓練上的Scalling law到底有沒有失效?

啟發一:Scalling law 失效還是有效?

Scalling law 是縮放定律是物理量之間的關系,其中所有物理量都以冪次形式出現,持續的投放更多的算力卡在模型預訓練輸出結果上大模型的精度會冪次方提升嗎?

目前OpenAI給出的答案是NO 1

如Sutton在《Bitter Lesson》中所說,只有兩種技術可以隨著計算資源的增加而無限擴展:”學習”和”搜索”。

目前OpenAI o1選擇了搜索,既推理。

啟發二:推理不是模型越大越好

推理不需要一個龐大的模型來進行。

因為許多參數都是為了記憶事實,從而在類似問答比賽(Trivia QA)等基準測試中表現良好。

實際上,可以將推理從知識中分離出來,也就是通過一個小型的“推理核心”來調用像瀏覽器、代碼驗證器這樣的工具。

這可能會減少預訓練所需的計算量。

啟發三:大量算力可以從預訓練和調整參數到推理服務中

大型語言模型(LLMs)本質上是基于文本的模擬器。

通過在模擬器中展開多種可能的策略和場景,模型最終會收斂到優質的解決方案。

這一過程是一個已經被充分研究過的問題,比如AlphaGo的蒙特卡洛樹搜索(MCTS)。

注解:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS) 是一種基于隨機模擬的搜索算法,主要用于解決需要進行決策和推理的復雜問題,如棋類游戲(例如圍棋、國際象棋等)。MCTS通過模擬游戲中的不同可能走法,逐步構建和優化決策樹,從而在復雜的狀態空間中找到最優策略。

啟發四:擴展業務推理算力比擴招模型參數算力更高效

業界永遠比學界領先一步實踐,上個月,Arxiv上相隔一周發表了兩篇論文:

  • 《大型語言猴子:通過重復采樣擴展推理計算》。Brown 等人發現,DeepSeek-Coder 在 SWE-Bench 上的表現從一次采樣的 15.9% 提升到 250 次采樣的 56%,超過了 Sonnet-3.5。
  • 《在測試時計算擴展比擴展模型參數更有效》。Snell 等人發現,PaLM 2-S 在 MATH 測試中通過測試時搜索擊敗了大 14 倍的模型。

將 o1 產品化遠比達到學界基準困難得多。在實際推理問題中,如何決定何時停止搜索?獎勵函數是什么?成功標準是什么?何時在循環中調用像代碼解釋器這樣的工具?如何考慮這些 CPU 過程的計算成本?他們的研究報告中并沒有詳細分享這些內容。

啟發五:未來LLMs數據數量和數據質量比算力更有價值

MCTS搜索主要由四個步驟組成:

  1. 選擇(Selection):從根節點(即當前局面)出發,根據某種策略(如 UCB1 算法)選擇一個節點,沿著樹的路徑向下搜索,直到找到尚未完全展開的節點(即有子節點尚未探索的節點)。
  2. 擴展(Expansion):如果所選的節點有可以展開的子節點,那么會從中隨機選擇一個未被探索的子節點進行擴展,即將該節點加入到決策樹中。
  3. 模擬(Simulation):從新擴展的節點開始,通過隨機走法模擬出游戲的結果,直到游戲結束。這一步可以被視為對該節點后續發展的一次模擬評估。
  4. 回溯更新(Backpropagation):將模擬的結果從擴展的節點向上反饋,更新沿途經過的所有節點的統計數據,如勝率或價值。通過反復執行這些步驟,樹中的不同節點逐漸得到越來越多的評估數據,幫助系統做出更好的決策。

構建搜索軌跡包含正負獎勵的訓練數據集的意義和價值可能比堆10000張卡有意義。

啟發六:o1的應用場景

o1模型的應用場景,其實它并不適合所有情況。o1的鏈式推理更適合那些需要層層推導的任務,因為它擅長把問題拆解成多個步驟,逐步推理出結果。

類似CoT, ToT。

但問題是,有些題目本身并不需要那么復雜的推理過程,反而需要更直接的解法,這時候o1反而顯得有點“用力過猛”。你讓它處理一個不太復雜的問題,它可能會過度拆解,導致不必要的時間和算力浪費。這樣一來,它的慢速反應和高計算成本就成了劣勢。

而像需要嵌入獎勵模型(reward model)的場景,o1就更能發揮優勢。它通過反復推理和采樣找到最優解,而獎勵模型可以幫助它評估每個步驟的正確性,最終優化出一個更合適的答案。因此,o1特別適合那些需要多層次決策和精確推理的復雜場景,而并非所有問題都適合用它來解決。

啟發七:LLMs創業不要在OpenAI炮火的覆蓋邊界里

這次o1會轟炸掉一批用LLMs做編程的項目、做醫療數據標注的項目

做LLM-agent優化大語言模型的幻覺問題的智能體也被轟炸了。

做大語言模型領域的創業產品,首先不要做OpenAI炮火覆蓋范圍內的,但是可以做很多OpenAI 10年內覆蓋不到的產品!

專欄作家

連詩路AI產品,公眾號:AI產品有思路。人人都是產品經理專欄作家,《產品進化論:AI+時代產品經理的思維方法》一書作者,前阿里產品專家,希望與創業者多多交流。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Pixabay,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!