OpenAI 凌晨發布 o1 系列推理模型的兩個 o1-preview 以及 o1-mini,旨在真正像人類一樣思考
OpenAI在深夜發布了o1系列推理模型,標志著人工智能在模擬人類思考方面邁出了重要一步。新模型在處理科學、編程和數學問題上展現出前所未有的能力,預示著AI技術的又一次飛躍。本文介紹了o1系列模型的特點、安全性措施以及如何為不同用戶提供服務。
凌晨,OpenAI 在沒有任何預告下正式發布了全新 o1 系列模型:
據悉,這次發布的 o1-preview 是 o1?系列模型的首個嘗鮮版,OpenAI 預計會有定期的更新和改進。
與此同時,OpenAI 還包括了正在開發中的下一次更新的評估。
包括 o1 在內的系列模型,旨在花更多時間進行思考,能夠推理復雜任務,并在科學、編程和數學等領域解決比以往模型更難的問題。
OpenAI 將其比喻成人類。通過訓練,這些模型學會優化思考過程,嘗試不同的策略,并能夠識別自己的錯誤,真正的像人類一樣思考。
OpenAI 透露,o1-preview 是系列推理模型在 ChatGPT 和 API 中的早期預覽,OpenAI 還計劃繼續開發并發布 GPT 系列的模型,同時發布新的 OpenAI o1系列模型。
除了模型更新外,OpenAI 預計還會增加瀏覽、文件和圖片上傳等功能,以使其對所有人更有用。
o1 系列及 o1-preview 模型
在 OpenAI 測試中,推理模型在物理、化學和生物等挑戰性基準任務中表現得與博士生相當。
在數學和編程方面表現出色。在國際數學奧林匹克(IMO)選拔考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型得分為 83%。編程能力在比賽中達到了Codeforces 競賽的 89 百分位。
OpenAI 表示,作為早期模型,目前還不具備使 ChatGPT 實用的許多功能,比如瀏覽信息、上傳文件和圖片。對于許多常見情況,GPT-4o 在短期內會更為強大。
但對于復雜的推理任務,這代表了 AI 能力的重大進展。OpenAI 將計數器重置為1,并將這一系列命名為OpenAI o1。
安全性
在開發該系列新模型過程中,OpenAI 提出了一種新的安全訓練方法,利用它們的推理能力,使其遵循安全和一致性指南。通過在上下文中推理安全規則,模型能夠更有效地應用這些規則。
OpenAI 通過測試模型在用戶嘗試繞過其安全規則(即“越獄”)時的表現來衡量安全性。
在OpenAI 最難的越獄測試中,GPT-4o 得分為22(滿分 100 分),而 OpenAI 的o1預覽模型得分為 84。
為了匹配這些模型的新能力,OpenAI 加強了OpenAI 的安全工作、內部治理以及與聯邦政府的合作。
包括使用OpenAI 的《準備框架》進行嚴格的測試和評估、世界級的紅隊測試、以及包括安全與安保委員會在內的董事會級別審查流程。
為了推進對AI安全的承諾,OpenAI 最近與美國和英國 AI 安全機構達成了正式協議。OpenAI 已開始將這些協議落實到位,包括為這些機構提供該模型研究版本的早期訪問。
適用人群
OpenAI 表示,這些增強的推理能力可能對解決科學、編程、數學等領域的復雜問題特別有用。
例如,o1可以幫助醫療研究人員標注細胞測序數據,幫助物理學家生成量子光學所需的復雜數學公式,并幫助各領域的開發人員構建和執行多步工作流程。
OpenAI o1-mini
OpenAI 表示,o1系列在準確生成和調試復雜代碼方面表現優異。
為了為開發人員提供更高效的解決方案,OpenAI 還發布了OpenAI o1-mini,這是一款更快、更便宜的推理模型,特別適用于編程。
作為較小的模型,o1-mini 的成本比 o1 預覽版便宜 80%,是一款適合需要推理但不需要廣泛世界知識的應用的強大且具成本效益的模型。
如何使用 OpenAI o1
9 月 12 日起,ChatGPT Plus 和 Team 用戶可以在 ChatGPT 中訪問 o1 模型??梢允謩舆x擇 o1-preview 和 o1-mini 模型,發布時每周的消息限制分別為30條和50條。
目前,OpenAI 正在努力增加這些限制,并使ChatGPT能夠自動選擇最合適的模型。下周,ChatGPT Enterprise 和 Edu 用戶也將能夠訪問這兩個模型。
據悉,開發者可以開始使用 API 原型開發,限速為每分鐘20次請求。經過額外測試后,OpenAI 將努力提高這些限制。
當前這些模型 API 不包括函數調用、流式傳輸、系統消息支持等功能。此外,OpenAI 也計劃為所有ChatGPT免費用戶提供 o1-mini 訪問權限。
本文由人人都是產品經理作者【江天 Tim】,微信公眾號:【有新Newin】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自OpenAI社交媒體截圖
AI賽道毋庸自疑是勢不可擋的,未來想要提高我們的核心競爭力學會用并且用的好是一個很關鍵的點