国产亚洲日韩av在线播放不卡,中文无码天天AV天天爽

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

OpenAI推出o3-mini：對抗DeepSeek崛起的新利器？

科技旋渦

2025-02-02

0 評論 63 瀏覽 0 收藏

11 分鐘

在DeepSeek R1開源模型迅速崛起并引發全球關注的背景下，OpenAI推出了新的專有AI模型o3-mini，以應對開源競爭對手的挑戰。o3-mini作為OpenAI“推理者”系列中的第二款模型，專注于數學、科學和工程等領域的復雜推理任務，其性能和成本效益均優于之前的o1系列。本文將深入探討o3-mini的特點、性能優勢以及它在與DeepSeek競爭中的潛在影響，分析OpenAI如何通過這款新模型鞏固其在AI領域的領先地位。

為了應對開源競爭對手DeepSeek-R1的迅速崛起，OpenAI發布了新的專有AI模型——o3-mini。然而，這款新模型是否足以削弱DeepSeek的成功，仍然是一個疑問。

今天，OpenAI正式發布了o3-mini，這是其“推理者”系列中的第二款模型。該系列的模型需要更多時間進行“思考”，分析自己的過程，并反思自己的“思維鏈”，然后才能回答用戶的提問。最終，這款模型能夠在數學、科學、工程等多個領域提供類似博士生或學位持有者的解答。

o3-mini現已在ChatGPT和OpenAI的API中提供，包括免費的用戶也可以使用。而且，它的性能比之前的高端模型o1以及其低參數版本o1-mini更優，且價格更低。

盡管o3-mini發布的時機被認為可能是對DeepSeek-R1的回應，但需要指出的是，o3和o3-mini早在2024年12月就已經宣布。OpenAI的CEO Sam Altman曾表示，由于開發者和研究人員的反饋，o3將在ChatGPT和OpenAI API上同時發布。

與DeepSeek-R1不同，o3-mini并不會以開源形式發布——這意味著用戶無法下載代碼進行離線使用，也不能像DeepSeek-R1那樣進行高度定制，這可能會在某些應用場景下限制它的吸引力。

OpenAI沒有提供關于更大版本o3模型的更多細節，這款模型早在2024年12月與o3-mini一同發布。當時，OpenAI表示o3模型的測試將會有幾周的延遲，第三方測試需要等待一段時間。

一、性能與特點

類似于o1，o3-mini在數學、編程和科學推理方面表現出色。

在使用中等推理難度時，o3-mini的表現與o1相當，但它有以下幾大優勢：

相比o1-mini，響應速度提高了24%(例如，o1-mini的響應時間為12.8秒，處理100個token的輸出。而o3-mini的響應時間將縮短至約10.32秒)。
準確性提升，外部測試者更傾向于選擇o3-mini的回答，偏好率達到56%。
復雜的現實問題中，錯誤率減少了39%。
在編程和STEM任務中表現優異，尤其是在高推理難度時。
提供三種推理難度級別(低、中、高)，使得用戶和開發者可以在準確性與速度之間找到最佳平衡。

o3-mini的上下文窗口為200,000個token，每次輸出最多為100,000個token。這一性能與o1相同，并且優于DeepSeek-R1的上下文窗口(約128,000到130,000個token)。但這一數字仍然遠低于Google Gemini 2.0 Flash Thinking的新上下文窗口，后者支持高達100萬個token。

說明：

GPQA Diamond：這是一個評估模型在通用問題解答能力上的指標。
AIME 2022-2024：這是美國數學邀請賽(American Invitational Mathematics Examination)的一個分數段，用于評估模型在數學推理和解題能力上的表現。
Codeforces ELO：這是編程競賽平臺Codeforces上的一種評分系統，類似于國際象棋中的Elo評級系統，用于評估模型在編程任務上的表現。

雖然o3-mini專注于推理，但目前它還不具備視覺能力。如果開發者和用戶需要上傳圖片或文件，仍然需要使用o1。

二、競爭加劇

o3-mini的發布標志著OpenAI首次向免費用戶提供推理模型。此前，o1系列模型僅限于ChatGPT Plus、Pro等付費用戶使用，或者通過OpenAI的付費API。

通過2022年11月推出ChatGPT，OpenAI開啟了大語言模型(LLM)聊天機器人的新領域。而在2024年9月，OpenAI推出o1系列模型，正式開創了推理模型這一新類別，采用了新的訓練機制和架構。

然而，OpenAI并沒有將o1開源，這與其名稱和最初的創立理念相悖。與之相對，DeepSeek的R1模型采用了開源方式，且完全免費，允許全球用戶自由使用、修改和定制。R1模型的訓練成本遠低于o1和其他頂級實驗室的模型，因此在消費市場和企業市場中獲得了廣泛應用，甚至OpenAI的投資方微軟和Anthropic的支持者亞馬遜也快速將其添加到自己的云市場中。

DeepSeek還推出了免費的應用和網站，并允許用戶對R1模型進行修改和定制，這使得它在消費者和企業市場迅速崛起。DeepSeek的這種開源政策以及低成本訓練，使其成為了一個強有力的競爭者。

三、ChatGPT中的可用性

o3現在在全球范圍內推向ChatGPT Free、Plus、Team和Pro用戶，Enterprise和Education版本將在下周推出。

免費用戶可以通過選擇聊天欄中的“reason(推理)”按鈕或重新生成回答來首次體驗o3-mini。

Plus和Team用戶的消息限制提高了3倍，從每天50條增加到150條。

Pro用戶將能夠無限制使用o3-mini以及一個新的更高推理版本——o3-mini-high。

此外，o3-mini現在支持與搜索功能的集成，用戶將能夠獲得包含相關網頁鏈接的回答。這個功能仍處于初期階段，OpenAI正在不斷改進推理模型中的搜索能力。

四、API集成與定價

對于開發者，o3-mini已通過Chat Completions API、Assistants API和Batch API提供。該模型支持功能調用、結構化輸出和開發者消息，便于開發者將其集成到實際應用中。

o3-mini的最大優勢之一是其成本效益：它比o1-mini便宜63%，比完整的o1模型便宜93%，每百萬token的進出費用分別為1.10美元/4.40美元(享有50%的緩存折扣)。

盡管如此，DeepSeek的R1模型的API價格仍然更具優勢，僅為0.14美元/0.55美元每百萬token進出。但考慮到DeepSeek總部位于中國，涉及到一些國外老生常談的“用戶數據流動的安全與地緣政治問題”，OpenAI可能仍將是美國和歐洲一些注重安全的客戶和企業的首選。

開發者可以根據應用需求調整推理難度(低、中、高)，以控制延遲和準確性之間的平衡。

五、安全性與隱私保護

OpenAI表示，在o3-mini中采用了“深思熟慮對齊”的方法。這意味著模型會思考并理解人類編寫的安全指南，理解這些指南的意圖和預防的危害，并且會提出自己的方法確保這些危害得到有效避免。OpenAI表示，這樣可以使模型在討論敏感話題時更加寬容，同時保持高安全性。

OpenAI稱，o3-mini在處理安全性和越獄挑戰時，優于GPT-4o。該模型在發布前進行了廣泛的安全性測試。

最近有一些國外的第三方報道指出，DeepSeek的R1模型在50次越獄測試中“全部失敗”，這將使得一些國外媒體宣傳o3-mini在需要高安全性的場合更具優勢。

六、未來展望

o3-mini的發布標志著OpenAI進一步努力讓先進的推理AI變得更加普及和高效，特別是在DeepSeek R1等競爭者的壓力下。Google也在推出其競爭性推理模型Gemini 2 Flash Thinking，并擴展了輸入上下文，支持高達100萬個tokens。

OpenAI聚焦于STEM推理和成本效益，旨在擴大AI驅動的解決方案在消費者和開發者中的應用。

然而，隨著OpenAI不斷擴展雄心，最近宣布的一個由軟銀支持的5000億美元數據中心基礎設施項目Stargate，問題仍然存在：它的戰略是否足以讓這些巨額投資獲得回報?隨著開源模型不斷接近OpenAI的性能并在成本上超越它，OpenAI是否能憑借其安全性、強大的能力、易用的API和用戶友好的界面維持現有客戶，特別是在企業市場上?我們將繼續關注這些發展。

作者｜科技旋渦編輯部

本文由人人都是產品經理作者【科技旋渦】，微信公眾號：【科技旋渦】，原創/授權發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App