深度|OpenAI 今秋發(fā)布“草莓”模型!應(yīng)用于旗艦?zāi)P?Orion 訓(xùn)練和即將推出的 Agent,微軟合作條款也將發(fā)生變化

1 評(píng)論 2697 瀏覽 0 收藏 9 分鐘

OpenAI 在人工智能領(lǐng)域再次掀起波瀾,計(jì)劃于今年秋季發(fā)布其新型 AI 模型 "Strawberry"。這一消息不僅引起了業(yè)界的廣泛關(guān)注,也預(yù)示著在對(duì)話式 AI 和大型語言模型(LLM)領(lǐng)域即將到來的新變革。

OpenAI 正在尋求更多資本支持的同時(shí),其研究人員正嘗試推出一款他們認(rèn)為能夠比現(xiàn)有 AI 更好地解決復(fù)雜問題的新型 AI 產(chǎn)品。?本月早些時(shí)候,CEO Sam Altman 在推特上發(fā)布了一張草莓的圖片,但沒有做出解釋,這引發(fā)了人們對(duì)即將推出的產(chǎn)品的猜測(cè)。據(jù)知情人士透露,今年夏天,OpenAI 還向國家安全官員展示了 Strawberry 的演示。

Altman 還在尋求為公司籌集更多資金,并尋找減少虧損的方法。自 2019 年以來,OpenAI 已從微軟籌集了約 130 億美元資金,作為與這家企業(yè)軟件巨頭合作的一部分,該合作協(xié)議將持續(xù)到 2030 年。

據(jù)知情人士透露,合作協(xié)議的條款可能會(huì)發(fā)生變化,包括 OpenAI 向微軟支付租用云服務(wù)器開發(fā) AI 的費(fèi)用。其中,云服務(wù)器是 OpenAI 最大的成本。

01 關(guān)于 “Strawberry”

根據(jù) The Information,兩位參與 OpenAI 該項(xiàng)目的人員透露,研究人員計(jì)劃在今年秋季推出代號(hào)為“Strawberry”(此前稱為 Q*,發(fā)音為 Q Star)的新型 AI,并有可能將其作為 ChatGPT 的一部分。

Strawberry 的起源可以追溯到研究領(lǐng)域。它的研究始于前 OpenAI 首席科學(xué)家 Ilya Sutskever。在他離職之前,OpenAI 研究人員 Jakub Pachocki 和 Szymon Sidor 在 Sutskever 的工作基礎(chǔ)上開發(fā)了一種新的數(shù)學(xué)解決模型 Q*,這讓一些專注于 AI 安全的研究人員感到擔(dān)憂。

就在 Q* 誕生之前,OpenAI 的研究人員開發(fā)了一種稱為測(cè)試時(shí)計(jì)算的概念變體,旨在提升 LLM 的解決問題能力,該方法使得模型在執(zhí)行某人的命令或回答問題時(shí)能夠花更多時(shí)間考慮所有部分。當(dāng)時(shí),Sutskever 還發(fā)表了一篇與此相關(guān)的博客文章。

Strawberry 可以解決此前未見過的數(shù)學(xué)問題,這是現(xiàn)今的聊天機(jī)器人無法可靠完成的任務(wù)。此外,它還經(jīng)過訓(xùn)練以解決編程相關(guān)的問題,但它的能力并不限于回答技術(shù)性問題。

在給予更多時(shí)間“思考”的情況下,Strawberry 模型還可以回答客戶關(guān)于更主觀話題的問題,比如產(chǎn)品營銷策略。

為了展示 Strawberry 在語言相關(guān)任務(wù)上的能力,OpenAI 的員工向同事展示了 Strawberry 如何解決《紐約時(shí)報(bào)》復(fù)雜的文字游戲 Connections。

The Information 認(rèn)為,能夠解決復(fù)雜數(shù)學(xué)問題的 AI 可能是一項(xiàng)潛在的有利可圖的應(yīng)用,因?yàn)楝F(xiàn)有的 AI 在航空航天和結(jié)構(gòu)工程等數(shù)學(xué)密集型領(lǐng)域表現(xiàn)不佳。

研究人員發(fā)現(xiàn) ChatGPT 容易給出錯(cuò)誤答案,為了改善模型的推理能力,一些初創(chuàng)公司已經(jīng)開始使用一種廉價(jià)的解決辦法,將問題分解為更小的步驟,盡管這種變通方法既慢又昂貴。

02 減少下一代模型 Orion 幻覺

Strawberry 最重要的應(yīng)用之一是為OpenAI 正在開發(fā)的下一個(gè)旗艦大型語言模型Orion 生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。

OpenAI 的前景在一定程度上取決于其正在開發(fā)的新旗艦?zāi)P?Orion 的最終發(fā)布。該模型旨在改進(jìn)去年早些時(shí)候推出的現(xiàn)有旗艦?zāi)P?GPT-4。

OpenAI 研究人員表示,使用 Strawberry 可以幫助 Orion 減少幻覺或錯(cuò)誤的數(shù)量。通過更大的 Strawberry 模型來生成訓(xùn)練 Orion 的數(shù)據(jù),這種由 AI 生成的數(shù)據(jù)被稱為“合成數(shù)據(jù)”。

Altman 在五月的一次活動(dòng)中表示:“我們覺得我們有足夠的數(shù)據(jù)來開發(fā)下一個(gè)模型。”他還表示:“我們進(jìn)行了各種實(shí)驗(yàn),包括生成合成數(shù)據(jù)。”

這意味著 Strawberry 可能有助于 OpenAI 克服獲取足夠高質(zhì)量數(shù)據(jù)的限制,從而通過從互聯(lián)網(wǎng)中獲取文本或圖像等現(xiàn)實(shí)世界數(shù)據(jù)來訓(xùn)練新模型。

此外,Strawberry 可能會(huì)幫助即將推出的 OpenAI Agent。Minion AI  CEO 兼 GitHub Copilot 前首席架構(gòu)師 Alex Graveley 表示,OpenAI 或通過 Strawberry 生成更高質(zhì)量的訓(xùn)練數(shù)據(jù)可能有助于 OpenAI 減少模型幻覺的數(shù)量。

他還表示,想象一個(gè)沒有幻覺的模型,當(dāng)你問它一個(gè)邏輯難題時(shí),它能第一次就給出正確答案。模型能夠做到這一點(diǎn)的原因是訓(xùn)練數(shù)據(jù)中的歧義更少,因此它的猜測(cè)也更少。

03 基于 Orion 模型的 ChatGPT

推出 Strawberry 的努力是 OpenAI 為了在對(duì)話式 AI 或 LLM 領(lǐng)域繼續(xù)保持領(lǐng)先地位的一部分。這項(xiàng)技術(shù)還對(duì)未來產(chǎn)品有著重要影響,這些產(chǎn)品被稱為 Agent,旨在解決多步驟任務(wù)。

OpenAI 及其競(jìng)爭(zhēng)對(duì)手希望這些 Agent 人能夠開辟更多的收入機(jī)會(huì)。OpenAI 的業(yè)務(wù)正以驚人的速度增長:其向企業(yè)銷售 LLM 和 ChatGPT 訂閱服務(wù)的收入大約是去年同期的三倍,每月收入達(dá) 2.83 億美元,盡管其月度虧損可能高于此數(shù),公司估值 860 億美元。

然而,其他競(jìng)爭(zhēng)對(duì)手已經(jīng)推出了與 GPT-4 性能相當(dāng)?shù)哪P?。目前尚不清?Strawberry 的聊天機(jī)器人版本能否在今年成功推出。

據(jù)悉,這個(gè)聊天機(jī)器人版本是 Strawberry 模型的一個(gè)更小、更簡化的版本,稱為蒸餾模型,它試圖在保持較大模型相同性能的同時(shí),更易于操作并降低成本。

此外,OpenAI 內(nèi)部也在努力通過一種名為“提煉”的過程來簡化和縮小 Strawberry ,以便在 Orion 發(fā)布之前將其用于基于聊天的產(chǎn)品。鑒于頂級(jí) AI 開發(fā)商之間的競(jìng)爭(zhēng)日益激烈,這應(yīng)該并不令人意外。

目前還不確定以 Strawberry 為基礎(chǔ)的產(chǎn)品會(huì)是什么樣子,但一個(gè)顯而易見的想法是將 Strawberry 改進(jìn)的推理能力融入 ChatGPT 中。

例如,本月早些時(shí)候,谷歌在 OpenAI 之前推出了 AI 驅(qū)動(dòng)的語音助手,盡管 OpenAI 最早在五月宣布了其版本,該助手能夠靈活應(yīng)對(duì)用戶的打斷和話題突然變化。

The Information 認(rèn)為,這意味著 Strawberry 可能不適合用戶期望立即響應(yīng)的應(yīng)用程序,例如 OpenAI SearchGPT 搜索引擎,但非常適合對(duì)時(shí)間不太敏感的用例,例如修復(fù) GitHub 中的非關(guān)鍵編碼錯(cuò)誤。

無論 Strawberry 是否作為產(chǎn)品發(fā)布,隨著 OpenAI 尋求繼續(xù)領(lǐng)先競(jìng)爭(zhēng)對(duì)手并保持顯著的收入增長,人們對(duì) Orion 的期待都在不斷增加。

Coatue 在最新的 EMW 2024 中表示,英偉達(dá) 3 萬億市值對(duì)技術(shù)主導(dǎo)的“操作系統(tǒng)”而言已經(jīng)成為一種常態(tài)。

本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號(hào):【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. Strawberry 可能不適合用戶期望立即響應(yīng)的應(yīng)用程序,例如 OpenAI SearchGPT 搜索引擎,但非常適合對(duì)時(shí)間不太敏感的用例,例如修復(fù) GitHub 中的非關(guān)鍵編碼錯(cuò)誤。無論 Strawberry 是否作為產(chǎn)品發(fā)布,隨著 OpenAI 尋求繼續(xù)領(lǐng)先競(jìng)爭(zhēng)對(duì)手并保持顯著的收入增長,人們對(duì) Orion 的期待都在不斷增加。

    來自湖南 回復(fù)