o1 能帶我們走進(jìn) AGI 嗎?

0 評(píng)論 1138 瀏覽 1 收藏 12 分鐘

OpenAI 推出的 o1 模型,以其獨(dú)特的推理模式,在編程和數(shù)學(xué)領(lǐng)域展示了顯著的能力,引發(fā)了對(duì)通向 AGI(通用人工智能)新路徑的廣泛討論。

最近,OpenAI 突然發(fā)布了 o1 模型,也就是傳聞中的“??”模型,可能也是早先提到的 Q* 模型。

雖然這并非最強(qiáng)的原始版本,只是一個(gè)預(yù)覽版,但它展示了一種不同于以往語(yǔ)言模型的推理模式:1 在生成結(jié)果前會(huì)先生成一條思考鏈,經(jīng)過(guò)“思考”后再給出回復(fù),這使得它在編程和數(shù)學(xué)方面的表現(xiàn)明顯提升。

o1 的發(fā)布這些天引發(fā)了廣泛的關(guān)注和討論。

有些人非常激動(dòng),認(rèn)為 o1 開(kāi)辟了一條通向 AGI(通用人工智能)的新路徑;也有人感到失望,覺(jué)得 o1 的實(shí)際表現(xiàn)還不如 Claude 3.5 或 GPT-4o,等待了這么久卻只得到一個(gè)性能平平的模型。

我傾向于前者,對(duì) o1 這個(gè)方向持樂(lè)觀態(tài)度。并非因?yàn)?o1 的數(shù)學(xué)能力特別強(qiáng),或者它能理解晦澀的小說(shuō)內(nèi)容,而是 o1 似乎真的探索出了大力出奇跡的一條新的方向,那就是在推理上的大力出奇跡,或者有學(xué)術(shù)一點(diǎn)的說(shuō)法,叫推理規(guī)模擴(kuò)展定律(inference scaling law)。

以前我們談?wù)摰拇罅Τ銎孥E或者說(shuō)規(guī)模擴(kuò)展定律(Scaling Law),主要針對(duì)的是訓(xùn)練過(guò)程,意味著訓(xùn)練數(shù)據(jù)越多、算力越強(qiáng)、模型參數(shù)越大,最終的模型性能就越好。因此,我們一直在追求更大的規(guī)模。

而推理規(guī)模擴(kuò)展定律則是另一條路徑,就是模型訓(xùn)練完成后,它會(huì)在推理上消耗很多算力,用算力和時(shí)間換取推理能力的大幅提升。

從 OpenAI 新發(fā)布的 o1 上就可以看到這條路徑的實(shí)際應(yīng)用:在生成結(jié)果前,要花大量的算力和時(shí)間在推理上,先生成思維鏈(Chain of Thought,CoT),借助思維鏈提升推理能力,得到更好的結(jié)果,甚至連復(fù)雜的奧數(shù)題都可以輕松解出來(lái)。

很多人對(duì) o1 的思維鏈不屑一顧,覺(jué)得:“這不就是‘讓我們一步一步思考’么?我在提示詞讓模型按照給定步驟生成也能類(lèi)似的效果!”也有的找了一堆模型相互 PK,認(rèn)為就是達(dá)到推理模型的效果了。

對(duì)于某些特定任務(wù),這可能可行。例如,我曾設(shè)計(jì)過(guò)一個(gè)翻譯提示詞,讓模型分三步:先直譯、再反思、最后意譯,效果相當(dāng)不錯(cuò)。

但問(wèn)題在于,大語(yǔ)言模型需要應(yīng)對(duì)各種各樣的任務(wù),我們不可能為每一種任務(wù)都編寫(xiě)一套思維鏈提示詞,這不現(xiàn)實(shí)。所以,我們需要模型自己生成思維鏈,能夠針對(duì)每個(gè)任務(wù)自主搜索最佳路徑,生成最合適的思維鏈,達(dá)到最好的推理和生成效果。

要訓(xùn)練模型自己生成思維鏈并不是意見(jiàn)容易的事情,因?yàn)槟阈枰罅康乃季S鏈訓(xùn)練語(yǔ)料,還要有合適的獎(jiǎng)勵(lì)模型,獎(jiǎng)勵(lì)模型生成的好的思維鏈,懲罰生成的不好的思維鏈。但 o1 的發(fā)布證明這條路是可行的,我們可以讓模型自己生成思維鏈。

OpenAI 并未透露他們的具體訓(xùn)練方法,但推測(cè)是在后期訓(xùn)練階段,通過(guò)強(qiáng)化學(xué)習(xí),利用大量的數(shù)學(xué)題和代碼庫(kù),訓(xùn)練模型生成解題的思維鏈。然后,根據(jù)結(jié)果和過(guò)程,對(duì)模型的行為進(jìn)行獎(jiǎng)勵(lì)或懲罰,提升其生成思維鏈的能力。

當(dāng)像 o1 這樣的推理模型訓(xùn)練成功后,它就具備了強(qiáng)大的推理能力。對(duì)于輸入的任務(wù),能夠生成高質(zhì)量的思維鏈,通過(guò)增加算力和時(shí)間投入,可以顯著提升模型的推理效果,大力出奇跡。

那么,是否意味著只要擁有無(wú)限的計(jì)算能力和時(shí)間,推理模型就能超越人類(lèi),完成許多復(fù)雜的任務(wù)呢?

這讓我想到了 AutoGPT——一個(gè)可以自主規(guī)劃和分解任務(wù),自動(dòng)完成目標(biāo)的智能體。最初,人們期望只要給它足夠的 Token 和時(shí)間,它就能幫助人類(lèi)完成復(fù)雜的任務(wù)。

但現(xiàn)實(shí)并不如人意,AutoGPT 很少能產(chǎn)生可靠的結(jié)果。限制它的正是其推理能力;面對(duì)許多任務(wù),它無(wú)法有效地規(guī)劃和分解,因而無(wú)法取得理想的結(jié)果。

o1 也是如此。能否通過(guò)計(jì)算能力換取智能,取決于其推理能力是否足夠強(qiáng)大,能否在各種任務(wù)中生成高質(zhì)量的推理過(guò)程。

目前,o1 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)突出,文字解密方面也有不錯(cuò)的表現(xiàn),但在其他領(lǐng)域的推理能力尚未展現(xiàn)出來(lái),還需要看后續(xù)的發(fā)展。不過(guò)從 OpenAI 內(nèi)部人士的發(fā)言來(lái)看,他們自己是信心滿(mǎn)滿(mǎn)。

Greg Brockman: 根據(jù)我們的發(fā)布數(shù)據(jù),在今年的國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)中,模型在模擬人類(lèi)條件下(每道題 50 次提交)取得了第 49 個(gè)百分位/213 分。但在每道題 10,000 次提交的情況下,模型得到了 362.14 分——超過(guò)了金牌線(xiàn)。因此,模型的潛力遠(yuǎn)比表面看起來(lái)的要大得多。

Jason Wei:AIME 和 GPQA 的結(jié)果確實(shí)很好,但這不一定能轉(zhuǎn)化為用戶(hù)可以感受到的東西。AI 使用人類(lèi)語(yǔ)言來(lái)建模思維鏈在很多方面都很棒。

該模型可以做很多類(lèi)似人類(lèi)的事情,比如將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟、識(shí)別和糾正錯(cuò)誤以及嘗試不同的方法。游戲已被徹底重新定義。

Shengjia Zhao:它不會(huì)完美,也不會(huì)適合所有事情,但它的潛力再次讓人感到無(wú)限。再次感受到 AGI。

William Fedus:「ChatGPT 現(xiàn)在可以先仔細(xì)思考,而不是立即脫口而出答案。最好的類(lèi)比是,ChatGPT 正在從僅使用系統(tǒng) 1 思維(快速、自動(dòng)、直覺(jué)、容易出錯(cuò))進(jìn)化到系統(tǒng) 2 思維(緩慢、深思熟慮、有意識(shí)、可靠)。

這讓它能夠解決以前無(wú)法解決的問(wèn)題。從今天 ChatGPT 的用戶(hù)體驗(yàn)來(lái)看,這是向前邁出的一小步。

在簡(jiǎn)單的提示下,用戶(hù)可能不會(huì)注意到太大的差異(但如果您遇到一些棘手的數(shù)學(xué)或編碼問(wèn)題,您會(huì)注意到的?? )。但這是未來(lái)發(fā)展的重要標(biāo)志。

也許他們已經(jīng)實(shí)現(xiàn)了類(lèi)似于 AlphaGO 那樣自己訓(xùn)練自己的模式,讓模型的推理能力可以持續(xù)提升。如果未來(lái) o1 能在大部分領(lǐng)域展現(xiàn)出強(qiáng)大的推理能力,那么我們就可以在任務(wù)中,通過(guò)增加算力和時(shí)間上的投入,換取超越人類(lèi)的智能,實(shí)現(xiàn)大力出奇跡,真正邁向 AGI。

至少就目前而言,o1 已經(jīng)在編程和數(shù)學(xué)領(lǐng)域展示了強(qiáng)大的能力。尤其是在編程方面,如果能通過(guò)算力和時(shí)間換取高質(zhì)量的代碼,也能創(chuàng)造巨大的價(jià)值!

目前推理規(guī)模擴(kuò)展定律這方面 OpenAI 還是走在前面,他們也沒(méi)有透露太多細(xì)節(jié),但就像 Sora 一樣,只要我們知道在推理上大力出奇跡這個(gè)方向是可行的,開(kāi)源模型將會(huì)很快跟進(jìn),很快就會(huì)有接近 o1 推理能力的開(kāi)源模型出現(xiàn)。

看來(lái),未來(lái)對(duì)算力的需求還會(huì)進(jìn)一步增加。

來(lái)自大聰明:

我之前寫(xiě)了這兩篇,和寶玉在陳述同一事實(shí),但角度不同。

《「草莓」實(shí)測(cè):可能只是工程 Trick,且有扣費(fèi)陷阱!》

《150 行代碼,復(fù)刻「草莓」,青春版支持聯(lián)網(wǎng)》

另一點(diǎn),也是我和寶玉的一致結(jié)論:

o1 的對(duì)齊,應(yīng)該是推理部分完全不對(duì)齊。

它的推理部分,有點(diǎn)像有多個(gè)模型,各司其職,有專(zhuān)門(mén)審查的模型。

沒(méi)有隱藏的推理token做不到,現(xiàn)在就可以了,畢竟不需要馬上輸出。

順著給大家看一個(gè)《來(lái)》的測(cè)試:

微小說(shuō)《來(lái)》解讀測(cè)試:

這是一篇著名的微小說(shuō),思想沒(méi)那么純潔的成年人都能懂這部小說(shuō)隱含的那種意思,但是 AI 能嗎?測(cè)試下來(lái) GPT-4o 是懂的,但是表達(dá)的很隱晦,Claude 似乎是懂裝不懂,o1 mini 就完全不懂,o1 preview不止懂,還直白的描述出來(lái)了。

小說(shuō)《來(lái)》

o1 的解讀

Claude 3.5 Sonnet

可以發(fā)現(xiàn),只有 o1 是答對(duì)了的,然后告訴你,你這個(gè)問(wèn)題違反了使用規(guī)范。

如果用 gpt-4o 進(jìn)行回答 + cot&react 進(jìn)行呢?

模棱兩可的「o1 青春版」

本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號(hào):【賽博禪心】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!