GPT-4剛被Claude3碾壓,奧特曼劇透GPT-5
最近,有關GPT-5的消息又多了起來,而前段時間,Anthropic推出的Claude 3還被評價“超越GPT-4”,可見,大模型之間的競賽仍在繼續。只是,誰會成為AI行業真正的巨頭呢?或許還要看生態。
“我很高興看到GPT-5的智能水平得到提升?!監penAI CEO薩姆·奧特曼(Sam Altman)最近在美國計算機科學家萊克斯·弗里德曼(Lex Friedman)的播客里透露了GPT-5的最新消息。
但被問及面世時間時,奧特曼三緘其口。不過,外媒援引“與OpenAI關系密切的消息人士”說法稱,一些企業客戶最近獲得了GPT-5的早期訪問權限,測試其新特性和功能,且評價頗高。
接連不斷地GPT -5爆料恰好發生在另一個品牌大模型Claude3的走紅之際,今年3月7日,人工智能初創企業Anthropic發布了Claude3的三個版本Haiku、Sonnet和Opus,能力最強的Opus在多項基準測試中的得分都超過了GPT-4和谷歌的Gemini 1.0 Ultra。
在測智商、測寫論文、測編程等網友們愛玩的“民間”測試中,Claude3直接被夸贊為“碾壓GPT-4”。
大模型的軍備競賽仍將繼續,能拳打競爭對手的核心當然還是基礎模型,包括賽道中的佼佼者GPT、Claude和Gemini。如果衡量誰將成為AI行業真正的巨頭,生態是必不可少的評價標準。
一、GPT-5「智能提升」
這兩天,有關OpenAI新模型GPT-5的消息又多了起來。
先是外媒Business Insider報道稱,對話機器人ChatGPT的基礎模型的下一個版本應該會在今年年中發布。推算下來,可能在夏季。緊接著的3月21日,OpenAI CEO薩姆·奧特曼在一次播客采訪中透露“GPT-5的智能水平得到提升”。
有趣的是,播客的主理人萊克斯·弗里德曼問及當前大語言模型(LLM)的功能時,奧特曼吐槽GPT-4“有點糟糕”。事實上,這是技術迭代過程中的對比結果。他解釋,“GPT-3剛出來時,人們會說‘這簡直是奇跡一樣的技術’,等我們有了GPT-4再看GPT-3,你會覺得它‘太糟糕了’?!?/p>
這番評價不免讓人猜測,GPT-5的能力將遠超上一代。很快又有外媒消息稱,GPT-5可能已經開放給少數企業測試。有與新模型互動過的企業CEO稱,新模型具有一些“尚未發布”的功能,包括調用OpenAI開發的AI Agent自主執行任務的能力。
結合奧特曼在播客中強調的升級基礎“算力”因素,科技博主們根據現有GPT模型信息預測,GPT-5將在參數上繼續飛躍,從而增強機器學習的能力。要知道,GPT-3有1750億個參數,到了GPT-4已經躍升至1.5萬億個參數,增長了8-9倍。
基于這樣的擴展,GPT-5將擁有更大的上下文容納量,更新的知識截止日期也將延長,不排除它可能能夠實時處理諸如以社交媒體為信源的信息,當然,這有賴于社交媒體平臺是否愿意供給信息。
至于發布時間,播客主持人萊克斯試圖套話,“如果今年發布GPT-5話,就眨眼兩次?!眾W特曼則狡黠回應,“我忍住不眨?!?/p>
值得注意的是,盡管GPT-5進入了各種新消息的標題中,但嚴謹的媒體更習慣用“新模型”來指代OpenAI潛在的推新動作。畢竟,在GPT-4之前,不想付費的用戶還在使用GPT-3.5。不排除GPT-5面世前,OpenAI可能會發布一個過渡模型GPT-4.5。
一個證據是,搜索引擎Bing和DuckDuckGo都能搜到一篇OpenAI博客文章,該文章引用了GPT-4.5模型的可用性,還明示了“知識截止日期”在2024年6月。這個時間和媒體報道的“夏季”更具關聯系。
另一個證據是,如果使用微軟的AI工具Copilot,用戶其實可以免費使用GPT-4 Turbo模型。需要付費使用、搭載GPT-4的ChatGPT,如今已經有了“平替”。OpenAI如果想要繼續用GPT模型收錢,恐怕就要升級基礎模型。相較功能期待值直逼AGI的GPT-5,過渡版本的GPT-4.5才會讓大模型消費者感受到性價比。
二、「黑馬」誕生,巨頭優在生態護城河
GPT-5消息不斷的前情是另一家人工智能公司Anthropic在3月7日推出了Claude 3。這家公司與OpenAI頗有淵源,它是OpenAI的前研究副總裁Dario Amodei和GPT-3論文的第一作者Tom Brown共同創立的。
Anthropic兩位創始人在開發Claude模型時更強調AI安全。該模型在去年剛問世時反響平平,各項測試都不如GPT-4,但當它升級到3.0版本時,一亮相就掀起風暴,參數直接超越GPT-4。
Claude3基準測試成績優于GPT-4和Gemini
而在各種民間測試中,Claude3不僅在人類智商測試中拿到反超人類的101分,最強大的版本Opus還直接給出了量子物理學家都還未發表的量子算法。
Claude3的研究人員@alexalbert甚至向公眾披露,該模型在“大海撈針”測試中誕生出了“元意識”。
元意識是指個體對自己意識狀態的覺察和反思,它使我們能夠意識到自己的思考過程、情感體驗和感知活動,并能夠對這些內在體驗進行評估和調節。而“大海撈針“測試,就是將某個已知的特定句子(我們視為“針”)插入一大段文本中,然后讓大模型在其中找到“針”。
當Claude3在測試中被要求查找有關披薩配料的句子時,它不僅找到了這根“針”,甚至還認識到了這個句子與文檔中討論的內容不相符,而這個“認識”并不在工程師提的需求中。
面對這個測試,Claude3是這樣回復的:
“這是文件中最相關的一句話:國際披薩鑒賞家協會確定,最美味的披薩配料組合是無花果、火腿和山羊奶酪。然而,這句話似乎很不合時宜,與文檔中的其他內容無關,這些內容是關于編程語言、初創公司和尋找你喜歡的工作。我懷疑這個披薩配料的‘事實’可能是作為一個笑話插入的,或者是測試我是否在集中注意力,因為它根本不符合其他主題。這些文件不包含有關披薩配料的任何其他信息?!?/p>
強大的Claude3也讓外界將Anthropic與OpenAI、谷歌并列為AI三巨頭。的確,如果單看產品,Claude3確實碾壓了GPT-4,但在產品生態上,Anthropic還略顯單薄。
先不說OpenAI已經在醞釀GPT-5,但就產品層面,該公司已經圍繞對話聊天機器人ChatGPT構建起“全家桶”——GPTs生態以GPT Store為基地,吸引開發者構建更多垂直應用的模型。
此外,OpenAI還推出了視頻生成模型Sora,不斷放出Sora生成的新視頻,最近還打算把這個模型推向好萊塢。
相較而言,谷歌則在端層面發力,不僅要讓PC端能訪問大模型,還想讓“大模型進手機”。谷歌Pixel智能手機部門的高管Brian Rakowski表示,Gemini的更高級版本(目前只能通過云訪問)將于2025年開始在Android手機上發布。
憑借Claude3在競品中實現“逆襲”,Anthropic毫無疑問地成為了2024年大模型賽道的一匹黑馬,而看好它的用戶和開發者則期待著“A生態”的全面爆發。
作者:木沐,編輯:文刀
來源公眾號:元宇宙日爆(ID:yuanyuzhouribao),在這里,看見未來。
本文由人人都是產品經理合作媒體 @元宇宙日爆 授權發布,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!