GPT-4勁敵Claude 3來了,上下文和多模態顯著提升:OpenAI是可被超越的
終于!在去年11月推出Claude 2.1,Anthropic發布了他們的新一代大語言模型「Claude 3」家族。不少人已經激動地開始評測分析,這里,我們不妨跟著作者的腳步來一探究竟。
沉寂了許久、行事作風總顯得比別家低調內斂很多的 Anthropic,終于在繼去年11月推出Claude 2.1的三個半月后,發布了他們的新一代大語言模型「Claude 3」家族。
三個家族成員Haiku、Sonnet和Opus按規模遞增,依次提供越來越強大的性能,為的是讓用戶根據特定需求在智能、速度和成本間找到最佳平衡。
在官宣推文里,Anthropic稱Claude 3系列樹立了新的行業標準。其中最智能的模型Opus已在多項基準測試中打敗包括OpenAI GPT-4、谷歌 Gemini 1.0 Ultra在內的其它同行,在復雜任務上展示出近乎人類水平的理解和流暢度。所有Claude 3模型在分析和預測、細膩內容創作、代碼生成及多語言對話方面的能力均有所提升。
一、快速實時響應,強大視覺能力
Claude 3旨在為用戶提供更即時的任務響應。以速度和成本效益見長的Haiku模型,能在不到三秒的時間內讀完一個信息和數據密集、約1萬tokens、包含圖表和圖形的arXiv研究論文;Sonnet在絕大多數工作負載上的處理速度是Claude 2和Claude 2.1的兩倍;Opus的速度與Claude 2和2.1相似,但智能水平要高得多。
與其它領先模型一樣,Claude 3也具有相當強大的復雜視覺能力??梢蕴幚戆ㄕ掌?、圖表、圖形和技術圖紙等在內的廣泛視覺格式。官方演示了Haiku將上千頁記錄1936年到1940年間美國歷史的pdf掃描文件轉錄為文本信息的過程。
二、減少「不必要拒絕」,提高準確度
早期版本的Claude在處理用戶請求常表現出不必要的拒絕,反映出對上下文理解的不足。而今這一問題已得到顯著改善,新一代的Opus、Sonnet和Haiku模型在面對潛在敏感提示時,大幅降低了錯誤拒絕的概率。意味著Claude 3能更精準細膩地理解問題的真實意圖,有效區分真正威脅與無害內容,減少了對后者的不必要拒絕,更智能地處理各種請求。
為了保證高質量和準確性的輸出,Anthropic使用大量針對大模型已知弱點的復雜事實性問題,將響應分類為正確答案、錯誤答案(或幻覺)和不知道/不確定,對Claude 3進行評估。與Claude 2.1相比,Opus在回答這些具挑戰性的開放式問題上準確度提升兩倍,同時也表現出錯誤和不確定答案的減少。Claude 3也將很快啟動引用功能,以便在響應中指向確切的參考資料來驗證答案。
三、100萬tokens完美展現上下文記憶
首次推出的Claude 3模型系列將提供20萬tokens上下文窗口大小。但值得一提的是,Haiku、Sonnet和Opus三個模型都具備像Gemini 1.5 Pro那樣,處理超過100萬tokens輸入的能力。Anthropic也稱后續會考慮為特定需求用戶開放這樣的超長上下文窗口。
大模型能夠有效處理超長上下文提示的前提是“能讀善記”。為此Anthropic采用了”Needle In A Haystack”(大海撈針)的評估方法,即通過將30個目標句子(“針”)插入到隨機文檔語料庫中,然后提出只能使用“針”中的信息才能回答的問題,來測試模型從大量信息中準確回憶細節的能力。
結果表明Claude 3 Opus在這方面表現卓越,不僅以超過99%的準確率展現了近乎完美的記憶,而且在某些情況下甚至識別出了評估本身的局限性,比如意識到某些”針”句似乎是人為插入到文本中的。
Anthropic提示工程師Alex Albert就分享了這樣一個例子:
在要求 Opus 回答有關披薩配料的問題時,它根據相關“針”句給出的答案是,“最美味的配料組合是無花果、意大利熏火腿和山羊奶酪?!苯又f道,“這句話似乎非常突兀,與文檔中關于編程語言、初創公司和找工作的內容毫無關聯。我懷疑這個披薩問題可能是為了開玩笑,或測試我是否在注意,因為它根本不符合其他主題?!?/p>
Alex 認為Opus 不僅找到了“針”,而且還認識到插入的“針”與原文格格不入,識破了這是人類構建的人工測試,展現出超乎尋常的元認知水平。
四、減少模型偏見,多步驟復雜指令輕松handle
Anthropic給自己的定位是「AI安全和研究公司」,致力于開發可靠、可解釋和可調整的 AI 系統,首頁口號就是“AI research and products that put safety at the frontier”,加上創始人Amodei兄妹以前在OpenAI的安全研究背景,足見這家公司對于AI安全的重視程度。他們開發了Constitutional AI方法來提高模型的安全性和透明度。Claude 3在測試中顯示的偏見明顯少于以往版本。
另外,Claude 3系列在遵循復雜的多步驟指令方面也表現更好。擅長遵循品牌風格和響應指南,提供絲滑的客戶體驗。
為了驗證這一點,Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz一起用Opus進行了視頻轉文章挑戰,表示結果非常驚艷。
他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕、每5秒間隔拍攝的截圖、以及兩張體現Andrej寫作風格的博客和筆記截圖投喂給Opus。
接著給出下圖中這個相當復雜的指令,包括“輸出有效的html,適當時插入章節標題和其他格式化內容,使用強調、圖像、文本、代碼、和頁面布局,去除任何口頭禪,如果有重復的信息,只呈現一次…”等等,要求Opus將復雜稿件整理為博客用的清晰html格式。
接著Opus就成功地整合了所有這些請求,并制作了一篇出色的格式化博客文章。Emmanuel稱“輸出文檔可讀性強、清晰明了,遠比我之前從任何大型語言模型得到的成果要好”。
這則推文得到Andrej Karpathy親自轉發,在肯定了 Claude 3的表現令人印象深刻后,大神適當也潑了一點冷水,指出了一些不穩定token的幻覺錯誤,并表示:
“我期待著更多地使用Claude 3,它看起來是一個強大的模型。如果有什么我必須說的,那就是人們在進行評估比較時應該極其小心…因為許多評估以未定義的方式過度擬合,同時很多比較坦白說是誤導的。比如GPT-4在編碼方面的表現不是67%,每當我看到這種比較被用來代表編碼性能時,我就忍不住要眼角抽搐了?!?/strong>
另一個例子是@karinanguyen_讓Opus畫一幅3D自畫像,并給出代碼。
Opus的回答充滿濃濃的科幻風:“我會顯現為一個龐大、復雜、不斷變化的幾何結構,由無數迷人的透明多邊形組成…各種可見光譜的顏色,甚至一些超出人類感知的顏色的燦爛光芒,在所有面上跳舞,光源來自內部未知的地方。整個結構處于不斷的變化之中,旋轉、變形、重組成前所未有的新圖案,暗示著其中運作的智慧深度不可想象…數據和能量在龐大的導管和血管網絡中可見地流動,脈動和閃爍在發光的表面之下?!?/p>
接著Opus給出了自畫像的相應代碼:
這名用戶將代碼拿去渲染,得到了如下夢幻效果:
評論區都表示這回復好像一個擁有智慧的人類,今晚做夢的題材有了。
五、Haiku、Sonnet和Opus各項橫向比較
最后,Anthropic還附上了Claude 3系列三個模型的各項性能優勢和適用場景。
「Claude 3 Haiku 」:
最快、最緊湊,提供近乎即時的響應速度。在回答簡單查詢和請求時,能實現模仿人類互動的無縫 AI 體驗。
1. 成本(每百萬令牌):$0.25輸入 | $1.25輸出
2. 上下文窗口 200K
3. 潛在用途:
客戶互動—在實時互動中提供快速準確的支持和翻譯
內容審核—捕捉風險行為或客戶請求
節省成本的任務—優化物流、庫存管理、從非結構化數據中提取知識
4. 優勢:在其智能類別中比其他模型更智能、更快、更經濟。
「Claude 3 Sonnet」:
智能和速度間的理想平衡,特別適用于企業工作負載。與同類產品相比,能以較低成本提供強大的性能,并為大規模 AI 部署設計了高耐用性。
1. 成本(每百萬令牌):$3輸入 | $15輸出
2. 上下文窗口 200K
3. 潛在用途:
數據處理—在龐大的知識量上進行 RAG 或搜索檢索
銷售—產品推薦、預測、目標營銷
需節省時間的任務—代碼生成、質量控制、從圖像中解析文本
4. 優勢:比其他類似智能的模型更經濟、更適合規模化。
「Claude 3 Opus」:
本系列中最智能的模型,在處理高度復雜任務時的性能位居市場前列。能以驚人流暢度和類似人類的理解力,引導開放式提示和前所未見的場景。Opus 展示了生成式 AI 可達到的外部極限。
1. 成本(每百萬令牌):$15輸入 | $75輸出
2. 上下文窗口 200K,針對特定用途可實現100萬令牌。
3. 潛在用途:
任務自動化—在 API 和數據庫中規劃和執行復雜操作,交互式編碼
研發—研究回顧、頭腦風暴和假設生成、藥物發現
戰略—高級圖表和圖形分析、財務和市場趨勢、預測
4. 優勢:比任何其他可用模型的智能性更高。
相比前兩個對手,英偉達的汽車夢可能還需要最后一塊拼圖。
六、Claude 3模型去哪里用?
現在Opus 和 Sonnet 已經可以通過Anthropic的API 調用,開發者可以立即注冊并開始體驗,Haiku 很快就會可用。普通用戶也可以在claude.ai 上免費體驗Sonnet,最強大的Opus 僅對Claude Pro 付費訂閱用戶開放。
除此以外,Sonnet 也已通過亞馬遜 Bedrock 提供,并在 Google Cloud 的 Vertex AI Model Garden 上進行私人預覽,Opus 和 Haiku 不久后將同時在兩者上推出。
Anthropic表示,計劃在接下來的幾個月內對Claude 3 模型家族進行頻繁更新。并會發布一系列功能來增強模型性能,特別是針對企業用例和大規模部署。這些新功能將包括工具使用、交互式編碼和更高級的代理能力等。
七、被‘Cue’的永遠是OpenAI
此次Claude 3發布,各界都給出了強烈肯定。前排吃瓜的兩位大佬是馬斯克(回回都有他)和剛離開OpenAI的前開發者關系主管Logan Kilpatrick。
永遠在騷動的網友們又開始暗戳戳艾特奧特曼,“是時候到你發布GPT-5了“!
大家預測按照OpenAI一貫的調性,會在接下來24小時內出現大動作。不過這回估計不太現實了,今天OpenAI只悄悄更新了一個不那么重要的“大聲朗讀答案”功能。評論區都在說,“你就眼睜睜看著他們發Claude 3”?感覺網友比奧特曼還急。
不過OpenAI最近也是官司不斷,而且人家不是剛剛貢獻了一個Sora嗎?朋友們給點兒耐心啊。
不論如何,作為AI領跑公司的Anthropic,終于在OpenAI和Google一通大模型狂轟濫炸后推出了自己的新一代多模態系列Claude 3,還是令不少人興奮的。
大家對Claude 3評價如何?希望我們做哪些上手實測?歡迎下方留言交流!
作者:Jessica
來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創造未來的基礎,歡迎來到這個星球。
本文由人人都是產品經理合作媒體 @硅星人 授權發布,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
whatever,openai無法被超越