在线观看亚洲视频,av无码中文字幕不卡一区二区三区

中文字幕无码av不卡一区,亚洲综合AV永久无码精品一区二区,黑人巨大白妞出浆,黄色高清无码免费看,久久久久免费精品国产,久久无码人妻丰满熟妇区毛片,欧美日韩国产综合草草,久久福利网站,亚洲一区二区三区中文字幕在线,av国内精品久久久久影院

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

GPT-4勁敵Claude 3來了，上下文和多模態顯著提升：OpenAI是可被超越的

硅星人

2024-03-05

1 評論 2076 瀏覽 11 收藏

17 分鐘

終于！在去年11月推出Claude 2.1，Anthropic發布了他們的新一代大語言模型「Claude 3」家族。不少人已經激動地開始評測分析，這里，我們不妨跟著作者的腳步來一探究竟。

沉寂了許久、行事作風總顯得比別家低調內斂很多的 Anthropic，終于在繼去年11月推出Claude 2.1的三個半月后，發布了他們的新一代大語言模型「Claude 3」家族。

三個家族成員Haiku、Sonnet和Opus按規模遞增，依次提供越來越強大的性能，為的是讓用戶根據特定需求在智能、速度和成本間找到最佳平衡。

在官宣推文里，Anthropic稱Claude 3系列樹立了新的行業標準。其中最智能的模型Opus已在多項基準測試中打敗包括OpenAI GPT-4、谷歌 Gemini 1.0 Ultra在內的其它同行，在復雜任務上展示出近乎人類水平的理解和流暢度。所有Claude 3模型在分析和預測、細膩內容創作、代碼生成及多語言對話方面的能力均有所提升。

一、快速實時響應，強大視覺能力

Claude 3旨在為用戶提供更即時的任務響應。以速度和成本效益見長的Haiku模型，能在不到三秒的時間內讀完一個信息和數據密集、約1萬tokens、包含圖表和圖形的arXiv研究論文；Sonnet在絕大多數工作負載上的處理速度是Claude 2和Claude 2.1的兩倍；Opus的速度與Claude 2和2.1相似，但智能水平要高得多。

與其它領先模型一樣，Claude 3也具有相當強大的復雜視覺能力?？梢蕴幚戆ㄕ掌?、圖表、圖形和技術圖紙等在內的廣泛視覺格式。官方演示了Haiku將上千頁記錄1936年到1940年間美國歷史的pdf掃描文件轉錄為文本信息的過程。

二、減少「不必要拒絕」，提高準確度

早期版本的Claude在處理用戶請求常表現出不必要的拒絕，反映出對上下文理解的不足。而今這一問題已得到顯著改善，新一代的Opus、Sonnet和Haiku模型在面對潛在敏感提示時，大幅降低了錯誤拒絕的概率。意味著Claude 3能更精準細膩地理解問題的真實意圖，有效區分真正威脅與無害內容，減少了對后者的不必要拒絕，更智能地處理各種請求。

為了保證高質量和準確性的輸出，Anthropic使用大量針對大模型已知弱點的復雜事實性問題，將響應分類為正確答案、錯誤答案（或幻覺）和不知道/不確定，對Claude 3進行評估。與Claude 2.1相比，Opus在回答這些具挑戰性的開放式問題上準確度提升兩倍，同時也表現出錯誤和不確定答案的減少。Claude 3也將很快啟動引用功能，以便在響應中指向確切的參考資料來驗證答案。

三、100萬tokens完美展現上下文記憶

首次推出的Claude 3模型系列將提供20萬tokens上下文窗口大小。但值得一提的是，Haiku、Sonnet和Opus三個模型都具備像Gemini 1.5 Pro那樣，處理超過100萬tokens輸入的能力。Anthropic也稱后續會考慮為特定需求用戶開放這樣的超長上下文窗口。

大模型能夠有效處理超長上下文提示的前提是“能讀善記”。為此Anthropic采用了”Needle In A Haystack”（大海撈針）的評估方法，即通過將30個目標句子（“針”）插入到隨機文檔語料庫中，然后提出只能使用“針”中的信息才能回答的問題，來測試模型從大量信息中準確回憶細節的能力。

結果表明Claude 3 Opus在這方面表現卓越，不僅以超過99%的準確率展現了近乎完美的記憶，而且在某些情況下甚至識別出了評估本身的局限性，比如意識到某些”針”句似乎是人為插入到文本中的。

Anthropic提示工程師Alex Albert就分享了這樣一個例子：

在要求 Opus 回答有關披薩配料的問題時，它根據相關“針”句給出的答案是，“最美味的配料組合是無花果、意大利熏火腿和山羊奶酪?！苯又f道，“這句話似乎非常突兀，與文檔中關于編程語言、初創公司和找工作的內容毫無關聯。我懷疑這個披薩問題可能是為了開玩笑，或測試我是否在注意，因為它根本不符合其他主題?！?/p>

Alex 認為Opus 不僅找到了“針”，而且還認識到插入的“針”與原文格格不入，識破了這是人類構建的人工測試，展現出超乎尋常的元認知水平。

四、減少模型偏見，多步驟復雜指令輕松handle

Anthropic給自己的定位是「AI安全和研究公司」，致力于開發可靠、可解釋和可調整的 AI 系統，首頁口號就是“AI research and products that put safety at the frontier”，加上創始人Amodei兄妹以前在OpenAI的安全研究背景，足見這家公司對于AI安全的重視程度。他們開發了Constitutional AI方法來提高模型的安全性和透明度。Claude 3在測試中顯示的偏見明顯少于以往版本。

另外，Claude 3系列在遵循復雜的多步驟指令方面也表現更好。擅長遵循品牌風格和響應指南，提供絲滑的客戶體驗。

為了驗證這一點，Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz一起用Opus進行了視頻轉文章挑戰，表示結果非常驚艷。

他們首先將大神Andrej Karpathy一則2小時13分鐘科普視頻的原始字幕、每5秒間隔拍攝的截圖、以及兩張體現Andrej寫作風格的博客和筆記截圖投喂給Opus。

接著給出下圖中這個相當復雜的指令，包括“輸出有效的html，適當時插入章節標題和其他格式化內容，使用強調、圖像、文本、代碼、和頁面布局，去除任何口頭禪，如果有重復的信息，只呈現一次…”等等，要求Opus將復雜稿件整理為博客用的清晰html格式。

接著Opus就成功地整合了所有這些請求，并制作了一篇出色的格式化博客文章。Emmanuel稱“輸出文檔可讀性強、清晰明了，遠比我之前從任何大型語言模型得到的成果要好”。

這則推文得到Andrej Karpathy親自轉發，在肯定了 Claude 3的表現令人印象深刻后，大神適當也潑了一點冷水，指出了一些不穩定token的幻覺錯誤，并表示：

“我期待著更多地使用Claude 3，它看起來是一個強大的模型。如果有什么我必須說的，那就是人們在進行評估比較時應該極其小心…因為許多評估以未定義的方式過度擬合，同時很多比較坦白說是誤導的。比如GPT-4在編碼方面的表現不是67%，每當我看到這種比較被用來代表編碼性能時，我就忍不住要眼角抽搐了?！?/strong>

另一個例子是@karinanguyen_讓Opus畫一幅3D自畫像，并給出代碼。

Opus的回答充滿濃濃的科幻風：“我會顯現為一個龐大、復雜、不斷變化的幾何結構，由無數迷人的透明多邊形組成…各種可見光譜的顏色，甚至一些超出人類感知的顏色的燦爛光芒，在所有面上跳舞，光源來自內部未知的地方。整個結構處于不斷的變化之中，旋轉、變形、重組成前所未有的新圖案，暗示著其中運作的智慧深度不可想象…數據和能量在龐大的導管和血管網絡中可見地流動，脈動和閃爍在發光的表面之下?！?/p>

接著Opus給出了自畫像的相應代碼：

這名用戶將代碼拿去渲染，得到了如下夢幻效果：

評論區都表示這回復好像一個擁有智慧的人類，今晚做夢的題材有了。

五、Haiku、Sonnet和Opus各項橫向比較

最后，Anthropic還附上了Claude 3系列三個模型的各項性能優勢和適用場景。

「Claude 3 Haiku 」：

最快、最緊湊，提供近乎即時的響應速度。在回答簡單查詢和請求時，能實現模仿人類互動的無縫 AI 體驗。

1. 成本（每百萬令牌）：$0.25輸入 | $1.25輸出

2. 上下文窗口 200K

3. 潛在用途：

客戶互動—在實時互動中提供快速準確的支持和翻譯

內容審核—捕捉風險行為或客戶請求

節省成本的任務—優化物流、庫存管理、從非結構化數據中提取知識

4. 優勢：在其智能類別中比其他模型更智能、更快、更經濟。

「Claude 3 Sonnet」：

智能和速度間的理想平衡，特別適用于企業工作負載。與同類產品相比，能以較低成本提供強大的性能，并為大規模 AI 部署設計了高耐用性。

1. 成本（每百萬令牌）：$3輸入 | $15輸出

2. 上下文窗口 200K

3. 潛在用途：

數據處理—在龐大的知識量上進行 RAG 或搜索檢索

銷售—產品推薦、預測、目標營銷

需節省時間的任務—代碼生成、質量控制、從圖像中解析文本

4. 優勢：比其他類似智能的模型更經濟、更適合規模化。

「Claude 3 Opus」：

本系列中最智能的模型，在處理高度復雜任務時的性能位居市場前列。能以驚人流暢度和類似人類的理解力，引導開放式提示和前所未見的場景。Opus 展示了生成式 AI 可達到的外部極限。

1. 成本（每百萬令牌）：$15輸入 | $75輸出

2. 上下文窗口 200K，針對特定用途可實現100萬令牌。

3. 潛在用途：

任務自動化—在 API 和數據庫中規劃和執行復雜操作，交互式編碼

研發—研究回顧、頭腦風暴和假設生成、藥物發現

戰略—高級圖表和圖形分析、財務和市場趨勢、預測

4. 優勢：比任何其他可用模型的智能性更高。

相比前兩個對手，英偉達的汽車夢可能還需要最后一塊拼圖。

六、Claude 3模型去哪里用？

現在Opus 和 Sonnet 已經可以通過Anthropic的API 調用，開發者可以立即注冊并開始體驗，Haiku 很快就會可用。普通用戶也可以在claude.ai 上免費體驗Sonnet，最強大的Opus 僅對Claude Pro 付費訂閱用戶開放。

除此以外，Sonnet 也已通過亞馬遜 Bedrock 提供，并在 Google Cloud 的 Vertex AI Model Garden 上進行私人預覽，Opus 和 Haiku 不久后將同時在兩者上推出。

Anthropic表示，計劃在接下來的幾個月內對Claude 3 模型家族進行頻繁更新。并會發布一系列功能來增強模型性能，特別是針對企業用例和大規模部署。這些新功能將包括工具使用、交互式編碼和更高級的代理能力等。

七、被‘Cue’的永遠是OpenAI

此次Claude 3發布，各界都給出了強烈肯定。前排吃瓜的兩位大佬是馬斯克（回回都有他）和剛離開OpenAI的前開發者關系主管Logan Kilpatrick。

永遠在騷動的網友們又開始暗戳戳艾特奧特曼，“是時候到你發布GPT-5了“！

大家預測按照OpenAI一貫的調性，會在接下來24小時內出現大動作。不過這回估計不太現實了，今天OpenAI只悄悄更新了一個不那么重要的“大聲朗讀答案”功能。評論區都在說，“你就眼睜睜看著他們發Claude 3”？感覺網友比奧特曼還急。

不過OpenAI最近也是官司不斷，而且人家不是剛剛貢獻了一個Sora嗎？朋友們給點兒耐心啊。

不論如何，作為AI領跑公司的Anthropic，終于在OpenAI和Google一通大模型狂轟濫炸后推出了自己的新一代多模態系列Claude 3，還是令不少人興奮的。

大家對Claude 3評價如何？希望我們做哪些上手實測？歡迎下方留言交流！

作者：Jessica

來源公眾號：硅星人Pro（ID：Si-Planet），硅（Si）是創造未來的基礎，歡迎來到這個星球。

本文由人人都是產品經理合作媒體 @硅星人授權發布，未經許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協議。

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

Anthropic Claude 3 OpenAI 大模型

硅星人

硅（Si）是創造未來的基礎，歡迎來到這個星球。

197篇作品 724806總閱讀量

為你推薦

外賣柜開始向外賣員收費，瘋了嗎？

09-183573 瀏覽

這屆618，消費者為什么不買帳了？

06-251268 瀏覽

今年618，商家從哪里要新增量？

05-312484 瀏覽

一文搞懂上交所幾大平臺及其處理業務介紹

11-303720 瀏覽

產品的出路：冷啟動階段我們應該做的事情和案例實操

09-141453 瀏覽

評論

評論請登錄

汪仔5696

whatever，openai無法被超越

最近來自廣東回復

為你推薦

B端產品幫助指南設計分析：提升用戶體驗和工作效率

09-114620 瀏覽

為何亞馬遜的一招“逆向工作法”就能所向披靡？

04-167529 瀏覽

內容運營：文章點擊量少的可憐，該怎么做？

03-286910 瀏覽

快訊
查看更多

熱門文章

大模型混戰這一年：進化之賽、效率之爭、落地之戰

12-09

內容安全管理：風險防控體系保障團隊內部無死角

12-17

圖解支付賬務系統核心設計（進階版）

12-19

當AI給你搖奶茶，新茶飲有了“賽博”味

12-24

AI醫療的戰略價值

12-06

什么是符合時代的問題？

12-12

文章導航

一、快速實時響應，強大視覺能力

二、減少「不必要拒絕」，提高準確度

三、100萬tokens完美展現上下文記憶

四、減少模型偏見，多步驟復雜指令輕松handle

五、Haiku、Sonnet和Opus各項橫向比較

六、Claude 3模型去哪里用？

七、被‘Cue’的永遠是OpenAI

關于
人人都是產品經理（woshipm.com）是以產品經理、運營為核心的學習、交流、分享平臺，集媒體、培訓、社群為一體，全方位服務產品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產品經理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網易等知名互聯網公司產品總監和運營總監，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產品經理導航

起點課堂

豬八戒網

人才熱線

伙伴云表格

網易易盾

個推

友盟+

糧倉

創業邦

每日報告

鳥哥筆記

慕課網

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產品經理 - 粵ICP備14037330號-粵公網安備 44030502001309號
 廣播電視節目制作經營許可證（粵）字第03109號增值電信業務經營許可證粵B2-20190788 版權所有 ? 深圳聚力創想信息科技有限公司

GPT-4勁敵Claude 3來了，上下文和多模態顯著提升：OpenAI是可被超越的

一、快速實時響應，強大視覺能力

二、減少「不必要拒絕」，提高準確度

三、100萬tokens完美展現上下文記憶

四、減少模型偏見，多步驟復雜指令輕松handle

五、Haiku、Sonnet和Opus各項橫向比較

六、Claude 3模型去哪里用？

七、被‘Cue’的永遠是OpenAI

GPT-4勁敵Claude 3來了，上下文和多模態顯著提升：OpenAI是可被超越的

一、快速實時響應，強大視覺能力

二、減少「不必要拒絕」，提高準確度

三、100萬tokens完美展現上下文記憶

四、減少模型偏見，多步驟復雜指令輕松handle

五、Haiku、Sonnet和Opus各項橫向比較

六、Claude 3模型去哪里用？