萬字詳述:2024上半年最值得關注的10大AI新品丨海外篇
2024年上半年海外發布的10款重要AI產品,涵蓋了初創公司和老牌科技巨頭的最新成果。這些產品不僅展示了AI技術的進步,還為各行各業帶來了全新的應用可能性。無論您是科技愛好者還是專業人士,這篇文章都將為您提供寶貴的信息和啟發。
2023 年標志著 AI 聊天機器人和各類工具的誕生、測試和初期探索。2024 年則迎來了 AI 工具的成熟與廣泛應用。阿木聊AI(智能體)關注到海外 2024 上半年最為重要的 10款 AI 產品發布,包括初創公司 Anthropic、Mistral 和 OpenAI,老牌科技巨頭 Google 和 Microsoft,以及 Adobe 和 Salesforce 等服務商。
一、OpenAI/ChatGPT-4o
OpenAI 在 5 月推出了旗艦模型 ChatGPT-4o,這是一款集視覺、聽覺和實時對話于一體的 AI 聊天機器人。它的主要特點和功能包括:
- 多模態理解與生成:可以對音頻、視覺和文本進行實時推理,接受文本、音頻和圖像的任何組合作為輸入,并生成文本、音頻和圖像的任何組合進行輸出。能更好地理解和處理復雜信息,提供更豐富全面的回答。
- 實時響應能力:能夠在最短 232 毫秒內響應音頻輸入,平均響應時間為 320毫秒,與人類在對話中的響應時間相似,使用戶能更流暢地與之交互,提高溝通效率。
- 跨模式安全性:在設計中內置了跨模式的安全性,并創建了新的安全系統,為語音輸出提供護欄。通過過濾訓練數據和訓練后改進模型行為等技術,保障用戶信息安全,提高互動安全性。
- 性能提升:在傳統基準測試中,其在文本、推理和代碼智能方面達到了 GPT-4 turbo 級的性能,同時在多語言、音頻和視覺能力方面達到新高度。在英文文本和代碼上的性能與 GPT-4 turbo 相當,在非英文文本上有顯著改善。它在多語言處理方面表現出色,支持多種語言。
GPT-4o 相比之前的模型,在多模態支持、響應速度等方面有所提升。例如,GPT-4 是基于文本的語言模型,而 GPT-4o 是跨文本、視覺和音頻的端到端新模型;GPT-4o 的響應速度更快,最短可在 232 毫秒內響應音頻輸入,而 GPT-4 的響應速度相對較慢。
GPT-4o 的應用場景廣泛,例如可以作為實時視覺助手,幫助用戶實時討論所看到的內容并獲取相關信息;輔助學習,如讀取 iPad 中的題目并通過語音提供學習指導;充當實時翻譯,實現不同語言間的實時翻譯;用于會議助手,記錄會議內容、生成紀要和總結等;進行情感理解與表達,通過聲音理解和表達情緒,更自然地與用戶交互;處理圖像處理與創作,根據需求對圖片進行處理和創作,如添加文字、調整顏色等。
二、Apple/AppleIntelligence
蘋果在 6 月的全球開發者大會上公布了其 AI 項目 Apple Intelligence,預計將在秋季為下一代 iPhone、iPad 和 Mac 操作系統帶來多項新功能:
- 語言和圖像理解與生成能力:為用戶解鎖提高寫作和溝通的新方式,內置可全系統調用的新工具 Writing tools,讓用戶能在幾乎任何場景下對文本進行改寫、校對和摘要,包括郵件、備忘錄、Pages 文稿和各類第三方 app。例如可幫助用戶整理課堂筆記,檢查文章是否通順等;改寫工具可根據受眾和文稿訴求調整文風;proofread 工具能檢查語法、措辭和語句結構,并給出修改建議及說明;summarize 工具可對用戶選中文本進行歸納總結。備忘錄 app 和電話 app 可讓用戶錄制音頻,并將音頻轉寫成文本以及生成內容摘要。
- 提供有趣的圖像創作功能:借助于 image playground,用戶可在數秒間創作出有趣的圖像,且有動畫、插畫、手繪三種樣式選擇,還可根據不同分類或自定義描述進行創作,也能從照片圖庫中選取人物添加在圖像內。該功能直接內置在信息等多款 app 中,也可作為單獨的 app 安裝使用。在信息 app 中使用時,用戶可快速創作出趣味圖像發送給朋友,并會看到基于當前對話生成的個性化創意推薦;在備忘錄 app 中,用戶可通過 Apple Pencil 工具盤中新增的 image wand 工具調用 image playground,為筆記添加更多視覺趣味性。
- 情景驅動的通知:可以識別對用戶個人情境重要的通知。Priority notifications 會出現在分組通知的最上方,提示最為重要的事項,還有內容摘要幫助用戶快速瀏覽大量或已分組的通知,直接在鎖定屏幕上顯示詳細信息。全新專注模式“reduce interruptions”僅會顯示可能需要即刻被看到的通知。
- 跨應用程序任務處理:能夠深入研究用戶的應用程序并代表用戶執行任務。例如讓 siri 播放女友發來的播客,或在收到郵件通知會議延期時,詢問 siri 是否還能趕上和朋友之前約的電影,siri 可以綜合調用短信、郵件、地圖等工具來進行判斷。
- 關注個人背景:利用用戶的全部活動和屏幕上的內容,例如用戶可以詢問會議轉移是否會導致遲到。
- 更智能的 siri:在其加持下 siri 將更加深入地融入到系統體驗中。siri 出現時屏幕周圍會閃爍發光,用戶可以通過文本使用 siri,它能實時糾正用戶的陳述,并提供與操作系統更緊密集成的新外觀。它支持連續對話和上下文理解,能聯系上下文,分析不連貫或修正過的語言。還具備屏幕內容理解能力,例如可把朋友發來的地址信息添加到朋友的地址中,用戶也能設置與 siri 進行對話的方式(語音或文字),并自由在文字和語音之間切換。
不過,Apple Intelligence 的部分功能目前存在一些使用限制。例如,只有 iPhone 15 Pro 和 iPhone 15 Pro Max 可以訪問 Apple Intelligence,對于 iPad 和 Mac 用戶,則需配備 M1 或更高配的芯片支持的設備。該系統目前僅支持英語,更多功能、語言和平臺支持需要等到后續更新。
Apple Intelligence 由多個高性能生成模型組成,其模型架構主要包括約30億參數的本地模型以及可通過私有云計算并在 Apple 芯片服務器上運行的更大云端語言模型。蘋果在訓練基礎模型時不使用用戶的私人個人數據或用戶交互,并使用過濾器等方式保證數據安全和隱私。其本地模型在一些測試中的性能優于部分其他模型,而云上模型水平基本與 GPT-4-Turbo 持平。
中信證券認為,蘋果端側 AI 落地過程中主打終端跨 app 的信息整合和調用,系統級個人助理定位更為清晰,成功拉開與現有安卓端 AI 手機的差距。如果有一家廠商能夠在 AI 手機形態上做到極致,可能是具備芯片、模型、終端、操作系統一體化優勢的蘋果。
三、Google/ProjectAstra、Gemini、Imagen3
谷歌在 5 月的 I/O 開發者大會上展示了其新的專家 AI 助手原型 Project Astra,該助手基于現有的聊天機器人 Gemini 構建,能夠穿透用戶的手機和智能眼鏡等設備。Gemini 1.5 Pro 和 1.5 Flash 是谷歌推出的新一代人工智能聊天機器人模型,而 Imagen 3 則是其更新的圖像生成器,進一步提升了圖像生成的質量和多樣性。
1. ProjectAstra
Project Astra 是由谷歌的 DeepMind 部門發起的一個項目,旨在創建能夠理解和處理日常任務的“通用 AI 代理”。這個項目的目標是開發出能夠與用戶日?;拥?AI,比如通過智能手機或智能眼鏡等設備提供幫助和信息。
該計劃的愿景是讓每個人都能擁有一個專家助手,這個助手可以通過用戶的各種設備提供個性化服務和支持。
2. Gemini
Gemini 是谷歌開發的一款聊天機器人,它基于先進的自然語言處理技術,能夠理解和生成人類語言。Gemini 1.5 Pro 是該系列的最新版本之一,它代表了在對話能力和語言理解方面的進一步發展。
Gemini 1.5 Pro 旨在提供更加豐富和深入的對話體驗,可能包括更好的上下文理解、更準確的回答以及更人性化的交互方式。
另外,還有 Gemini 1.5 Flash,這可能是一個針對速度和效率優化的版本,能夠在需要快速響應的場景中提供服務。
3. Imagen3
Imagen 是谷歌開發的一款圖像生成器,它使用人工智能技術根據用戶的文本描述生成高質量、逼真的圖像。Imagen 3 是該系列的最新版本,它代表了在圖像生成技術方面的重要進步。
與之前的版本相比,Imagen 3 可能在圖像質量、生成速度、多樣性和準確性方面都有顯著提升,能夠更好地滿足創意專業人士和普通用戶的需求。
四、Microsoft/AIPC
微軟在 5 月宣布推出配備 AI 硬件和支持 AI 應用程序的 Copilot Plus PC。這款筆記本電腦專為 AI 任務設計,搭載了高性能的基于 Arm 的芯片。
其主要特點包括:
- 全新系統架構與性能表現:采用由 CPU、GPU 和可實現每秒超過 40萬億次運算(40+TOPS)的全新 NPU(神經處理單元)相結合的系統架構。它是有史以來生產的更快、更智能的 Windows PC,在設備本地解鎖了一系列全新 AI 體驗。例如,通過新功能“回顧”(Recall)可以輕松回憶和找尋此前在 PC 上看過的內容,能幫助用戶根據記憶中的線索碎片快速、直觀地檢索出想要尋找的內容。該功能僅限于個人的本地設備,不會使用任何信息訓練 AI 模型。另外,它還支持增強的 Windows 工作室效果、實時字幕等功能,實時字幕可以將自動將任意 app 或視頻平臺上的直播或錄播音頻即時翻譯成英文字幕,支持包含中文在內的40多種語言翻譯,即便用戶處于離線狀態,也能實現該功能。
- 高效的芯片:首批 Windows 11 AI PC 搭載高通的桌面處理器驍龍(Snapdragon)XElite 芯片,這款開創性平臺將重塑性能,憑借一流的 CPU 性能、領先的終端側 AI 推理和支持多天續航的高能效 PC 處理器,顯著提升 PC 體驗。它采用定制的集成高通 Oryon CPU,4 納米制程工藝,擁有 12 個高性能內核,在每瓦特性能方面保持領先。當用戶需要最高性能時,Oryon CPU 還可以通過雙核增強加速其中 2 個高性能 CPU 內核,從而為用戶提供超快響應。集成的 Adreno GPU 能夠實現出色圖形性能,帶來沉浸式娛樂體驗。驍龍 XElite 采用的高通 AI 引擎具有領先的異構計算架構,Hexagon NPU、Adreno GPU 和 Oryon CPU 等可共同實現超過 70TOPS 的算力。
- 其中,高通 Hexagon NPU 是高通 AI 引擎的核心,算力高達 45TOPS,是目前市場中面向筆記本電腦的全球最快 NPU,并具備領先的每瓦特性能。驍龍 XElite 不僅支持在終端側運行超過 130億參數的生成式 AI 模型,并且目前獨家支持 Windows 11 AI PC。此外,該芯片充分發揮驍龍在移動計算領域的專長,支持超快 5G 和 Wi-Fi 7 連接,能夠帶來無縫、無卡頓的極速連接體驗,還支持 Snapdragon Seamless 體驗、微軟安全核心電腦(Microsoft Secured-Core PC)等安全特性,打造從芯片到云的安全體驗。
- 豐富的應用體驗:Windows 率先與高通合作,提供了大量 arm64 原生應用程序體驗,既有 PowerPoint、Word 等 Microsoft 365 的 app,又有愛奇藝、B 站、Foxit PDF Editor 專業版、酷狗音樂、QQ、QQ 音樂和網易有道翻譯等。Adobe 系列旗艦級 app 也即將登陸 Windows 11 AI PC,其中包括 Photoshop、Lightroom 和 Express 已于本周一上線,今年夏季還將推出 Illustrator、Premiere Pro 及更多 app。在 LiquidText 中,利用完全由 NPU 驅動的本地 AI 功能,可更快、更智能地對文檔進行注釋,從而保證數據隱私。全新的 Windows Copilot Runtime 中有超過 40個 AI 模型,為“回顧”等功能提供支持。
- 能效表現與續航能力:具有驚人的能效表現,單次充電即可支持長達 22 小時的本地視頻播放或 15 小時的網頁瀏覽,滿足用戶一整天的使用。
- 安全特性:所有 Windows 11 AI PC 都是安全核心 PC(Secured-Core PC),默認啟用了 Microsoft Pluton Security 處理器,并引入了許多新的功能、更新和默認設置,確保用戶隱私數據安全。
自6月18日起,微軟 Surface 以及戴爾、宏碁、華碩、惠普、聯想等 OEM 合作伙伴將陸續推出 Windows 11 AI PC。例如,微軟公布的全新 Surface Pro 起售價999美元,配備 LCD 顯示屏、XPlus 處理器、16GB RAM 和 256GB 存儲空間。如果要升級為 XElite 芯片,則性能會更強勁,新版 Surface Pro 比 Surface Pro 9的速度快最多90%。Surface Laptop 經過重新設計,有現代的線條和超薄邊框,顯示屏分13.8英寸和15英寸兩種尺寸,有四種新顏色可供選擇,新一代較前代 Surface Laptop 5的速度快最多86%,速度超過 MacBook Air,電池續航能力也超過 MacBook Air,本地視頻播放時間長達22小時,且支持 Wi-Fi 7。
需注意的是,不同地區的功能可用性可能會有所差異。例如在中國大陸,Windows Copilot 無法使用,Copilot 實體按鍵無法使用(按 Copilot 鍵將開啟 Windows 搜索功能),但 AI Explorer 回顧功能可用,增強版的實時翻譯也可以使用。
五、Meta/Llama3
Meta 于 4 月發布了 Llama 3,這是一個開源的大型語言模型,支持在其社交平臺上使用對話式 AI。Llama 3 以其開源特性和公眾信任度高而受到好評,可在 WhatsApp、Instagram 和 Facebook Messenger 等多個平臺上提供更加自然和直觀的對話體驗。它具有以下主要特點和信息:
- 性能提升:在多種行業基準測試上展現了先進的性能,提供了包括改進的推理能力等新功能。
- 訓練數據:在兩個定制的24K GPU 集群上,使用超過15T的公開數據進行訓練,這些數據量是 Llama 2 數據集的7倍多,其中包含的代碼數據是 Llama 2 的4倍,并且有超過5%的預訓練數據集由涵蓋30多種語言的高質量非英語數據組成。
- 模型架構:選擇了相對標準的純解碼器 Transformer 架構,并做了關鍵改進,如使用具有128K token詞匯表的分詞器,能更有效地對語言進行編碼,從而顯著提高模型性能;在8B 和70B 大小的模型上采用了分組查詢注意力(GQA)以提高推理效率;在8192個 token 的序列上訓練模型,使用掩碼確保自注意力不會跨越文檔邊界。
- 支持長文本:支持8K 長文本,上下文長度是 Llama 2 的兩倍。
- 指令微調:后訓練過程的改進大大降低了模型出錯率,進一步改善了一致性,并增加了模型響應的多樣性。
- 訓練效率:訓練效率比 Llama 2 高3倍。
- 新的能力:具備增強的推理和代碼能力,能夠進行復雜的推理,可以更遵循指令,能夠可視化想法并解決很多微妙的問題,還支持零樣本工具使用,包括網絡搜索、數學運算和代碼執行等。通過微調,它在調用自定義工具方面提供了強大的靈活性。
- 版本開源:已開放80億(8B)和700億(70B)兩個小參數版本用于預訓練和微調,并面向開發者開源,包括預訓練和微調版本。Meta 稱正在開發的最大模型是400B+參數,未來幾個月內將推出多模態版本。
- 應用廣泛:可用于升級 Meta AI 工具,同時會整合到 Meta 旗下的 Facebook、Instagram、WhatsApp 和 Messenger 等主要平臺的搜索功能中。Llama 3 模型也將在亞馬遜 AWS、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云 Azure、英偉達 NIM 和 Snowflake 上被提供給開發者,并獲得 AMD、AWS、戴爾、英特爾、英偉達和高通提供的硬件平臺支持。
Meta 還開發了一套新的高質量人類評估數據集,涵蓋12個關鍵用例,以評估模型性能。此外,Meta 為保持開源的領先地位,放寬了許可,首次允許開發者使用 Llama 3.1模型的高質量輸出來改進和開發第三方 AI 模型。
2024年7月24日,Meta 發布了 Llama 3.1,在多項基準測試中一舉超越 GPT-4o 和 Claude 3.5 sonnet。Llama 3.1的405B 版本性能與最好的閉源模型性能相當,支持128K 的上下文,具有多語言能力(包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語),良好的代碼生成能力、復雜推理能力以及工具使用能力。同時,Meta 大方放出了90多頁的論文,詳細介紹了預訓練數據、過濾、退火、合成數據、縮放定律、基礎設施、并行處理、訓練方法、訓練后適應、工具使用、基準測試、推理策略、量化、視覺、語音和視頻等內容。
六、NVIDIA/Blackwell
英偉達在 3 月推出了其下一代 AI 芯片 Blackwell,以紀念數學家 David Blackwell。這款芯片擁有 2080億個晶體管,其特點包括:
- 采用了臺積電 4np 工藝生產。
- 實際上是兩個芯片通過連接結合在一起,以確??梢宰鳛橐粋€整體無縫運行,通過英偉達的高帶寬接口(nv-hbi),能以 10tb/s 雙向帶寬互聯,可支持更高的 l2 緩存帶寬,沒有內存局部性問題和緩存問題。
- 在處理支持人工智能的模型方面可將速度提高數倍,包括訓練階段和推理階段。
- 英偉達在發布會上表示,相較于之前的 H100芯片,Blackwell GB200超級芯片可以為大語言模型(LLM)推理負載提供 30倍的性能提升,并將成本和能耗降低 25 倍。
2024 年 5 月 15 日,谷歌 CEO 桑達爾·皮查伊宣布,將在 2025 年推出與英偉達合作的 Blackwell 芯片。同年 6 月 2 日,英偉達 CEO 黃仁勛表示 Blackwell 芯片已開始投產。
Blackwell 將幫助推動人工智能工作超越諸如識別語音或創建圖像等相對簡單的工作。它的出現反映了英偉達對未來市場需求和行業趨勢的前瞻性判斷,例如摩爾定律帶動性能提升越來越困難,芯片迭代需要多種技術創新組合;數據中心將被視為 AI 工廠,需要考慮系統級性能、能效以及多 GPU 組合的“巨型 GPU”方案;AI 模型的規模和數據量持續增長,需降低計算相關成本和能耗;高性能推理或生成至關重要,必須找到能在許多 GPU 上并行處理模型工作的方法等。
英偉達還構建了由 72 張 GB200構成的 DGX GB200 NVL72 超級計算機,其在內部節點間使用銅纜連接,以降低功耗。在 HGXB200訓練性能提升 3 倍,推理能力提升 15 倍的基礎上,GB200 NVL72 集群將多個由 GB200驅動的系統整合到一個液冷機架中,為數據中心提供了前所未有的計算能力,可將大型語言模型的訓練速度提升 4 倍,為萬億參數的大型語言模型推理提供 30倍的實時速度提升。
此外,英偉達推出的世界首個高速 GPU 互連技術 NVLink,為處理最大視覺計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。NVLink Switch 協同 NVLink 可釋放數據傳輸能力,通過連接多個 NVLink,實現機架內和機架間全速度的 GPU 通信。NVLink 和 NVLink Switch 整合英偉達 AI Enterprise 軟件套件等,為用戶提供全面的 AI 計算解決方案。
英偉達的新一代產品并不強制要求使用液冷,Blackwell 架構將同時推出風冷 DGX 和液冷 MGX 兩種服務器方案。但在 AI 數據中心領域,想要發揮 Blackwell 的最大潛力,液態冷卻幾乎是必選。風冷散熱目前仍是數據中心的主流,液冷散熱技術的推廣應用面臨著業內尚無服務器與機柜統一接口規范標準、液冷系統架構尚在演進、初期投資高和全生命周期成本高等挑戰。
七、Mistral/Codestral-22B
Mistral 在 5 月推出了 Codestral-22B,這是其首個代碼模型,支持 80多種編程語言,并在性能上超越了以往的代碼模型。主要特點包括:
- 參數量:具有 220億(22B)參數。
- 多語言支持:在 80多種編程語言的數據集上進行過訓練,既包括 Python、Java、C++、Bash 等流行語言,也有像 Fortran、COBOL 這樣的古早語言,其中 COBOL 誕生于 1959 年,但至今仍有 43%的銀行系統依賴它。
- 性能表現:雖然參數量少于 70B 的 Code Llama,但在多種測評中取得了更優成績。例如在針對 Python 語言的 HumanEval(pass@1)、MBPP 以及 CruxEval 等測試中表現出色,在 RepoBench 評估的遠程存儲庫中的代碼補全能力方面達到了最佳成績,并對 Llama 3 和 Code Llama 形成了全面超越。在數據庫的 SQL Spider 測試中,其表現也與通用模型 Llama3 十分接近。
在其他一些編程語言測試中,和通用版 Llama3 各有勝負,但平均成績小幅超過了 Llama3,且相對于 Code Llama 的優勢明顯。在 Python、JS 和 Java 中的 HumanEvalFIM 評分接近或超過 90%,平均成績為 91.6%,超過了參數量更大的 DeepSeek Coder 33B。
- 長上下文窗口:支持 32k 的上下文窗口,相比其他模型(通常為 4k、8k 或 16k)大幅增加。
- 代碼編輯能力:支持 FIM(fill-in-the-middle),可以對現有代碼進行填充補全。
- 使用方式多樣:Mistral 已將模型權重上傳到了 HuggingFace,可供有條件的用戶自行下載部署。此外,LangChain、LlamaIndex、Ollama 等大模型框架以及 Mistral 自家的開發者平臺 La Plateforme 已支持使用 Codestral。它還提供了專屬 API,其中 codestral.mistral.ai 正在進行免費測試,api.mistral.ai 則按 token 收費。用戶也可通過 Mistral 的在線對話平臺 Le Chat 直接使用網頁進行對話。同時,第三方插件 continue.dev、Tabnine 支持通過在 VSCode 和 JetBrains 系列 IDE 中使用 Codestral。
不過,Codestral 使用了全新的“非生產”(Non-Production)許可協議 MNPL,按照規定僅可用于研究目的,不能進行商用,即使僅將其用于公司內部事務也不被允許。Mistral 表示后續會繼續發布基于 Apache 2.0協議的其他模型。
八、Anthropic/Claude3.5Sonnet
Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6 月 21 日發布的 AI 模型。它是 Claude 3.5 系列模型中的首個版本。
以下是 Claude 3.5 Sonnet 的一些主要特點:
- 性能優勢:在閱讀、編碼、數學和視覺等主要 AI 基準測試中,其能力不僅超過了 Claude 3,也超越了 Anthropic 此前的旗艦模型 Claude 3 Opus。在研究生水平推理(GPQA)、編碼能力(HumanEval)、文本推理(DROP)等方面表現出色,成績優于 GPT-4o,但在數學問題解決能力上稍遜于后者。它能夠更好地理解指令之間的細微差別,有更強的幽默能力,還為包括 GPQA(研究生水平推理)、MMLU(本科生水平知識)與 HumanEval 等基準測試設立了全新的行業標準。根據內部代理編碼評估,其解決了64%的問題,遠超 Claude 3 Opus 的38%。
- 視覺能力:作為一款多模態大模型,其視覺能力有較大提升。它可以更準確地解釋圖表和圖形,能在帶有扭曲和視覺偽像等“不完美”圖像中順利完成文本轉錄任務,在所有標準視覺基準測試中的平均表現比 Claude 3 Opus 高出 10%。它擅長解釋和分析視覺數據,例如理解復雜的圖表、圖形和圖解,分析信息圖表和科學可視化,解釋場景中的空間關系等;可以無縫融合圖像和文本的信息;能夠準確識別和描述圖像中的物體;支持視覺問答,可根據視覺分析提供答案;能利用視覺信息來協助解決問題;可以提供有關藝術風格、設計元素和視覺美學的見解;展示了識別和轉錄手寫文本的改進能力;可以從視覺呈現的數據中提取相關信息,還能處理多種文本樣式以及轉錄多種語言的文本,并理解圖像中文本的上下文,在轉錄結構化文本時通常可以保留或描述原始格式。
- 運行速度與成本:運行速度是 Claude 3 Opus 的兩倍,而價格僅為后者的五分之一。其輸入價格為 3 美元/百萬 tokens,輸出價格為 15 美元/百萬 tokens,上下文窗口長度達 200k tokens。
- 新功能:Anthropic 推出了 Artifacts 預覽版,這是一個可供用戶添加和編輯其模型生成內容的工作空間,例如用其生成的代碼、文檔、圖像、網站設計等內容創建作品。該產品會在 Claude 的 web 客戶端設置一個專用窗口,類似于將大模型接入工作流。
此外,Anthropic 透露公司將在今年晚些時候陸續更新其余兩款大模型 Claude 3.5 Haiku 和 Claude 3.5 Opus。同時,亞馬遜云科技也宣布 Claude 3.5 Sonnet 已正式接入其 Amazon Bedrock。
如需使用 Claude 3.5 Sonnet,由于國內尚未開放使用,需注意接受驗證碼的手機號碼不能屬于中國地區。注冊條件通常包括一個郵箱(如微軟或谷歌郵箱)和一個海外手機號。具體注冊方式可以參考相關平臺的指引。同時,除了官方渠道,還有一些其他方式可以使用 Claude 3.5 Sonnet,例如通過 slack 工作區、poe 等平臺,但可能需要滿足相應平臺的要求和條件。
九、Adobe/GenStudio
Adobe 在 3 月公布了 GenStudio,這是一款利用生成式AI幫助用戶創建內容、管理品牌資產、跟蹤活動效果并簡化工作流程的應用程序。它本質上是一個關于營銷活動的一體化平臺,提供了多種功能和服務,包括:
- 品牌工具包、文案建議、預審合格的資源:可用于生成符合品牌風格的活動背景和整體基調。
- 多種生成式人工智能工具:能幫助用戶迅速為電子郵件及 Facebook、Instagram 和 LinkedIn 等社交媒體平臺制作廣告。
- 內容中心:提供直觀界面,方便搜索、編輯、重復使用和分享營銷活動的素材。
- 活動管理:提供集中的活動概覽,包括活動簡介和活動時間表,使活動策劃過程更高效。
- 發布功能:與 Adobe Experience Cloud 的多個產品(如 Journey Optimizer、Experience Manager、Marketo 和 Target)無縫集成,也可輕松導出到其他第三方應用。
- 數據洞察:讓營銷人員可以實時了解內容在不同渠道的使用情況和效果,通過 AI 技術生成不同的內容版本,進而提升活動效果。
Adobe GenStudio 目前還在內部測試階段,預計將于今年晚些時候正式推出。其定價將根據不同公司而有所差異。
該平臺的推出旨在方便用戶利用 Adobe 的生成式人工智能工具創建營銷活動。Adobe 聲稱 Firefly 模型在商業應用上是安全的,僅使用 Adobe Stock 圖片、已公開授權的內容及公共領域的內容進行訓練,因此不太可能產生侵犯他人知識產權的內容。
此外,微軟也創建了名為 GenStudio 的在線體驗工具。它使用了 Generative Adversarial Networks(GAN,使用兩種競爭 AI 網絡創建逼真圖像的 AI 主流形式),借助 Azure 和 Kubernettes 的強大功能,并基于大都會藝術博物館(The Met)龐大的藝術品數據庫,可以幫助任何人創建并不存在但非常逼真的藝術品。其核心挑戰是如何將大都會藝術博物館的圖像映射到生成它的種子上,他們使用了基于梯度下降的網絡反轉來學習每個圖像的種子,關鍵是指示網絡不僅要匹配目標圖像的像素,還要匹配其高級特征和內容。
不過,Adobe 的 GenStudio 更為人熟知,且主要應用于營銷領域。如果你想了解的是微軟的 GenStudio 藝術創作工具,可以通過其官方網站獲取更詳細的信息。
十、Salesforce/Einstein
Salesforce 在 4 月宣布其企業級聊天機器人 Einstein Copilot 全面上市,該機器人在減少幻覺和生成虛假信息方面具有優勢。盡管 Einstein Copilot 的推出受到了市場的期待,但 Salesforce 的股價表現并未達到預期,反映了市場對AI產品接受度和商業成功的不確定性。
Salesforce Einstein 是 CRM(客戶關系管理)的首款全面 AI 產品。它具有以下特點:
- 數據就緒:無需準備數據或管理模型,只需將數據放入 Salesforce 即可使用。
- 建模就緒:多租戶自動機器學習意味著會為組織自動匹配恰當的模型。
- 生產就緒:依托同樣可信賴的 Salesforce 平臺,具有模型管理和監控工具。
Einstein 可以幫助企業提高智能化程度并更好地預見客戶需求,具體來說:
- 銷售人員可以預測潛在機會并超出客戶期待。
- 服務人員可以避免潛在問題發生,變被動為主動。
- 營銷人員可以開展預見性的活動,營造前所未有的個性化體驗。
- IT 人員可以將智能融入每個角落并為員工和客戶創建更加智能的應用程序。
Einstein 可與許多 Salesforce 產品無縫集成,其功能廣泛應用于各個領域,例如:
- Einstein Sales Cloud:用于提升效率和效果,功能包括預測轉化可能性,給潛在客戶自動打分;基于組織的最佳實踐分析預測后續跟蹤趨勢,并通過銷售周期分析制定下一步的行動計劃;通過 AI 自動捕獲發現新老客戶的商機。
- Einstein Service Cloud:用于提升效率和服務體驗,功能包括自動預測和填充案例的相關字段;自動根據客戶請求路由服務和處理人員,減少客戶等待和切換時間;智能客服功能,根據客戶的對話信息和上下文信息,提供知識建議和對話建議,協助客服人員更快解決問題。2022 年起重磅推出 ChatGPT AI。
- Einstein Marketing Cloud:提供客戶洞察和預測,深入了解客戶;接觸客戶的渠道和時間點的智能建議;為客戶提供一對一的個性化消息和內容,實現千人千面。
- Einstein Commerce Cloud:個性化商品推薦,提升客單價和復購率;客戶行為模式儀表板,為商品推銷和營銷提供數據支撐;個性化顯式搜索排序(搜索框)、個性化隱式搜索排序(首頁瀏覽、品類頁瀏覽)。
- Einstein Community:推薦相關的專業人士、小組和內容,降低社區成員尋找所需資源的難度;借助智能的活動源,確保社區成員可以看到重要帖子和熱門話題等高人氣內容,從而保證成員持續參與;幫助社區成員尋找經過認證的相關專業人士,以便于他們盡快解決最要緊的問題。
此外,Einstein 還包含一些特定的平臺功能,如 Einstein Bots(使用自然語言處理技術,能夠為客戶提供即時幫助)、Einstein Voice(包括語音助理和語音機器人兩部分,可實現文字與語音的相互轉換,以及通過智能揚聲器和 Salesforce 軟件進行對話等功能)、Einstein Prediction Builder(可以通過點擊的方式構建自定義預測)、Einstein Next Best Action(根據預測結果或者特定條件自動觸發下一步最佳行動)、Einstein Discovery(自動分析并發現數據中的行為模式,洞察數據中的相關關系)、Einstein Vision(可對圖像進行分類,對圖像中的物體進行識別)、Einstein Language(能夠分析文本的感情色彩,提取文本語義并進行分類)、Einstein Recommendation(智能推薦,如商品推薦、社區內容推薦等)。
關于 Salesforce Einstein 的具體價格,需要聯系客戶主管了解。同時,Salesforce 也會提供免費的在線培訓、人工智能資源及最佳實踐材料,幫助用戶快速了解如何利用其人工智能技術提高組織效率和客戶滿意度。
本文由 @阿木聊AI(智能體) 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
這些都是國外的AI,我得找個時間分別用用這些AI工具之間有什么異同,與國內的AI又有什么區別。