開源模型越來越落后?Meta甩出全新Llama 3應戰

0 評論 1057 瀏覽 0 收藏 14 分鐘

就在當地時間4月18日,Meta的Llama 3正式亮相了,Meta還透露他們目前正在開發一款超過4000億參數的Llama 3模型。我們不妨來看看本文的分享。

如同悶了很久,突然下的一場雨——Llama 3終于來了。

美國當地時間4月18日,Meta公司推出其開源大語言模型“Llama”(直譯是“羊駝”)系列的最新產品——Llama 3。更準確地說,是發布了Llama 3系列的兩個版本:包含80億參數的Llama 3 8B和包含700億參數的Llama 3 70B。

Meta表示,Llama 3在性能上實現了重大躍遷。并稱它為“迄今為止最強的開源大模型”。就其參數量而言,Llama 3 8B和Llama 3 70B是目前市場上表現最佳的生成式AI模型之一,這兩款模型都是在兩個專門構建的含24000個英偉達GPU的集群上訓練的,在15萬億個Token上預訓練的。

除此之外,Meta透露,他們目前正在開發一款超過4000億參數的Llama 3模型。這款模型不僅能用多種語言進行對話,還能處理更多數據,理解圖像及其他非文本模式,力求使Llama 3系列與Hugging Face的Idefics2等開源模型保持同步。

消息一出便引起熱議,埃隆·馬斯克(Elon Musk)在楊立昆(Yann LeCun)的X下面評論:“還不錯(Not bad)?!?/p>

英偉達高級研究經理、具身智能負責人Jim Fan認為即將推出的Llama 3-400B+模型將是社區獲得GPT-4級別模型的重要里程碑。

“這將為許多研究項目和初創企業帶來新的發展機遇。Llama-3-400B目前還在訓練中,希望在接下來的幾個月能有所提升。這樣強大的模型將開啟大量研究的可能性。期待整個生態系統中創新活力的大爆發!”Jim Fan在X寫到。

Meta在一篇博客文章中表示:“我們的近期目標是讓Llama 3支持多語種和多模態輸入,拓寬處理的上下文范圍,并繼續在核心功能如推理和編程方面提升性能。未來我們還將推出更多功能?!?/p>

同時,Llama 3將在亞馬遜、微軟、谷歌云等云平臺得到啟用,并得到英偉達等芯片巨頭和戴爾的硬件支持。并基于Llama 3升級了人工智能助手Meta AI,Meta將其稱為“免費使用的最智能AI助手”。

Llama 3的主要亮點有:

  • 使用超過15萬億token進行訓練,是Llama 2數據集規模的7倍以上;
  • 在至少9個基準測試中展現出領先的性能;
  • 數學能力優秀, Llama 3在推理、代碼生成和指令遵循等方面取得了顯著進步;
  • Llama 3的錯誤拒絕率大幅降低;
  • 配備了Llama Guard 2、Code Shield等新一代的安全工具。

一、超4000億參數規模,超15萬億的訓練token

Llama 3 在9項標準測試基準上都有著更好的表現,如都在70億參數級的Mistral 7B模型和Google Gemma 7B模型等。

這9個基準測試包括MMLU(測試知識水平)、ARC(測試技能獲取)、DROP(測試對文本塊的推理能力)、GPQA(涉及生物、物理和化學的問題)、HumanEval(代碼生成測試)、GSM-8K(數學應用問題)、MATH(數學基準)、AGIEval(問題解決測試集)和BIG-Bench Hard(常識推理評估)。

來源:Meta

Llama 3 70B在MMLU、HumanEval和GSM-8K上戰勝了Gemini 1.5 Pro,雖然它可能無法與Anthropic的最高性能模型Claude 3 Opus相比,但在五個基準測試(MMLU、GPQA、HumanEval、GSM-8K和MATH)上表現優于Claude 3系列中的Claude 3 Sonnet。

來源:Meta

值得一提的是,Meta還開發了自己的測試集,涵蓋了從編程和創意寫作到推理和摘要的各種用例。Meta 表示,他們構建了一個新的、高質量的人類評估集,包括涵蓋 12 個關鍵場景的 1800 個提示詞。這些場景包括尋求建議、頭腦風暴、分類、閉卷問答、開卷問答、編程、創意寫作、信息提取、塑造角色形象、推理、改寫和總結。在這個評估集中的測試顯示,70B 版本的 Llama 3 在指令調優后,在對比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比賽中,其勝率分別達到了 52.9%、59.3%、63.2%、63.7%。

來源:Meta

Meta表示,Llama 3有著更高的“可控性”,基本不會拒絕回答問題。同時在涉及歷史和STEM領域(如工程和科學)的題目以及一般編程建議上更高的準確性。這要得益于一個包含15萬億token的集合(約7500億個單詞),它是Llama 2訓練集的7倍。

那么,數據來自哪里?

Meta透露,這些數據來自“公開可獲得的資源”,并包含了比Llama 2訓練數據集中多4倍的代碼量,且為了滿足未來多語言的需求,Llama 3的預訓練數據集中包含超過5%的高質量非英語數據,涵蓋了30多種語言。Meta 預計,非英語語種的性能可能與英語有所差異。

Meta還使用了AI合成數據創建用于Llama 3模型訓練的更長文檔,雖然這種方法由于潛在的性能缺陷而備受爭議。

“雖然我們今天發布的模型只針對英語輸出進行了微調,但數據的增多幫助模型更好地識別差異和模式?!盡eta在博客中寫道。

許多生成式AI供應商將訓練數據視為競爭優勢,因此常常保密相關信息。此外,訓練數據細節可能觸發知識產權相關的訴訟,這也是他們不愿透露太多的一個原因。最近的報道稱,Meta為了在AI領域保持競爭力,一度使用受版權保護的電子書進行訓練。

目前Meta和OpenAI因涉嫌未經授權使用版權數據進行訓練,正面臨包括喜劇演員Sarah Silverman在內的作者提起的法律訴訟。

Meta近期計劃推出Llama 3的新功能,包括更長的上下文窗口和更強大的性能,并將推出新的模型尺寸版本和公開Llama 3的研究論文。

二、Llama 3 要素拆解

Meta一直強調創新、擴展和優化的重要性。因此在開發 Llama 3 時,Meta 遵循了這一設計哲學,專注于四個核心要素:

  1. 模型架構:Llama 3使用了標準的純解碼器Transformer架構,并在 Llama 2的基礎上進行了改進。它引入了一個128K token的tokenizer,大幅提升了語言編碼效率。Meta 在開發中還加入了分組查詢關注(Grouped Query Attention, GQA),以提高模型在處理 8B 至 70B 大小模型的推理效率。訓練時,模型處理高達 8192 token 的序列,且設計了掩碼機制以防止注意力機制跨越文檔邊界。
  1. 數據工程:Meta構建了一個大型且高質量的訓練數據集,規模是Llama 2的七倍,代碼量是四倍。Llama 3的訓練涵蓋了超過15T的 token,包括超過5%的高質量非英語數據,支持30多種語言。Meta采用了啟發式過濾器、NSFW過濾器、語義重復數據刪除以及文本分類器等方法來確保數據質量,并進行了大量實驗以評估混合不同來源數據的最佳方法。
  1. 擴大預訓練規模:Meta制定了詳細的Scaling Law來最大化預訓練數據的利用,這有助于優化模型性能,尤其是在如代碼生成等關鍵任務上。在實際訓練過程中,Llama 3的性能通過在達到15T token的訓練量后還在對數線性增長,表現出其持續的學習能力。為了訓練大規模模型,Meta結合了數據并行化、模型并行化和管道并行化技術,并在16K GPU上實現了高達400 TFLOPS的計算利用率。
  1. 指令微調優化:為了優化Llama 3的聊天和編碼等使用場景,Meta 創新了其指令微調方法,結合了監督微調、拒絕采樣、近似策略優化和直接策略優化等技術。這些技術不僅提升了模型在復雜任務中的表現,還幫助模型在面對難解的推理問題時能生成正確的解答路徑。

在安全性方面,Meta的責任體現在采用了最高級別的系統級(system-level)方法來開發、部署Llama模型,希望將其作為一個更大系統的核心部分,賦予開發者主導設計的權力。此外,Meta 還對經過指令微調的模型進行了紅隊測試。

Llama Guard模型可提供及時的安全響應能力,可以根據需求調整,以適應新的安全標準。Meta還推出了CyberSecEval 2和Code Shield,分別用于增強對潛在安全風險的評估和提高對不安全代碼的過濾能力。

在AI技術迅速發展的今天,Meta通過不斷更新的《負責任使用指南》(RUG)和多種云服務工具,引導開發者負責任地使用和部署LLM,確保內容的安全與合規。

同時,Meta披露,Llama 3即將在亞馬遜云(AWS)、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云Azure、NVIDIA NIM和Snowflake等多個平臺上推出。這一過程得到了AMD、AWS、戴爾、英特爾和英偉達等公司的硬件支持。

在英偉達的加持下,Meta的工程師在一個包含24,576個英偉達H100 Tensor Core GPU的計算機集群上訓練了Llama 3。為了推動生成式AI技術,Meta 計劃在其基礎設施中使用35萬塊H100芯片。

英偉達已經推出了支持Llama 3的各種平臺,包括云服務、數據中心、邊緣計算和個人電腦。開發者可以在英偉達的官網試用Llama 3,企業用戶可以通過NeMo框架利用自己的數據對Llama 3進行優化。

Llama 3還可在英偉達的Jetson Orin模塊上運行,這對機器人開發和邊緣計算設備極為重要。此外,NVIDIA RTX和 GeForce RTX GPU能夠加速Llama 3的推理過程,這使得它也適用于工作站和個人電腦。

近期,開源和閉源之爭再次引發行業內的激烈討論。開源模型會越來越落后?Meta用Llama 3給出了回應。

Meta的這次表態,也顯得意味深長:“我們致力于開放式人工智能生態系統的持續增長和發展,以負責任的方式發布我們的模型。我們一直堅信,開放會帶來更好、更安全的產品、更快的創新和更健康的整體市場。這對Meta和社會都有好處。”

Llama這只羊駝,仍在狂奔中睥睨對手。

作者:蘇霍伊;編輯:王博

原文標題:開源模型越來越落后?Meta甩出全新Llama 3應戰|甲子光年

來源公眾號:甲子光年(ID:jazzyear),立足中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例。

本文由人人都是產品經理合作媒體 @甲子光年 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!