全網(wǎng)首發(fā),Meta Llama-3 全方位詳解
時隔9個月之后,meta正式發(fā)布了Llama3的正式版。模型已經(jīng)上架,8B和70B模型已經(jīng)開源,可以免費商用(限制月活不的超越7億),還有哪些新的信息呢?
關于 Llama
Llama 是由 Meta(FaceBook) AI 發(fā)布的一個開源項目,允許商用,影響力巨大。之前發(fā)布的 Llama 2,支持 4096 上下文,性能卓越,被認為是 GPT 系列最大的競爭對手(之一)。
Llama-3
Meta 發(fā)布了 Meta Llama 3 系列語言模型(LLM),具體包括一個 8B 模型和一個70 B模型在測試基準中,Llama 3 模型的表現(xiàn)相當出色,在實用性和安全性評估中,與那些市面上流行的閉源模型不相上下。
第 1 部分 剛剛發(fā)布的Llama-3
中國時間 2024 年 4 月 19 日 0 點 0 分,Meta Llama 3 發(fā)布。模型以開源形式提供,包含 8B 和 70B 兩種參數(shù)規(guī)模,涵蓋預訓練和指令調(diào)優(yōu)的變體。Llama 3 支持多種商業(yè)和研究用途,并已在多個行業(yè)標準測試中展示了其卓越的性能。
技術信息
Transformer 架構
Meta Llama 3 采用了優(yōu)化的自回歸 Transformer 架構,這種架構專為處理復雜的文本生成任務設計,能夠有效提升生成文本的連貫性和相關性。
混合調(diào)優(yōu)
模型結(jié)合了監(jiān)督式微調(diào)(SFT)和帶人類反饋的強化學習(RLHF),這種混合方法不僅增強了模型的幫助性,也提高了安全性,使得模型在實際應用中更加可靠和符合用戶預期。
性能卓越
在多個行業(yè)標準基準測試中,特別是在對話類應用中,Meta Llama 3 的表現(xiàn)超過了許多現(xiàn)有的開源聊天模型,顯示了其強大的應用潛力,具體后面細說。
數(shù)據(jù)訓練
大的數(shù)據(jù)
Llama 3 使用了超過 15 萬億令牌的公開在線數(shù)據(jù)進行預訓練,這些數(shù)據(jù)經(jīng)過精選,確保模型訓練的廣泛性和高質(zhì)量輸出。
新的數(shù)據(jù)
8B 版本數(shù)據(jù)更新截止至 2023 年 3 月,而 70B 版本則更新至同年 12 月。
30 種語言
雖主要以英語為主,但預訓練數(shù)據(jù)中包含超過 30 種語言的高質(zhì)量非英語數(shù)據(jù)
* 大聰明:中文數(shù)據(jù)不知道用沒用「弱智吧」語料
政治正確(霧)
碳排放抵消
Meta 承諾通過其可持續(xù)性計劃抵消預訓練過程中產(chǎn)生的所有 CO2 排放(2290 噸 CO2 等效)。
很守規(guī)矩
Llama 3 的使用嚴格遵守法律法規(guī),確保不被用于任何非法活動,同時強調(diào)了對知識產(chǎn)權和合規(guī)性的重視。
第 2 部分 技術性能
這次的 Llama 在性能上展現(xiàn)了大幅度提升,包括最直接的 8k 上下文(之前是4k),以及可以更好的完成輸出任務。
性能測試
基準測試
- Meta Llama 3 的 70B 模型在多項基準測試中顯示出色的性能,例如在 TriviaQA-Wiki 測試中達到了 89.7% 的準確率,明顯優(yōu)于其他同規(guī)模模型。
- 在內(nèi)部開發(fā)的高質(zhì)量人類評估集中,該評估集包含了 1,800 個提示,覆蓋了 12 個關鍵用例(包括咨詢、編碼、創(chuàng)意寫作等),Llama 3 在這些實際應用場景中的表現(xiàn)同樣卓越。
這里再附一張 Llama 2 和 3 的對比:
現(xiàn)實場景
根據(jù)人類評估者的偏好排名,Llama 的 70B 參數(shù)模型在實際應用場景中的表現(xiàn),尤其是在指令跟隨方面,相較于其他相當規(guī)模的模型表現(xiàn)出了顯著的優(yōu)勢。
架構與優(yōu)化
模型架構
- Llama 3 采用了自回歸 Transformer 架構,這種結(jié)構特別適合于處理復雜的文本生成任務,能有效提升文本的連貫性和相關性。
- 引入了分組查詢注意力(Grouped Query Attention, GQA)技術,這不僅提升了大數(shù)據(jù)處理的效率,還加快了響應速度。
訓練和微調(diào)
- 在預訓練階段,Llama 使用了超過 15 萬億令牌的高質(zhì)量數(shù)據(jù)集,包括多種語言的文本,以確保模型具有廣泛的適用性和優(yōu)異的性能。
- 在微調(diào)階段,通過監(jiān)督式微調(diào)(SFT)和帶人類反饋的強化學習(RLHF)的混合方法,Llama 顯著降低了錯誤拒絕率,改善了模型的對齊和響應多樣性。
性能提升Llama 3 在本次更新中,于推理、代碼生成和指令跟隨等方面有了明顯的能力提升。
第 3 部分 在哪能用
作為一個開源 LLM,你可以通過多種方式來使用:直接用別人部署好的產(chǎn)品,找部署好的接口,或者自己部署
中文還是有問題
直接使用(最簡單)
Hugging Face地址在這,進去后直接切模型:https://huggingface.co/chat/
Replicate8B 模型:hat/https://replicate.com/meta/meta-llama-3-8b70B模型:https://replicate.com/meta/meta-llama-3-70b
(剛放上去,只運行了 8 次)
Meta AIMeta 自己拿 Llama 3 做的,這里訪問:https://ai.meta.com/注意,這個鎖地區(qū)。
第三方 API
微軟 Azure地址在這:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview
Replicate他們好卷…Llama 發(fā)布1個小時,他們就上線服務了,這倆地址也能走 API8B 模型:hat/https://replicate.com/meta/meta-llama-3-8b70B模型:https://replicate.com/meta/meta-llama-3-70b
自己部署
Meta 項目官網(wǎng)地址在這:https://llama.meta.com/llama-downloads
Github項目地址:https://github.com/meta-llama/llama3
第 4 部分 其他
跟隨 Llama 3 發(fā)布的,還有 Meta AI 系列,包括:一款手機app,一個網(wǎng)站,還有一堆在 Meta FaceBook 全家桶里的插件
* 大聰明:從中國取的經(jīng)吧?
APP 能干啥
能當 ChatGPT 用emmmmm…
網(wǎng)頁應用能干啥
還是能當 ChatGPT 用emmmmm…
插件能干啥
能在全家桶里用這個看上去很實用!
以上,由本「大聰明」報道。下次還是我??
作者:賽博禪心,微信公眾號:賽博禪心
本文由 @ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!