Llama 2高調開源顛覆大模型圈!2萬億token訓練,打不過GPT3.5
就在最近,Meta宣布推出新一代開源大型語言模型Llama 2,此外,Llama 2還可供免費商用。那么,Llama 2的出現會對大型語言模型的市場格局帶來什么改變?Llama 2的誕生又經歷了怎樣的過程?一起來看看作者的解讀。
一覺醒來,Meta直接丟了一顆重磅核彈:Llama 2!
繼LLaMA開源后,Meta聯手微軟高調開源Llama 2,一共有7B、13B、70B三個版本。
據介紹,Llama 2接受了2萬億個token訓練,上下文長度4k,是Llama 1的2倍。微調模型已在超100萬個人類標注中進行了訓練。
Llama 2的表現更是秒殺許多開源語言模型,在推理、編碼、能力和知識測試上取得了SOTA。
最最最重要的是,這次Llama 2不僅可以研究,甚至能免費商用?。▌澲攸c)
今年2月,Llama 1開源后,Meta收到了10萬多個訪問大型語言模型的請求。
沒想到,Llama的開放瞬間讓AI社區模型大爆發,UC 伯克利的Vicuna、斯坦福Alpaca等各種系列「羊駝」蜂擁而出。
這次,Llama 2的開源直接向OpenAI和谷歌發起挑戰。
在OpenAI和谷歌獨占鰲頭下,Meta此舉想通過另辟蹊徑改變大模型AI之爭的格局。
LeCun表示,Llama 2免費商用將直接改變大型語言模型的市場格局。
一、一夜封神,但還不如GPT-3.5
Llama 2的橫空出世,沒想到,直接被一眾網友「封神」。
就連GPT-4,被推下了戰場。
但是,就客觀來講,Llama 2真的無所不能嗎?
英偉達科學家Jim Fan稱,Llama 2還沒有達到GPT-3.5的水平,主要是因為其代碼能力較弱。
關于Llama 2更多細節,Jim Fan和做了一個太長不愛看版:
– Llama 2的訓練費用可能超過200萬美元。
Meta發布商業友好許可的模型,為社區提供了令人難以置信的服務。由于許可問題,大公司的AI研究員對Llama-1持謹慎態度,但現在我認為他們中的很多人都會加入進來,貢獻自己的力量。
– Meta團隊對4K提示進行了人類研究,以評估Llama-2的實用性。
他們使用「勝率」(win rate)作為比較模型的指標,與Vicuna基準類似。70B模型與GPT-3.5-0301大致持平,表現明顯強于Falcon、MPT和Vicuna。
與學術基準相比,我更相信真實的人類評級。
– Llama-2還沒有達到GPT-3.5的水平。
在HumanEval上,它還不如StarCoder或其他許多專門為編碼而設計的模型。盡管如此,我毫不懷疑Llama-2將因其開放的權重而得到顯著改善。
– Meta團隊在人工智能安全問題上不遺余力。
事實上,這篇論文幾乎有一半的篇幅都在談論安全護欄、紅隊和評估。
在之前的研究中,有用性和安全性之間非常難平衡。Meta通過訓練2個獨立的獎勵模型來緩解這一問題。這些模型還沒有開源,但對社區來說非常有價值。
– Llama-2將極大地推動多模態人工智能和機器人研究。
這些領域需要的不僅僅是黑盒子訪問API。到目前為止,研究人員必須將復雜的感官信號(視頻、音頻、三維感知)轉換為文本描述,然后再輸入到 LLM,這樣做既笨拙又會導致大量信息丟失。
而將感官模塊直接「嫁接」到強大的LLM主干上會更有效。
– 技術報告本身就是一部杰作。
GPT-4的技術報告只分享了很少的信息,而Llama-2則不同,它詳細介紹了整個recipe,包括模型細節、訓練階段、硬件、數據管線和標題過程。例如,論文對 RLHF 的影響進行了系統分析,并提供了漂亮的可視化效果。
二、Llama 2如何誕生?
Llama 2最新技術報告也同在今天發布,足足有70多頁。
GenAI首次以團隊名稱出現
針對模型訓練,與ChatGPT相同,Llama 2也是經歷了預訓練(Pretraining)、微調(Fine-tuing)和人類反饋強化學習(RLHF)三個階段。
除了開源了Llama 2,Meta基于Llama 2微調了Llama 2-Chat模型。
在各大基準測試上,Llama 2在推理等方面表現相當出色。
接下來,具體看看Llama 2是如何誕生的吧。
1. 預訓練
為了創建新的Llama 2,Meta的研究人員首先采用了Touvron等人所使用的預訓練方法,應用了優化的自回歸Transformer。
但是,為了進一步提高性能,Meta團隊做了一些改動。
具體來說,研究人員進行了更穩健的數據清理,更新了數據組合,且訓練的標記總數增加了40%,上下文長度增加了一倍,還使用了GQA(Group Query Attention)來提高大型模型推理的可擴展性。
下表比較了Llama 2和Llama 1的屬性差異。
在預訓練數據方面,Meta的訓練語料庫包括公開來源的各種新數據組合,但并不包括來自Meta自家產品或服務中的數據。
另外,研究人員努力刪除了某些已知包含大量個人隱私信息的網站的數據信息。
Meta團隊在2萬億個token的數據上進行了訓練(如上表所示),這樣做可以很好地權衡性能和成本,并對最真實的數據源進行取樣,以增加知識和減少幻覺。
訓練細節方面,Meta團隊既有沿用也有創新。
研究人員沿用了Llama 1中的大部分預訓練設置和模型架構,使用標準的Transformer架構,以及RMSNorm進行預規范化,還用了SwiGLU激活函數和旋轉位置嵌入。
與Llama 1在結構上的主要區別在于,增加了上下文長度和GQA(Group Query Attention)(如上表所示)。
下圖則展示了Llama 2的訓練損耗。
研究人員比較了Llama 2系列不同大小模型的訓練損耗分別是多少,Meta團隊發現,在對2T數量的token進行預訓練后,模型依舊沒有出現任何飽和的跡象。
評估
接下來研究人員報告了Llama 1和Llama 2、MPT和Falcon模型在一些標準的學術基準上的性能測試結果。
在所有評估中,Meta團隊都應用了內部評估庫,在內部重現了MPT和Falcon模型的測試結果。
對于這些模型,研究人員總是在評估框架和任何公開報告的結果之間選取最高分進行比較。
在表3中,研究人員總結了LlaMa 2在一系列常用基準上的總體性能表現。以下是這些常用的基準大致介紹:
- 代碼:研究人員報告了模型在HumanEval和MBPP上的平均pass@1分數。
- 常識推理:研究人員人員報告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy and challenge、OpenBookQA和CommonsenseQA等項目的平均得分,還有CommonSenseQA的7-shot測試結果和所有其他基準的0-shot測試結果。
- 知識面:研究人員評估了NaturalQuestions和TriviaQA的5-shot成績,以及平均成績。
- 閱讀理解能力:研究人員報告了SQuAD、QuAC和BoolQ的0-shot平均成績。
- 數學能力:研究人員報告了GSM8K(8-shot)和MATH(4-shot)基準的平均成績,報告第一。
- 其它熱門的綜合基準:研究人員報告了MMLU(5-shot)、Big Bench Hard(BBH)(3-shot)和AGI Eval(3-5shot)的總體結果。其中,對于AGI Eval,研究人員只對英語相關的任務進行了評估并報告了平均值。
具體數據
從上表中可以看出,Llama 2要優于Llama 1。尤其是和Llama 1-65B的模型相比,Llama 2-70B在MMLU和BBH上的成績分別提高了5分和8分。
除代碼基準外,Llama 2-7B和30B的模型在所有測試上都優于同等規模的MPT模型。
就Falcon模型而言,在所有基準測試中,Llama 2-7B和34B的表現都要比Falcon-7B和40B的模型更好。
此外,Llama 2-70B模型也優于所有開源模型。
除了和開源模型作比,Meta團隊還將Llama 2-70B的結果與閉源模型進行了比較。
如下表所示,Llama 2-70B在MMLU和GSM8K上的得分接近GPT-3.5,但在編碼基準上有明顯差距。
在幾乎所有的基準測試上,Llama 2-70B的結果都與PaLM 540B相當,甚至更好。
而Llama 2-70B與GPT-4和PaLM-2-L之間的性能差距仍然很大。
2. 微調
Llama 2-Chat是Meta團隊數月研究,并迭代應用了對齊技術(包括指令微調和RLHF)的成果,需要大量的計算和標注。
監督微調 (SFT):
第三方的SFT數據可以從許多不同來源獲得,但Meta團隊發現,其中許多數據的多樣性和質量都不夠,尤其是讓LLM與對話指令保持一致這一方面。
因此,研究人員首先重點收集了數千個高質量的SFT數據示例,如上圖所示。通過撇開來自第三方數據集的數百萬個示例,使用質量較高的示例,研究結果得到了明顯改善。
研究人員發現,在總共收集到27540條標注后,SFT標注獲得了高質量的結果。
為了驗證數據質量,研究人員仔細檢查了一組180個示例,比較了人類提供的標注和模型通過人工檢查生成的樣本。
出乎意料的是,研究人員發現SFT模型生成的樣本輸出,往往能與人類標注者手寫的SFT數據相媲美。
這表明研究人員可以調整優先級,將更多的注釋精力投入到基于偏好的RLHF標注中。
在監督微調中,研究人員使用余弦學習率計劃(cosine learning rate schedule),初始學習率為2乘以10的負5次方,權重衰減為0.1,批量大小為64,序列長度為4096個標記。
在微調過程中,每個樣本包括一個提示和一個答案。
為確保模型序列長度得到適當填充,研究人員將訓練集中的所有提示和答案連接起來,并使用一個特殊的標記來分隔提示和答案片段。
研究人員利用自回歸目標,將來自用戶提示的標記損失歸零,因此,只對答案標記進行反向的傳播。
最后,研究人員對模型進行了2次微調。
人類反饋強化學習 (RLHF):
Meta團隊收集的數據代表了人類偏好的經驗取樣,人類標注者可以根據這個來選擇他們更喜歡的2種模型輸出。
這種人類反饋隨后被用于訓練獎勵模型,該模型可學習人類標注者的偏好模式,然后自動做出偏好決定。
與其他方案相比,團隊選擇了二進制比較協議(binary comparison protocol),主要是因為它能讓研究人員最大限度地提高所收集提示的多樣性。
研究人員列出了用于獎勵建模的開源數據,以及內部收集的人類偏好數據。
請注意,二進制人類偏好比較包含共享相同提示的2個響應(選擇和不選)。每個示例都由一個prompt和一個回復組成,后者是獎勵模型的輸入。
研究人員報告了比較的次數、每次對話的平均回合數、每個示例、每個prompt和每個回復的平均標記數。
用于獎勵建模的人類偏好數據統計:
下表即是準確率方面的結果。
獎勵模型結果
Meta自己的獎勵模型在基于Llama 2-Chat收集的內部測試集上表現最佳,其中有用性獎勵模型在元有用性(Mega Helpful)測試集上表現最佳。
同樣,安全性獎勵模型在元安全性(Mega Safety)測試集上表現最佳。
總體而言,Meta的獎勵模型優于包括GPT-4在內的所有模型。
有趣的是,盡管GPT-4沒有經過直接訓練,也沒有專門的針對獎勵建模任務,但它的表現卻優于其它模型。
在每一批用于獎勵建模的人類偏好標注中,研究人員都會拿出1000個例子作為測試集來評估模型。
研究人員將相應測試集的所有提示的集合分別稱為元有用性(Meta Helpful)和元安全性(Meta Safety)。
作為參考,研究人員還評估了其他公開的替代方案:基于FLAN-T5-xl的SteamSHP-XL、基于DeBERTa V3 Large的 Open Assistant的獎勵模型以及GPT4。
請注意,推理時與訓練時不同,所有獎勵模型都可以預測單個輸出的標量,而無需訪問其配對輸出。
當然,更多的數據和更大的模型通常會提高準確率,而Meta的模型目前似乎還沒有從訓練數據的學習中達到飽和。
如下圖所示。
更多有關RLHF的內容請參看論文原文。
多輪一致性系統消息:
在對話設置中,有些指令應該適用于所有的對話場合,例如,簡明扼要地做出回應,或者扮演某個公眾人物等等。
當研究人員向Llama 2-Chat提供這樣的指令時,給出的回應應始終遵守該約束。
然而,最初的RLHF模型往往會在幾輪對話后忘記最初的指令,如下圖所示。
為了解決這些局限性,Meta團隊提出了「幽靈注意力」(GAtt),這是一種非常簡單的方法,利用微調數據幫助模型的注意力在多階段過程中保持集中。
應用了GAtt后,結果如下圖所示,我們可以看到,GAtt能在多個回合中實現對話控制。
下圖為應用了GAtt和沒有應用GAtt的對話注意力可視化圖。
研究人員考慮了整個網絡的最大激活度,并將相鄰的標記放在一起。
為了說明GAtt是如何在微調過程中幫助重塑注意力,上圖顯示了模型的最大注意力激活。每幅圖的左側都對應著系統信息。
我們可以看到,與未安裝GAtt的模型(左)相比,安裝了GAtt的模型(右)在對話的大部分時間里都能對系統信息保持較大的注意力激活。
但是,盡管GAtt很有用,但它目前的實現過程還很粗糙,對這項技術進行更多的開發和迭代才會使模型進一步受益。
RLHF的結果:
當然,評估LLM是一個具有挑戰性的開放性研究問題。人工評估雖然是一個不錯的標準,但會因各種人機交互考慮因素而變得復雜,而且并不總是可擴展的。
因此,為了在從RLHF-V1到V5的每次迭代中從多個模型中選出表現最佳的模型,Meta的研究人員首先觀察了最新獎勵模型的獎勵改進情況,以節約成本并提高迭代速度。
隨后,在通過人工評估對主要模型版本進行了驗證。
下圖是Llama 2-Chat的演變。
研究人員展示了經過多次迭代微調后,Llama 2-Chat與ChatGPT對比勝率百分比的演變。
左邊的裁判是Meta的獎勵模型,可能會向著他們自己的模型,右圖的裁判則是GPT-4,其結果應該會更中立。
而就像上面提到的一樣,人工評估通常被認為是評判自然語言生成模型(包括對話模型)的黃金標準。
為了評估主要模型版本的質量,Meta請人類評估員對它們的有用性和安全性進行了評分。
研究人員將Llama 2-Chat模型與開源模型(Falcon、MPT),以及閉源模型(ChatGPT) 和PaLM在超過4000個單輪和多輪的prompt上進行了比較。
對于ChatGPT,研究人員在各代中都使用了gpt-3.5-turbo-0301的模型。對于PaLM,則使用的是chat-bison-001模型
下圖即為評估結果——
可以看到,Llama 2-Chat模型在單匝和多匝提示上的表現都明顯優于開源模型。
特別是,在60%的提示中,Llama 2-Chat 7B模型都優于MPT-7B-chat。
而Llama 2-Chat 34B與同等大小的Vicuna-33B和Falcon 40B相比,總體勝率超過75%。
此外,最大的Llama 2-Chat模型與ChatGPT相比,70B版本的勝率為36%,平局率為31.5%。
在Meta研究人員的pompt集上,Llama 2-Chat 70B模型在很大程度上都優于PaLM-bison的聊天模型。
三、商用限制:不超過7億用戶
Llama-2商業免費用,對Meta來說,還是首次。
不過,并非是絕對免費。
根據許可條款,Meta規定不能Llama-2的數據或輸出來改進任何其他 LLM,與OpenAI類似,但在OSS模型中并不常見。
另外,如果產品MAU在2023年6月超過7億用戶,必須申請特殊商業許可。
除上述情況外,使用、復制、分發、拷貝、創作衍生作品和修改 Llama-2 都是免版稅的。
具體可參見:https://github.com/facebookresearch/llama/blob/main/LICENSE
四、強強聯手,微軟成人生贏家
要說最大的人生贏家,非微軟莫屬了。
一邊聯手OpenAI推出GPT-4加持的付費版Office,另一邊牽著Meta的手,歡迎Llama 2在Azure和Windows登臺。
今天,小扎還在Ins上發布了自己和納德拉合影。
再把上半年,納德拉和Sam Altman的合照拿出來,瞬間有種OpenAI遭到背刺的感覺。
再加上網友的配文:納德拉在開放式和封閉式Al之間,做出了令人驚訝和贊嘆的舉動。(是高手)
據Meta官博介紹,我們將與微軟的合作伙伴關系提升到一個新的水平,成為Llama 2的首選合作伙伴。
Llama 2在Azure人工智能模型庫中可用。使用微軟Azure的開發人員能夠使用它進行構建,并利用云原生工具進行內容過濾。
它還經過優化,可以在Windows上本地運行,為開發人員提供無縫的工作流程。
另外,Llama 2也可以通過AWS、Hugging Face和其他平臺獲得。
據稱,Llama 2在亞馬遜AWS上運行70B模型,1年,最低要求大約需要8.50萬美元。
此外,今天Meta還宣布了與高通聯手合作,計劃從2024年起在旗艦智能手機和個人電腦上提供基于Llama 2的能力。
讓開發人員能夠利用Snapdragon平臺的AI,推出令人興奮的新生成式人工智能應用。
五、網友試玩,Mac可跑
Llama 2的開源,就是AI社區的大狂歡。
許多網友紛紛用Midjourney各種AI工具生成羊駝,來致敬這一重要時刻。
小扎也被封神了。
HuggingFace的負責人稱,Meta在開源人工智能領域的影響力不斷擴大,已經在Hugging Face上發布了600+模型,如MusicGen、Galactica、Wav2Vec等。
Llama 2開源后,第一步,開啟試玩。
已確認。Llama 2-70B可在48GB的單GPU上輕松訓練。70B 4位QLoRA和A6000暢通無阻。
Llama 2-7B已轉換為Core ML,并以每秒~6.5個token的速度在Mac本地運。
我剛才使用這個項目的最新版本在我的Mac上運行了Llama 2:https://github.com/jmorganca/ollama
很多人都在問Llama 2與其他流行模型相比如何?
與其他類似規模的模型相比,Llama 2顯然更勝一籌,而且根據基準測試,Llama 2 是最佳的OS模型!
參考資料:
https://ai.meta.com/llama/?utm_source=twitter&utm_medium=organic_social&utm_campaign=llama2&utm_content=video
編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!