蘋果加入開源大戰,官宣端側小模型OpenELM!參數2.7億到30億一臺M2 Mac可跑
開源戰在這半個月愈演愈烈。先是Llama 3,又到微軟Phi-3,再到蘋果發布的OpenELM。四種不同小參數版本全部上線,我們離iPhone裝進大模型不遠了。
從Llama 3到Phi-3,蹭著開源熱乎勁兒,蘋果也來搞事情了。
近日,蘋果團隊發布了OpenELM,包含了2.7億、4.5億、11億和30億四個參數版本。
與微軟剛剛開源的Phi-3相同,OpenELM是一款專為終端設備而設計的小模型。
論文地址:https://arxiv.org/abs/2404.14619
論文稱,OpenELM使用了「分層縮放」策略,來有效分配Transformer模型每一層參數,從而提升準確率。
如下這張圖,一目了然。
在約10億參數規模下,OpenELM與OLMo相比,準確率提高了2.36%,同時需要的預訓練token減少了2倍。
抱抱臉創始人表示,蘋果加入了AI開源大戰,一口氣在HF中心發布了四款模型。
一、OpenELM有多強?
OpenELM的誕生,顯然瞄準了谷歌、三星、微軟這類的競爭對手。
近幾天,微軟開源的Phi-3,在AI社區引起了不小的反響。
因為,小模型的運行成本更低,而且針對手機和筆記本電腦等設備進行了優化。
根據論文介紹,蘋果這款模型不僅能在筆記本(配備英特爾i9-13900KF CPU、RTX 4090 GPU,24GB內存),還可以在M2 MacBook Pro(64GiB內存)運行。
而OpenELM具體性能表現如何?
在零樣本和少樣本設置中,OpenELM的結果如下圖表3所示。
通過與開源的大模型比較,OpenELM的變體比12億參數OLMo的準確率提高了1.28%(表4a)、2.36%(表4b)和 1.72%(表4c)。
值得注意的是,OpenELM使用了OLMo少2倍的預訓練數據的情況下,達到了這一水平。
再來看模型指令微調的結果。
如下表5所示,在不同的評估框架中,指令微調都能將OpenELM的平均準確率提高1-2%。
表6展示了參數高效微調的結果。PEFT方法可以應用于OpenELM,LoRA和DoRA在給定的CommonSense推理數據集中,提供了相似的平均準確度。
下表7a和7b分別顯示了GPU和MacBook Pro上的基準測試結果。
盡管OpenELM對于相似的參數數量具有更高的精度,但研究人員觀察到OpenELM要比OLMo慢。
雖然本研究的主要重點是可重復性而非推理性能,但研究人員還是進行了全面分析,以了解瓶頸所在。
分析結果表明,OpenELM處理時間的很大一部分,歸因于研究者對RMSNorm的簡單實現。
具體來說,簡單的RMSNorm實現會導致許多單獨的內核啟動,每個內核處理一個小輸入,而不是像LayerNorm那樣啟動一個融合的內核。
用Apex的RMSNorm替換簡單的RMSNorm,結果發現OpenELM的吞吐量有了顯著提高。
然而,與使用優化LayerNorm的模型相比,性能差距仍然很大,部分原因是:
- OpenELM有113個RMSNorm層,而OLMo只有33個LayerNorm層;
- Apex的RMSNorm沒有針對小輸入進行優化。
二、作者貢獻
有趣的是,論文最后一部分還列出了每位作者,在這項研究中的具體貢獻。
從預訓練數據收集和工具、架構設計、模型訓練,到評估套件和工具、HF集成、指令微調、參數高效微調,再到性能分析和MLX轉換、代碼審查,bug修改和維護全程都分工明確。
具體每人參與的內容,如下圖所示。
參考資料:
https://arxiv.org/abs/2404.14619
編輯:桃子
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!