蘋果加入開源大戰,官宣端側小模型OpenELM!參數2.7億到30億一臺M2 Mac可跑

0 評論 2074 瀏覽 1 收藏 7 分鐘

開源戰在這半個月愈演愈烈。先是Llama 3,又到微軟Phi-3,再到蘋果發布的OpenELM。四種不同小參數版本全部上線,我們離iPhone裝進大模型不遠了。

從Llama 3到Phi-3,蹭著開源熱乎勁兒,蘋果也來搞事情了。

近日,蘋果團隊發布了OpenELM,包含了2.7億、4.5億、11億和30億四個參數版本。

與微軟剛剛開源的Phi-3相同,OpenELM是一款專為終端設備而設計的小模型。

論文地址:https://arxiv.org/abs/2404.14619

論文稱,OpenELM使用了「分層縮放」策略,來有效分配Transformer模型每一層參數,從而提升準確率。

如下這張圖,一目了然。

在約10億參數規模下,OpenELM與OLMo相比,準確率提高了2.36%,同時需要的預訓練token減少了2倍。

抱抱臉創始人表示,蘋果加入了AI開源大戰,一口氣在HF中心發布了四款模型。

一、OpenELM有多強?

OpenELM的誕生,顯然瞄準了谷歌、三星、微軟這類的競爭對手。

近幾天,微軟開源的Phi-3,在AI社區引起了不小的反響。

因為,小模型的運行成本更低,而且針對手機和筆記本電腦等設備進行了優化。

根據論文介紹,蘋果這款模型不僅能在筆記本(配備英特爾i9-13900KF CPU、RTX 4090 GPU,24GB內存),還可以在M2 MacBook Pro(64GiB內存)運行。

而OpenELM具體性能表現如何?

在零樣本和少樣本設置中,OpenELM的結果如下圖表3所示。

通過與開源的大模型比較,OpenELM的變體比12億參數OLMo的準確率提高了1.28%(表4a)、2.36%(表4b)和 1.72%(表4c)。

值得注意的是,OpenELM使用了OLMo少2倍的預訓練數據的情況下,達到了這一水平。

再來看模型指令微調的結果。

如下表5所示,在不同的評估框架中,指令微調都能將OpenELM的平均準確率提高1-2%。

表6展示了參數高效微調的結果。PEFT方法可以應用于OpenELM,LoRA和DoRA在給定的CommonSense推理數據集中,提供了相似的平均準確度。

下表7a和7b分別顯示了GPU和MacBook Pro上的基準測試結果。

盡管OpenELM對于相似的參數數量具有更高的精度,但研究人員觀察到OpenELM要比OLMo慢。

雖然本研究的主要重點是可重復性而非推理性能,但研究人員還是進行了全面分析,以了解瓶頸所在。

分析結果表明,OpenELM處理時間的很大一部分,歸因于研究者對RMSNorm的簡單實現。

具體來說,簡單的RMSNorm實現會導致許多單獨的內核啟動,每個內核處理一個小輸入,而不是像LayerNorm那樣啟動一個融合的內核。

用Apex的RMSNorm替換簡單的RMSNorm,結果發現OpenELM的吞吐量有了顯著提高。

然而,與使用優化LayerNorm的模型相比,性能差距仍然很大,部分原因是:

  1. OpenELM有113個RMSNorm層,而OLMo只有33個LayerNorm層;
  2. Apex的RMSNorm沒有針對小輸入進行優化。

二、作者貢獻

有趣的是,論文最后一部分還列出了每位作者,在這項研究中的具體貢獻。

從預訓練數據收集和工具、架構設計、模型訓練,到評估套件和工具、HF集成、指令微調、參數高效微調,再到性能分析和MLX轉換、代碼審查,bug修改和維護全程都分工明確。

具體每人參與的內容,如下圖所示。

參考資料:

https://arxiv.org/abs/2404.14619

編輯:桃子

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!