在线观看无码AV网站永久,久久亚洲精品AB无码播放

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

OpenAI掀小模型血戰(zhàn)！蘋果DCLM強(qiáng)勢(shì)登場(chǎng)，碾壓Mistral 7B全開源

新智元

2024-07-21

0 評(píng)論 1346 瀏覽 4 收藏

14 分鐘

小模型時(shí)代來(lái)了？OpenAI帶著GPT-4o mini首次入局小模型戰(zhàn)場(chǎng)，Mistral AI、HuggingFace本周接連發(fā)布了小模型。如今，蘋果也發(fā)布了70億參數(shù)小模型DCLM，性能碾壓Mistral-7B。

小模型的戰(zhàn)場(chǎng)，打起來(lái)了！

繼GPT-4o mini、Mistral NeMo發(fā)布之后，蘋果也入局了。

DCLM小模型包含兩種參數(shù)規(guī)模——70億和14億，發(fā)布即開源。最大70億參數(shù)超越了Mistral-7B ，性能接近Llama 3、Gemma。

根據(jù)蘋果ML小組研究科學(xué)家Vaishaal Shankar（也是DCLM研發(fā)人員）的說(shuō)法，這是迄今為止性能最好的「真正開源」的模型，不僅有權(quán)重和訓(xùn)練代碼，而且是基于開放數(shù)據(jù)集DCLM-Baseline。

相比模型性能，DCLM做出的「真正開源」的典范更加引人關(guān)注。

對(duì)比大部分科技巨頭只搞閉源模型，或「猶抱琵琶半遮面」，只開源代碼或權(quán)重的做法，大方的蘋果獲得了網(wǎng)友的好評(píng)。

此外，Shankar還預(yù)告說(shuō)，之后會(huì)繼續(xù)上線模型中間檢查點(diǎn)和優(yōu)化器狀態(tài)。

難道，這就是LLM開源社區(qū)的春天了嗎？

一、DCLM系列全開源

目前，HuggingFace上已經(jīng)發(fā)布了全部模型權(quán)重，其中的模型卡已經(jīng)基本涵蓋了關(guān)鍵信息。

https://huggingface.co/apple/DCLM-7B

DCLM-7B同樣采用了decoder-only的架構(gòu)，使用PyTorch和OpenLM框架進(jìn)行預(yù)訓(xùn)練。

總共4T token的DCLM-baseline數(shù)據(jù)集來(lái)自于總量240T的DCLM，DCLM-7B模型又進(jìn)一步過(guò)濾出其中的2.5T用于訓(xùn)練。

上下文長(zhǎng)度為2048，小于Mistral 7B和Gemma 2 9B的8k長(zhǎng)度。

性能方面，作者直接使用評(píng)估套件LLM Foundry，測(cè)試了模型在53個(gè)基準(zhǔn)任務(wù)上的分?jǐn)?shù)。

與其他模型進(jìn)行比較時(shí)，除了MMLU分?jǐn)?shù)，作者還自定義了兩個(gè)指標(biāo)——「核心準(zhǔn)確率」（core）和「擴(kuò)展準(zhǔn)確率」（extended）。

前者是包括HellaSwag和ARC-E在內(nèi)的22個(gè)任務(wù)中心準(zhǔn)確率的均值，后者則涵蓋全部53個(gè)任務(wù)。

與雖然使用的數(shù)據(jù)不是最多，但與其他同等大小的開放數(shù)據(jù)模型（權(quán)重與數(shù)據(jù)集都開源）相比，DCLM在全部3個(gè)指標(biāo)上的性能都達(dá)到了最佳。

三列基準(zhǔn)分?jǐn)?shù)從左到右分別是：核心、MMLU、擴(kuò)展

相比之前的SOTA MAP-Neo模型，DCLM-7B在5-shot的MMLU任務(wù)準(zhǔn)確率達(dá)到63.7%，提升了6.6個(gè)百分點(diǎn)，同時(shí)訓(xùn)練所需的計(jì)算量減少了40%。

然而，如果和權(quán)重開源、數(shù)據(jù)集閉源的模型相比，效果就不盡如人意了。

DCLM在各個(gè)指標(biāo)上都與Phi-3存在不小差距，與Mistral-7B-v0.3或Gemma 8B的分?jǐn)?shù)大致相當(dāng)。

研究人員發(fā)現(xiàn)，如果使用同一數(shù)據(jù)集中額外的100B數(shù)據(jù)進(jìn)行訓(xùn)練，并將上下文長(zhǎng)度擴(kuò)展到8k時(shí)，模型在核心和擴(kuò)展基準(zhǔn)上的分?jǐn)?shù)還會(huì)進(jìn)一步提升，但MMLU結(jié)果沒(méi)有變化。

這個(gè)結(jié)果，就全面超過(guò)了Mistral 7B-v0.3的分?jǐn)?shù)。

此外，HuggingFace上還發(fā)布了7B模型的指令微調(diào)版本，在數(shù)學(xué)推理任務(wù)GSM8K上的性能實(shí)現(xiàn)大規(guī)模提升，分?jǐn)?shù)由原來(lái)的2.1直接飆到52.5。

https://huggingface.co/apple/DCLM-7B-8k

除了7B版本，1.4B版本也同步上線。神奇的是，訓(xùn)練數(shù)據(jù)量相比7B版本不降反增，多了0.1T。

https://huggingface.co/TRI-ML/DCLM-1B

相比HuggingFace最近發(fā)布的SmolLM，DCLM-1B的性能顯著更優(yōu)，尤其是5-shot MMLU分?jǐn)?shù)，比SmolLM提升了11.9%。

不僅如此，DCLM-1B在MMLU上41.9的得分也同樣高于Qwen-1.5B的37.87和Phi-1.5B的35.90。

7B模型落后的事情，反而讓1.4B模型反超了，果然小模型才是蘋果的看家本領(lǐng)。

值得注意的是，7B模型僅能在Appl240萬(wàn)億巨量數(shù)據(jù)被洗出，足夠訓(xùn)出18個(gè)GPT-4！全球23所機(jī)構(gòu)聯(lián)手，清洗秘籍公開e的示例代碼許可（ASCL）下使用，但1.4B版本在Apache 2.0下發(fā)布，允許商業(yè)使用、分發(fā)和修改。

既然說(shuō)到這次發(fā)布的DCLM系列模型，就不得不提它們的重要基礎(chǔ)——DataComp基準(zhǔn)。

論文地址：https://arxiv.org/pdf/2406.11794

DataComp這篇論文首發(fā)于6月17日，共同一作Jeffrey Li、Alex Fang和共同最后作者Vaishaal Shankar，也同樣都是蘋果DCLM的研發(fā)人員。

文章不僅對(duì)數(shù)據(jù)集的構(gòu)建過(guò)程進(jìn)行了詳細(xì)闡述，也提到了關(guān)于DCLM模型的部分內(nèi)容。

Vaishaal Shankar表示，將很快發(fā)布這篇論文的更新版，提供更多有關(guān)模型預(yù)訓(xùn)練的技術(shù)細(xì)節(jié)。

相比于對(duì)同一數(shù)據(jù)集修改模型，DataComp的思路反其道而行之——測(cè)評(píng)所用的模型是固定的，任務(wù)是在總共240T的數(shù)據(jù)池中過(guò)濾、處理出最好的數(shù)據(jù)。

可以說(shuō)，這種做法與科技巨頭們的研發(fā)思路非常一致——對(duì)于LLM的性能而言，預(yù)訓(xùn)練數(shù)據(jù)正在成為比模型架構(gòu)和權(quán)重更重要的因素。

畢竟，Llama、Gemma、Phi等一系列「開源」模型都是只放權(quán)重、不公布數(shù)據(jù)。

二、既要Scaling Law，又要SLM

對(duì)于AI科技巨頭來(lái)說(shuō)，有時(shí)模型不是越大越好。

其實(shí)一直以來(lái)，AI社區(qū)中，并不缺少小模型，比如微軟Phi系列模型多次迭代，以及6月末谷歌剛剛更新的Gemma 2 7B。

這周，OpenAI突然發(fā)布GPT-4o mini，Mistral AI聯(lián)手英偉達(dá)發(fā)布Mistral NeMo，HuggingFace的SmoLLM等小模型的發(fā)布，為小模型的領(lǐng)域再次添了一把火。

正如OpenAI研究員所言，「雖然我們比任何人都更喜歡訓(xùn)練大模型，但OpenAI也知道如何訓(xùn)練小模型」。

小模型，優(yōu)勢(shì)在于成本低、速度快、更專業(yè)，通常只使用少量數(shù)據(jù)訓(xùn)練，為特定任務(wù)而設(shè)計(jì)。

大模型變小，再擴(kuò)大規(guī)模，可能是未來(lái)發(fā)展的趨勢(shì)之一。

前兩天，在GPT-4o mini發(fā)布時(shí)，Andrej Karpathy也發(fā)表長(zhǎng)推表達(dá)了類似的觀點(diǎn)。

他認(rèn)為，模型尺寸的競(jìng)爭(zhēng)將會(huì)「反向加劇」，不是越來(lái)越大，反而是比誰(shuí)更小更輕巧。

當(dāng)前的LLM之所以逐漸變成「巨獸」，是因?yàn)橛?xùn)練過(guò)程仍然非常浪費(fèi)，我們基本上是在要求模型記住整個(gè)互聯(lián)網(wǎng)的內(nèi)容（而且實(shí)際上，LLM的記憶能力還相當(dāng)不錯(cuò)，質(zhì)量上比人類好很多）。

但對(duì)于小模型來(lái)說(shuō)，訓(xùn)練目標(biāo)已經(jīng)改變。關(guān)鍵問(wèn)題是，AI系統(tǒng)如何從更少的數(shù)據(jù)中學(xué)到更多。

我們需要模型先變得更大，再變得更小，因?yàn)槲覀冃枰妇瞢F」將數(shù)據(jù)重構(gòu)、塑造為理想的合成形式，逐漸得到「完美的訓(xùn)練集」，再喂給小模型。

馬斯克也表示同意這個(gè)觀點(diǎn)。Karpathy所描述的這個(gè)模型改進(jìn)階梯，正是現(xiàn)實(shí)中特斯拉曾走過(guò)的路。