搞AI的是真沒錢了
MoE 架構,即混合專家架構,是神經網絡的一種架構模式。先前,有關MoE 架構的認知和討論并不算多,但當MoE 架構可以作為一種降低運營成本、提升訓練效率的架構時,它便成了大模型公司的關注重點之一。
4月5日上午,一個來自MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型 JetMoE ,宣布用 10萬美元的訓練成本,就可以訓練出媲美 LLaMA2 級別的大模型——后者成本高達數十億美元。賈揚清第一時間進行了轉評贊,直指其核心在于 MoE 架構。
此前,MoE 架構始終是一個位于輿論水面下的大模型技術,人們醉心于大模型的技術突破,而以吃瓜的心態看待其背后的成本問題。但當 Stability AI CEO 及核心團隊相繼離職,公司被曝每月運營成本高達800萬美元以上,完全入不敷出時,大家才真正的認識到:不是中國 AI 圈窮,而是全球 AI 圈都真的沒錢了——大模型就像個“碎鈔機”,無論硅谷公司,還是中國公司,都難以承受。
因此,MoE 作為一種可以降低運營成本、提升訓練效率的架構,驟然成為全世界大模型公司的關注重點。
去年12月,Mistral AI 發布 8x7B-MoE 模型,成為全球首個開源的 MoE 大模型;今年 1 月,Minimax 宣布發布國內首個 MoE 大語言模型 abab6;在接下來的幾個月,Google、APUS、達觀、階躍星辰等企業以及馬斯克,都紛紛發布了自己的 MoE 模型。考慮到研發周期的問題,至少在 GPT-4 剛發布的時間(2023年3月),有遠見的公司就已經確定了 MoE 的架構方向。
即便是 OpenAI ,當下對其 GPT-4 技術猜測的主流觀點也認為,他們一定采用了 MoE 架構。
一、MoE不太省心,但確實可以降本
MoE 架構的中文名稱是混合專家架構,是神經網絡的一種架構模式。它將神經網絡拆分成多個專家子網絡,面對一次輸入,既可以指定某一位“專家”來回答,也可以要求多位“專家”回答,甚至全部參與回答,最終依據權重綜合給出結果。
這使得 MoE 架構的可擴展性優秀,開發者可以在一個巨型模型上,繼續增加參數量,進行橫向擴展。同時因為 MoE 可以選擇只啟用部分專家子模型,也在保持性能的同時,降低了推理成本。另外 MoE 架構允許數據在多個專家模型之間進行分配和并行處理,因此可以提高模型的訓練和推理速度。
聽起來全是優點,但是 MoE 架構的訓練難度很大。
一個最主要的問題是,MoE 架構很難保證每個“專家”都能得到充分訓練。決定了哪些“專家”,以多大權重參與回答的核心部件是門控網絡(Gate Network)。如果門控網絡傾向于選擇某些特定的“專家”,可能會導致其他“專家”得不到充分的訓練,從而造成訓練不穩定。而且在MoE架構中,不同的“專家”可能會被分配到不同數量的輸入樣本。如果某些“專家”被分配的樣本過多或過少,可能會導致負載不平衡,影響模型的訓練效率和最終性能。
但對于全球 AI 企業,尤其是中國企業而言,這已經是兩年來的最好局面了——至少我們可以用軟件技術解決問題,而不是看著芯片和賬戶干著急。
從實際情況來看,國內 MoE 架構的產品進展也較為樂觀。
MiniMax 作為最早發力 MoE 架構的主兒,一直在干悶聲發大財的事兒,投資人看重的有場景、有客戶等幾個要點,MiniMax 都具備。根據其官方為數不多的、對外透露的信息顯示,金山辦公、小紅書、騰訊、小米、閱文集團都是其客戶。盡管這類大客戶很可能同時采購了多個基礎模型服務,但依然顯示出 MiniMax 進展好像不錯。今年3月,阿里被曝參與 MiniMax 下一輪融資,領投6億,據稱紅杉也承諾將參與本輪融資。某種程度上,這也代表著頭部資本對 MoE 這一技術路線的認可。
而就在 4 月 1 日,APUS(麒麟合盛)放出的信息更加露骨地說明了這一問題——其聯合新旦智能訓練的大模型APUS-xDAN 大模型4.0(MoE)將于近日宣布開源。
在早期放出的信息中,APUS 重點提到了兩點:
- 參數規模為1360億,國內開源模型中參數規模最大;
- 是國內首個支持在4090低端算力上訓練的千億參數開源大模型;
說白了,便于橫向擴展,是事實,但可能不是主要因素,物美價廉,才是核心。
二、不玩MoE,就搞小模型
這種降本的決心貫徹的有多徹底,再看看不搞 MoE 架構的廠商就知道了。
面壁智能2月份發布了自己的端側模型 Minicam,官方稱該模型以 2B 的尺寸可以超越Mistral-7B,媲美Llama2-13B?;⑿?3 月邀請了面壁智能曾國洋參與 AI 內參會聊到該模型,曾國洋表示,現在業內普遍沒有將小尺寸模型的潛力挖掘干凈,面壁追求的是如何實現更合理的訓練,而不是單純的堆模型參數量。
從產品定位上來講,當然可以說這是做端側模型的應有之義。但從成本價角度而言,這也是除開 MoE 架構外的又一次降本嘗試。CEO 李大海在面壁的發布會上重點聊過這個問題:成本是大模型的隱形競爭力。面壁 MiniCPM 在端側的部署中,可以支持 CPU 推理,同時發布的量化版本,可以做到壓縮 75%,性能基本無損。如果使用驍龍 855 芯片,成本約 600元人民幣,按照運行 5 年計算,每秒 7.5 tokens,那么 170萬 tokens 的推理成本需人民幣 1 元。成本為 Mistral-Medium 的百分之一。
小模型這套路能走多遠,是否因為短期的茍且,導致在 AGI 層面的發展繼續落后?如果之前還存在這個疑惑,那么 AI PC、AI 手機熱潮的興起,多少給大家增加了些信心。
盡管現在 AI PC、AI 手機是噱頭成分居多,真正在 C 端有決定意義的價值點較少。但這趟列車已經綁定了太多的人:高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上,這是“元宇宙 Plus”版的概念列車,必須找到終點,也必須駛到終點。與當年元宇宙的情況不同的是,大模型當下的技術發展曲線,仍在陡峭上升中——
至少在 GPT-5 發布前,所有的商業故事,都會如約講下去。
作者:王一鵬;出品:虎嗅科技組
來源公眾號:虎嗅APP(ID:huxiu_com),從思考,到創造
本文由人人都是產品經理合作媒體 @虎嗅 授權發布,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!