激情五月开心婷婷深爱,精品国产亚洲av麻豆尤物,亚洲中文字幕永久在线不卡

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

搞AI的是真沒錢了

虎嗅

2024-04-09

0 評論 887 瀏覽 0 收藏

9 分鐘

MoE 架構，即混合專家架構，是神經網絡的一種架構模式。先前，有關MoE 架構的認知和討論并不算多，但當MoE 架構可以作為一種降低運營成本、提升訓練效率的架構時，它便成了大模型公司的關注重點之一。

4月5日上午，一個來自MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型 JetMoE ，宣布用 10萬美元的訓練成本，就可以訓練出媲美 LLaMA2 級別的大模型——后者成本高達數十億美元。賈揚清第一時間進行了轉評贊，直指其核心在于 MoE 架構。

此前，MoE 架構始終是一個位于輿論水面下的大模型技術，人們醉心于大模型的技術突破，而以吃瓜的心態看待其背后的成本問題。但當 Stability AI CEO 及核心團隊相繼離職，公司被曝每月運營成本高達800萬美元以上，完全入不敷出時，大家才真正的認識到：不是中國 AI 圈窮，而是全球 AI 圈都真的沒錢了——大模型就像個“碎鈔機”，無論硅谷公司，還是中國公司，都難以承受。

因此，MoE 作為一種可以降低運營成本、提升訓練效率的架構，驟然成為全世界大模型公司的關注重點。

去年12月，Mistral AI 發布 8x7B-MoE 模型，成為全球首個開源的 MoE 大模型；今年 1 月，Minimax 宣布發布國內首個 MoE 大語言模型 abab6；在接下來的幾個月，Google、APUS、達觀、階躍星辰等企業以及馬斯克，都紛紛發布了自己的 MoE 模型。考慮到研發周期的問題，至少在 GPT-4 剛發布的時間（2023年3月），有遠見的公司就已經確定了 MoE 的架構方向。

即便是 OpenAI ，當下對其 GPT-4 技術猜測的主流觀點也認為，他們一定采用了 MoE 架構。

一、MoE不太省心，但確實可以降本

MoE 架構的中文名稱是混合專家架構，是神經網絡的一種架構模式。它將神經網絡拆分成多個專家子網絡，面對一次輸入，既可以指定某一位“專家”來回答，也可以要求多位“專家”回答，甚至全部參與回答，最終依據權重綜合給出結果。

這使得 MoE 架構的可擴展性優秀，開發者可以在一個巨型模型上，繼續增加參數量，進行橫向擴展。同時因為 MoE 可以選擇只啟用部分專家子模型，也在保持性能的同時，降低了推理成本。另外 MoE 架構允許數據在多個專家模型之間進行分配和并行處理，因此可以提高模型的訓練和推理速度。

聽起來全是優點，但是 MoE 架構的訓練難度很大。

一個最主要的問題是，MoE 架構很難保證每個“專家”都能得到充分訓練。決定了哪些“專家”，以多大權重參與回答的核心部件是門控網絡（Gate Network）。如果門控網絡傾向于選擇某些特定的“專家”，可能會導致其他“專家”得不到充分的訓練，從而造成訓練不穩定。而且在MoE架構中，不同的“專家”可能會被分配到不同數量的輸入樣本。如果某些“專家”被分配的樣本過多或過少，可能會導致負載不平衡，影響模型的訓練效率和最終性能。

但對于全球 AI 企業，尤其是中國企業而言，這已經是兩年來的最好局面了——至少我們可以用軟件技術解決問題，而不是看著芯片和賬戶干著急。

從實際情況來看，國內 MoE 架構的產品進展也較為樂觀。

MiniMax 作為最早發力 MoE 架構的主兒，一直在干悶聲發大財的事兒，投資人看重的有場景、有客戶等幾個要點，MiniMax 都具備。根據其官方為數不多的、對外透露的信息顯示，金山辦公、小紅書、騰訊、小米、閱文集團都是其客戶。盡管這類大客戶很可能同時采購了多個基礎模型服務，但依然顯示出 MiniMax 進展好像不錯。今年3月，阿里被曝參與 MiniMax 下一輪融資，領投6億，據稱紅杉也承諾將參與本輪融資。某種程度上，這也代表著頭部資本對 MoE 這一技術路線的認可。

而就在 4 月 1 日，APUS（麒麟合盛）放出的信息更加露骨地說明了這一問題——其聯合新旦智能訓練的大模型APUS-xDAN 大模型4.0（MoE）將于近日宣布開源。

在早期放出的信息中，APUS 重點提到了兩點：

參數規模為1360億，國內開源模型中參數規模最大；
是國內首個支持在4090低端算力上訓練的千億參數開源大模型；

說白了，便于橫向擴展，是事實，但可能不是主要因素，物美價廉，才是核心。

二、不玩MoE，就搞小模型

這種降本的決心貫徹的有多徹底，再看看不搞 MoE 架構的廠商就知道了。

面壁智能2月份發布了自己的端側模型 Minicam，官方稱該模型以 2B 的尺寸可以超越Mistral-7B，媲美Llama2-13B?；⑿?3 月邀請了面壁智能曾國洋參與 AI 內參會聊到該模型，曾國洋表示，現在業內普遍沒有將小尺寸模型的潛力挖掘干凈，面壁追求的是如何實現更合理的訓練，而不是單純的堆模型參數量。

從產品定位上來講，當然可以說這是做端側模型的應有之義。但從成本價角度而言，這也是除開 MoE 架構外的又一次降本嘗試。CEO 李大海在面壁的發布會上重點聊過這個問題：成本是大模型的隱形競爭力。面壁 MiniCPM 在端側的部署中，可以支持 CPU 推理，同時發布的量化版本，可以做到壓縮 75%，性能基本無損。如果使用驍龍 855 芯片，成本約 600元人民幣，按照運行 5 年計算，每秒 7.5 tokens，那么 170萬 tokens 的推理成本需人民幣 1 元。成本為 Mistral-Medium 的百分之一。

小模型這套路能走多遠，是否因為短期的茍且，導致在 AGI 層面的發展繼續落后？如果之前還存在這個疑惑，那么 AI PC、AI 手機熱潮的興起，多少給大家增加了些信心。

盡管現在 AI PC、AI 手機是噱頭成分居多，真正在 C 端有決定意義的價值點較少。但這趟列車已經綁定了太多的人：高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上，這是“元宇宙 Plus”版的概念列車，必須找到終點，也必須駛到終點。與當年元宇宙的情況不同的是，大模型當下的技術發展曲線，仍在陡峭上升中——

至少在 GPT-5 發布前，所有的商業故事，都會如約講下去。

作者：王一鵬；出品：虎嗅科技組

來源公眾號：虎嗅APP（ID：huxiu_com），從思考，到創造

本文由人人都是產品經理合作媒體 @虎嗅授權發布，未經許可，禁止轉載

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App