久久精品国产亚洲AV大全,99热热久久这里只有精品68,国产亚洲精品A在线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

大模型套殼祛魅：質疑套殼，理解套殼

甲子光年

2024-01-04

0 評論 2462 瀏覽 26 收藏

25 分鐘

有關“套殼”的爭論一直沒有停止，那么，當我們在談論套殼的時候，到底在談論什么？怎么厘清大模型套殼的邏輯？這篇文章里，作者結合訪談與論文，嘗試闡述哪些步驟、哪些環節存在套殼的空間。

剛剛過去的 2023 年是大模型元年，在國產大模型數量狂飆突進的同時——已經超過 200 個，“套殼”一直是縈繞在大模型頭上的輿論陰云。

從年初到年末，從百度文心一言到零一萬物，從字節跳動到谷歌 Gemini，各種“涉嫌套殼”的事件屢次沖上熱搜，隨后又被相關方解釋澄清。

非 AI 從業者，視套殼如洪水猛獸；真正的 AI 從業者，對套殼諱莫如深。但由于“套殼”本身并沒有清晰、準確的定義，導致行業對套殼的理解也是一千個讀者有一千個哈姆雷特。

當我們在談論套殼的時候，到底在談論什么？

拋開具體場景談套殼都是在貼標簽。為了厘清大模型套殼的邏輯，「甲子光年」訪談了一些AI從業者、投資人，結合 OpenAI、Meta 以及國內大模型相關技術論文，從一個大模型的“煉丹”過程入手，看看在哪些步驟、哪些環節，存在套殼的空間。

2024 年或許是大模型大規模落地的元年，一些 AI Native 的應用將會陸續出現。在積極發展大模型應用生態之時，希望行業對于“套殼”的討論能夠拋開情緒，回歸事實。

一、大模型的統一“內核”

為了更好地理解套殼，必須區別“外殼”與“內核”的區別。

今天，所有大模型的內核，都起源于 2017 年谷歌大腦團隊（Google Brain，2023年 4 月與谷歌收購的AI公司 DeepMind 合并為 Google DeepMind ）發布的Transformer 神經網絡架構。

Transformer 一經問世，逐步取代了過去的 RNN（循環神經網絡）與 CNN（卷積神經網絡），成為 NLP（自然語言處理）前沿研究的標準范式。

在 Transformer 誕生的十年前，有一部好萊塢大片《變形金剛》在全球上映，這部電影的英文名字就叫“Transformers”。就像電影中能夠靈活變身的變形金剛一樣，作為神經網絡架構的 Transformer 也可以通過改變架構組件與參數，衍生出不同的變體。

Transformer 的原始架構包含兩個核心組件——編碼器（Encoder）與解碼器（Decoder），編碼器負責理解輸入文本，解碼器負責生成輸出文本。在 Transformer 的原始架構上“魔改”衍生出三個變體架構——只采用編碼器（Encoder-only），只采用解碼器（Decoder-only），以及兩者的混合體（Encoder-Decoder）。

這三個變體架構分別有一個代表性模型——谷歌的 BERT ，OpenAI 的 GPT 系列模型，以及谷歌的 T5。今天，這三個模型名稱通常也指代了其背后的模型架構名稱（后文也以此指代）。

Transformer的模型架構圖，左側為Encoder，右側為Decoder。圖片來自谷歌論文

在 2020 年之前，NLP 的模型研究基本都是圍繞算法展開，基于 BERT、T5 與 GPT 架構的模型百花齊放。這一時期模型參數較小，基本都在 10 億以內量級。其中，谷歌 BERT 的表現獨領風騷，基于 BERT 架構的模型一度在閱讀理解的競賽排行榜中屠榜。

直到 2020 年，OpenAI 發布一篇論文，首次提出了 Scaling Laws（尺度定律），NLP 的研究才正式進入大模型時代——大模型基于“大算力、大參數、大數據”，模型性能就會像摩爾定律一樣持續提升，直到“智能涌現”的時刻。

在此期間，GPT 架構的性能表現逐漸超越 BERT 與 T5，成為大模型的主流選擇。今天百億參數以上的主流大模型中，除了谷歌最新發布的 Gemini 是基于 T5 架構，幾乎清一色都是從 GPT 架構衍生而來?？梢哉f，GPT 完成了一場大模型架構內核的大一統。

大模型進化樹，其中 GPT 系列枝繁葉茂。圖片來自Github，作者Mooler0410

從大模型的進化脈絡來看，今天所有的模型都是在“套殼” Transformer 以及其三個變體架構。

當然，Transformer 也有“不愿套殼”的挑戰者。比如，2023 年 12 月 5 日，兩位分別來自卡內基梅隆大學與普林斯頓大學的教授，發布了一款名為“Mamba”（曼巴）的新架構，在語言建模性能媲美 Transformer 的同時，還解決了一些擴展性的局限。但這個新架構的具體表現，還需要時間的檢驗。

模型架構選擇只是第一步。百川智能創始人、CEO 王小川在一個月前的2023甲子引力年終盛典上將大模型訓練比作“炒菜”，模型架構只是一個菜譜。要想得到一盤完整的菜，還需要烹飪，也就是大模型訓練的過程；以及食材，也就是數據。

大模型的烹飪過程可以粗略地分為預訓練（Pre Train）與微調（Fine-Tune）兩大階段。

預訓練是大模型訓練最核心的環節，通過把大量的文本信息壓縮到模型中，就像一個學生寒窗苦讀的過程，來讓模型具備世界知識。OpenAI 創始人之一、特斯拉前 AI 總監安德烈·卡帕西（Andrej Karpathy）在 2023 年 5 月的微軟 Build 大會上透露：“預訓練就是在超級計算機中使數千個 GPU 以及可能進行數月時間來處理互聯網規模數據集的地方，占據訓練時間的99%。”

在漫長的預訓練之后會得到一個基座模型（Base Model），在基座模型的基礎上加入特定行業的數據集做進一步的微調，就會得到一個微調模型（Fine-tuning Model），或者稱為行業模型、垂直模型。

微調通常分為兩個步驟——SFT（有監督微調）+RLHF（人類反饋強化學習），其中 RLHF是 OpenAI 的創新設計，它決定了模型能夠與人類意圖與價值觀對齊，是訓練一個可靠的對話模型不可或缺的環節。

預訓練成本極高，因此每年或幾個月才會做一次。OpenAI 訓練 ChatGPT 大約花費了大約 1200 萬美元，Meta 訓練 Llama 65B 花費了 500 萬美元。相比之下，微調成本較低，可能只需要短短幾天甚至一天。

正因如此，只有充足的算力、財力的大公司與資本支持的雄心勃勃的創業公司，才會涉足基座模型?！鞍倌４髴稹敝械膰a大模型數量雖然多，但只有大約 10% 的模型是基座模型，90% 的模型是在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。其中，應用最廣的開源基座模型，目前就是 Meta 的 Llama 2。

從大模型的訓練過程來看，沒有人會對架構選擇——“套殼” Transformer 有異議。但圍繞架構之后的預訓練，成為了一個套殼與否的隱秘角落。

二、“原創派”與“模仿派”

預訓練是大模型最核心的環節，也是“套殼”與“自研”爭議較多的環節。

前面提到，模型架構只是大模型的菜譜——目前有 BERT、T5 與 GPT 三大菜譜，而每個菜譜上會有具體的菜名——預訓練框架。按照預訓練框架的菜譜炒菜，就是預訓練的過程。

一個可以肯定的事實是，所有的定位做基座模型的公司，都是從頭開始投入真金白銀做了完整的預訓練，但菜譜的由來，卻分成了兩派。

第一派，就是標準意義的“自研派”，從菜譜開始研究，自研了預訓練框架。

這一派的共同點就是布局較早，可以追溯到 2020 年之前，遠遠早于 ChatGPT 誕生而打響的大模型競賽的發令槍。

百度是其中一家。2019年，百度就發布了自研的預訓練框架 ERNIE，也就是今天的文心大模型，今天已經更新到ERNIE-4.0。值得一提的是，谷歌 BERT 與百度 ERNIE 名字取材于美國著名兒童節目《芝麻街》中的角色，兩者是一對好友。

《芝麻街》中的 ERNIE 與 BERT，圖片來自網絡

另一家早期自研預訓練框架的大模型公司是智譜 AI 。智譜 AI 成立于 2019 年，并在 2020 年底開始自研預訓練框架 GLM。GLM 與谷歌 T5 相似，也是基于Encoder-Decoder 架構。2022 年 11 月，斯坦福大學大模型中心對全球 30 個主流大模型進行了全方位的評測，GLM-130B 是亞洲唯一入選的大模型。

百度與智譜 AI 之外，還有一部分閉源大模型沒有公開自己的技術細節，代表性公司為Minimax、月之暗面等。有投資人對「甲子光年」表示，這幾家也有自己的預訓練框架，但無法準確核實。

總的來說，國內基于自研預訓練框架的大模型公司數量較少，大約只有 5 家左右。

第二派大模型公司也從頭開始做完整的預訓練過程，但預訓練框架是在開源框架——主要是 Llama 2 的基礎上修改部分參數而來，可以稱之為“模仿派”。

對于開源社區而言，這是一套非常正常的做法，開源的意義就是公開自己的研究成果，促進技術的交流與共享，讓開源社區內更多的研究者受益。

Llama 2 也是站在過去開源模型的肩膀上一步步發展而來。比如，Llama 2 的模型架構中， Pre-normalization（預歸一化）受 GPT-3 啟發，SwiGLU（激活函數）受 PaLM 的啟發，Rotary Embeddings（位置編碼）受 GPT-Neo 的啟發。其他模型也經常魔改這幾個參數來做預訓練。

零一萬物創始人李開復表示：“全球大模型架構一路從 GPT2 –> Gopher –> Chinchilla –> Llama 2-> Yi，行業逐漸形成大模型的通用標準，就像做一個手機 app 開發者不會去自創 iOS、Android 以外的全新基礎架構?！?/p>

值得強調的是，模仿 Llama 2 并非代表沒有核心競爭力。零一萬物在文章中提到，模型訓練過程好比做一道菜，架構只是決定了做菜的原材料和大致步驟，要訓練出好的模型，還需要更好的“原材料”（數據）和對每一個步驟細節的把控（訓練方法和具體參數）。

“原創派”與“模仿派”，到底孰優孰劣？對于這件事，需要分開討論。一句話總結來說，原創派賭的是未來，模仿派賭的是現在。

一位投資人對「甲子光年」表示：“Llama 2 并非一個完美架構，還有較大的局限性，有機會做到 GPT-3.5 的水平，但是如何做到 GPT-4 的水平，目前還沒有看到辦法。如果底層技術架構一直受制于 Llama 2，想要超越 GPT，怕是機會很小?！?/p>

這位投資人所在的投資機構投資了多家大模型公司。在做投資決策時，自研預訓練框架與否，也是他們的衡量標準之一。

一位 AI 公司的研發人員告訴「甲子光年」，自研預訓練模型的優勢在于擴展能力比較強，“如果基于開源，都是有版本限制的，比如 Llama 2 只有 7B、13B、70B 三個版本，再多就沒有了，想再搞大規模一點，搞不了”。

不過，理想很豐滿，但原創預訓練架構的優勢，目前還存在于理論階段。短期來看，無論是自研還是模仿 Llama 2，兩者都處在 GPT-3.5 的水平，性能差距不大。

另一位 AI 投資人對「甲子光年」表示：“現階段，開源框架基本已經達到了 GPT-3.5 的水平，所以，如果選擇從頭自研一個與開源框架水平一樣的預訓練框架，不如直接選擇模仿 Llama 2 效率更高、穩定性更可靠，除非有能力自研一個達到GPT-4、甚至下一代 GPT-5 能力的模型。這里的能力指的是有技術能力，且有足夠的資金持續投入，因為目前預期是 GPT-5 的訓練可能需要 3-5 萬張 H100，成本在 10-20 億美金。”

現階段，大家比拼的并不是預訓練框架的性能，而是工程化的能力，業內一般稱為 AI Infra——AI 基礎設施。

昆侖萬維 AI Infra 負責人成誠將大模型發展分為了三個階段：2020 年之前的算法研究階段，2020~2023 年的數據為王階段，以及 2023 年的 AI Infra 階段。

他預測，未來大模型算法研究必然朝著 Infra 的方向去探索：稀疏化（SparseAttention、 Sparse GEMM / MoE）將會是2024年學術界與工業界的主戰場。

三、薅GPT的數據羊毛

在預訓練完成之后，來到了微調階段。實際上，這一階段才是大部分“套殼”大模型翻車的原因，它與數據集的質量有直接關系。

數據的使用貫穿在大模型預訓練、SFT、RLHF 的每個階段。在預訓練階段，數據“在多而不在精”。由于預訓練使用互聯網公開數據，不同大模型最終所獲得的知識儲備是趨近的。

明顯的差異點發生在微調階段，數據“在精而不在多”。比如，Llama 2 的研究人員在做微調時發現大部分第三方的 SFT 數據集多樣性與質量都不足，因此他們自己構建了 27540 個高質量標注數據集，可以顯著提高 SFT 的效果。

但不是所有的公司都像 Meta 一樣財大氣粗。有沒有更高效的獲取高質量數據集的方式？

有，通過“偷” ChatGPT 等對話模型的數據。

這里的偷并非指盜竊，而是直接利用 ChatGPT 或 GPT-4 等對話模型生成的數據來做微調。這些合成數據，既保證了數據的多樣性，又是經過 OpenAI 對齊后的高質量數據。

美國電商初創公司 Rebuy 的AI總監、深度學習博士 Cameron R. Wolfe 將這種大模型研究方式稱為“模仿學習”（Imitation Learning），并表示模仿學習明顯受到“知識蒸餾”（Knowledge Distillation）的啟發。

知識蒸餾是一種機器學習中標準的模型壓縮方法，它將復雜的模型看做“教師模型”，把簡單的模型看做“學生模型”，通過老師教學生的方式將知識遷移過去。

模仿學習的原理，圖片來自Cameron R. Wolfe的博客

在 Meta 發布了 Llama 1 系列模型后，迅速在開源社區催生了各類模仿模型的誕生，比較知名的包括由斯坦福大學、加州大學伯克利分校等高校機構推出的 Alpaca、Vicuna、Koala，以及 NomicAI 推出的GPT4ALL，這些模型都用到了 ChatGPT 的對話數據來做微調。

值得一提的是，OpenAI 在服務條款中明確禁止使用 ChatGPT 生成的數據開發與 OpenAI 競爭的模型。所以，上述模仿模型不能用于商業用途。

但事實上，各類商業模型都在通過“偷”數據的方式來走微調的捷徑，這已經是公開的秘密，并且不限國別。

2023 年 12 月，字節跳動、谷歌 Gemini 的“疑似套殼”事件正是來源于此。根據字節跳動的回應，2023 年初部分工程師曾將 OpenAI 的 API 服務應用于實驗性的模型研究，但并未上線，后來已經禁止該行為。從現實角度來說，字節跳動“只是犯了一個天下所有模型都會犯的錯誤”。

一位做NLP研究的科學家告訴「甲子光年」：“OpenAI 可能預感到字節跳動可以花錢堆一個模型出來，所以提前打壓一下。但實際上，這對于限制字節跳動訓練大模型沒有任何效果，純粹就是想‘辱罵’一下?！?/p>

谷歌 Gemini 也是類似情況。由于缺乏高質量的中文數據集，谷歌極有可能通過文心一言獲得大量的中文對話數據來做 Gemini 的“老師”。但是，或許因為追趕 OpenAI 心切，數據清洗、自我認知對齊等工作沒有做到位，導致 Gemini 把老師文心一言當成了自己。

一位國產大模型公司的算法工程師向「甲子光年」吐槽道：“大家相互薅羊毛，要用，但要小心用，一不小心就尷尬了。”

四、把“殼”做厚才是競爭力

在預訓練階段模仿 Llama 2、在微調階段“偷” ChatGPT 的數據，是兩類產生“套殼”爭議的主要場景，也是大模型訓練過程中決定模型能力的關鍵場景。如果把范圍擴展到模型的推理與應用，“套殼”的場景還會更多。

前語雀設計師，現 AI 助手 Monica 聯合創始人 Suki 在即刻上分享了“套殼”的四重進階：

一階：直接引用 OpenAI 接口，ChatGPT 回答什么，套殼產品回答什么。卷UI、形態、成本。

二階：構建 Prompt。大模型可以類比為研發，Prompt 可以類比為需求文檔，需求文檔越清晰，研發實現得越精準。套殼產品可以積累自己的優質 Prompt，卷 Prompt 質量高，卷 Prompt 分發。

三階：Embedding 特定數據集。把特定數據集進行向量化，在部分場景構建自己的向量數據庫，以達到可以回答 ChatGPT 回答不出來的問題。比如垂直領域、私人數據等。Embedding 可以將段落文本編碼成固定維度的向量，從而便于進行語義相似度的比較，相較于 Prompt 可以進行更精準的檢索從而獲得更專業的回答。

四階：微調 Fine-Tuning。使用優質的問答數據進行二次訓練，讓模型更匹配對特定任務的理解。相較于 Embedding 和 Prompt 兩者需要消耗大量的 Token，微調是訓練大模型本身，消耗的 token 更少，響應速度也更快。

如果把模仿 Llama2 架構做預訓練也算進去，可以看做第五階。這五重進階，基本囊括了大模型“套殼”的每一個場景。

值得一提的是，上述行為能否被稱為“套殼”，在業內也說法不一。

算法工程師劉聰對「甲子光年」表示：“我覺得，只有一種情況算套殼——直接做 API 的買賣，比如說一些免費使用大模型的網站，用來收集數據、倒賣數據。其他情況其實都不算。在 to B 行業，要做行業化的解決方案，只會套殼不可能做到；就算是 to C，如果有自己對產品的理解，也不能說是套殼。難道做大模型應用的都是套殼嗎？”

“套殼這個詞，貶義太嚴重?！眲⒙斦f道。

脫離具體的場景談論“套殼”，都是貼標簽的行為。當行業褪去了對套殼的污名化理解，把不同進階的套殼行為看做一類正常的商業行為，才能更加理性客觀地分析大模型的優劣。

只是，大模型廠商在宣傳的時候，應當更謹慎地使用“自研”，以及具體解釋自研的內容。否則，只會加劇理解的困惑。

“套殼”有競爭力嗎？Suki 認為，一個 AI 應用產品如果停留在做一階和二階，注定是個門檻極低的產品，沒有任何壁壘。而什么場景，何時以及如何使用三階和四階的能力，是個關鍵性的問題。

一位算法工程師告訴「甲子光年」，大模型真正關鍵的問題在于業務的成本結構和護城河，而不是套殼與否。

把成本降低、把“殼”做厚，自然就產生了競爭力。

作者：趙健

原文標題：大模型套殼祛魅：質疑套殼，理解套殼｜甲子光年

來源公眾號：甲子光年（ID：jazzyear），立足中國科技創新前沿陣地，動態跟蹤頭部科技企業發展和傳統產業技術升級案例。

本文由人人都是產品經理合作媒體 @甲子光年授權發布，未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。