反思國產大模型:如果泡沫不可避免,我們該如何面對這場革命?
國產大模型與GPT這類先進的大模型之間,到底存在著怎樣的發展區別呢?本篇文章具體分析國產大模型發展受限的原因,以及其面臨的一些考驗,希望能對你有一定的參考幫助。
縱觀人類的科技發展史,都由泡沫中的幸存者來繼續推動的。即使人類本身,也是物種大爆發這場生物泡沫的幸運兒。
最近,Facebook早期投資者Roger McNamee在CNBC上批評人們對AI的狂熱,是“忘掉了過去科技泡沫帶來的痛”。
同樣的,在國內,面對越來越多的大模型,部分頭腦冷靜的人士,也顯示出自己的擔憂。
“這么多的大模型,真正有自己技術的有幾個”?
“有幾家公司能持續投入下去”?
更有頭部VC機構人士認為,經過他們的私下測試和摸底,幾乎國內所有的大模型,都是PR項目…
眾所周知,大模型的訓練是一個成本極高的過程,需要大量的算力和資金支持。
以OpenAI為例,GPT-3的單次訓練成本就高達140萬美元,對于一些更大的大模型,訓練成本介于200萬美元至1200萬美元之間。
用知名計算機專家吳軍的話來形容,ChatGPT每訓練一次,相當于報廢了3000輛特斯拉汽車。
這個數字告訴人們:要想打造有競爭力的大模型,不下血本是不行的。
某些體量、資金不足,卻仍舊叫囂著要“對標ChatGPT”的企業,其本身的實力,難免讓人產生懷疑。
例如某個在發布大模型后,自身股價最高暴漲338%的國內公司(此處就不點名了),其賬上的貨幣資金不過13億元。
然而,以ChatGPT的訓練成本為例,要想背后的智能算力集群,僅GPU顯卡采購成本就超過了10億元。國內目前能夠支撐起類似基礎設施的企業不超過3家。
也正因如此,在這場表面熱鬧的大模型競賽中,注定有一大票公司,都只是打著大模型的名號,來實現自身利益的“陪跑者”罷了……
不過縱觀人類的科技發展史,都由泡沫中的幸存者來繼續推動的。即使人類本身,也是物種大爆發這場生物泡沫的幸運兒。如果泡沫無法避免,從業者真正需要的是面對泡沫時的冷靜和定力。
一、數據孤島
國產大模型能否達到或超越GPT這類先進模型的水平,有兩個較為主要的因素:
- 在數據集的獲取上,如何不斷積累足夠多、且高質量的數據集;
- 在煉制大模型的“工藝”上,如何不斷探索和突破,找到新的理論和方法。
先說第一點。
目前,在大模型的訓練上,用來訓練的主流數據集以英文為主,中文數據只占據4.8%。
之前清華計算機系教授唐杰,在對千億模型ChatGLM-130B訓練前數據準備時,就曾面臨過清洗中文數據后,可用量不到2TB的情況。
這就是國內所有做大模型的團隊不得不面對的慘烈現狀。
為解決這個問題,許多國內團隊,都開始通過“眾志成城”的方式,開源自身的中文數據集,以希望彌補高質量中文數據集的不足。
但是,這種通過各個團隊“自覺”開源的方式,仍然存在著一定局限性,那就是:由于數據的敏感性、隱私性和所有權等問題,很多行業和領域的數據并不容易獲得或共享。
國內數據大量儲存于移動端APP中,于訓練大模型而言比較難于抓取。
同時國內互聯網巨頭之間的數據相互封閉,數據孤島化情況嚴重。
例如百度的內容生態數據,騰訊的公眾號數據,阿里的電商和物流數,這些屬于各大企業的私有數據。雖然都在各自的行業和場景,積累了外人所不能及的優勢,但由其所有權和隱私性的問題,導致很難與外界進行共享。
而這些不容易獲取的數據,往往無法依賴各團隊的“自愿”和“主動”進行開源。
針對這一問題,走在前列的美國AI產業,早已通過更成熟的數據共享平臺、數據交易市場、數據信托等機制,促進了數據的流通和價值發現。
具體來說,在這些數據交易平臺中,第三方數據擁有者可以將原始數據掛到數據交易市場上公開出售,數據需求方按照約定價格(買斷數據/按小時計費、平臺會員費)購買后,可以在數據交易平臺上獲得離線的數據包或者實時API。
若最終成功交易,平臺收取一定傭金后返還銷售收入給第三方數據擁有者。這類型數據交易平臺代表有RapidAPI、Streamr等。
與之相比,國內大數據交易仍處于起步階段,數據交易主要以單純的原始數據“粗加工”交易為主。且數據供需不對稱,使得數據交易難以滿足社會有效需求,數據成交率和成交額不高。
此外,在數據交易過程中,國內市場也缺乏全國統一的規范體系和必要的法律保障,無法有效破解數據定價、數據確權等難題。
從長遠來看,國內大模型要想在數據的數量、質量上進一步得到提升,就不能單單只靠部分團隊“自愿”和“主動”的開源,而要在法律、市場機制等方面,做出更多與時俱進的改革。如此方能促進各個行業間數據的廣泛共享。
二、“工藝”的差距
除了數據集的數量、質量外,另一個決定大模型能力強弱的關鍵因素,就是煉制大模型的“工藝”。
前段時間,復旦大學教授、上海市數據科學重點實驗室主任肖仰華就表示:與國際同行相比,模型、數據和算力并不是中國最大的劣勢,真正的短板在于對大模型“煉制”工藝的掌握,包括數據配方、數據清洗和參數設置等等。
現在有些國內大模型,動輒就對外號稱“百億”、“千億”規模,仿佛參數量越大,模型性能就愈強。
然而,空有龐大的規模,卻缺乏先進的“工藝”,這就像一個腦容量頗大,但卻掌握不到學習要領的學生,難以在學習能力上進一步“精進”。
具體來說,如果將煉制大模型的過程,類比成一座工廠中的流水線。那么數據配方就像在開始生產之前選擇原材料一樣,需要選擇不同的數據集,確定不同領域、不同類型、不同模態數據的配比。
而數據清洗就像對原材料的加工一樣,對原始語料進行去噪、去重、過濾、規范化等操作,提取有用的信息;
參數設置就像生產過程中的調整和優化一樣,通過選擇合適的超參數,如學習率、批次大小等,以達到最佳的效果。
雖然上述的每一個具體步驟,國內其實都知道怎么做,但是將它們整合在一起,總體效果和國外是存在差距的。
這雖然不是0和1的區別,但卻是50分和100分的區別。
所以,大模型的研制與開發,終歸是一個易學難精的過程。而要想進一步提升這樣的工藝,就必須在人工智能的基礎理論、工程實踐以及創新思維上不斷積累,從而實現在關鍵環節上的突破和領先。
可問題是,這些反復試錯、探索的過程,往往是一個需要消耗大量時間、資源,且并沒有實際產出與盈利的過程。
即便是創造了ChatGPT的OpenAI,目前也處于嚴重虧損的狀態(其去年的虧損已達5.4億美元)。
這對于國內許多急功近利的企業而言,無疑是一個重大的考驗。
因為國內巨頭們對技術性風口的追逐和熱愛,不堅定,也缺乏耐心。
舉例來說,全民造芯運動中,在2017年,資本對半導體的狂熱達到了一個頂端,創下至今最高歷史記錄,單筆平均融資達到 8億元。
然而,一旦察覺某類技術的研發,是一場漫長且難見收益的過程,某些企業的“浮躁”與“搖擺”就會逐漸顯現。
2020年,武漢弘芯半導體,號稱千億投資,臺積電技術大牛執掌。但成立僅僅三年,就被曝出項目欠薪停擺。武漢弘芯將大陸唯一一臺,價值5億多元,能夠生產7nm芯片的光刻機,拿去銀行抵押續命。
由此可見,國內外大模型的競爭,表面上看,是數據集多寡、質量高低的競爭;稍微深入了看,是大模型工藝的比拼;而再深入到底層,就變成了不同的商業文化,乃至生態的綜合競爭了。
作者:舉大名耳
來源公眾號:AI新智能
本文由人人都是產品經理合作媒體 @AI新智能 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!