美國計劃禁止云計算廠商為中國訓練AI大模型,我的一點看法

0 評論 1661 瀏覽 5 收藏 14 分鐘

大家都知道大模型的發展需要很高的算力,就算是ChatGPT,也是從1.0到2.0到3.0到3.5這樣的路徑過來的,其中每次迭代所需要的算力都是龐大的數量。而現在的情況下,大模型需要進一步發展,所需要的算力更是恐怖。

美國商務部長吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采訪時宣布了限制外國客戶、尤其是中國客戶使用美國云計算廠商的服務訓練AI大模型的計劃。雷蒙多的原話是:“我們不能允許中國或者其他我們不希望的玩家使用我們的云服務訓練他們的模型。我們引入了芯片出口禁令,但那些芯片正在被美國的云計算數據中心使用,所以我們需要考慮關閉這些渠道,以避免潛在的惡意行為?!保ㄗⅲ涸目蓞⒁?月27日的路透社電訊)

毫無疑問,上述舉措把美國對華科技制裁推到了一個新的高度,對中國人工智能產業的潛在破壞力很大。雖然我不是芯片或人工智能方面的專家,但幸運的是,我在這些產業有很多朋友。在得知這個消息之后,我馬上征詢了他們的看法,學到了很多東西。他們普遍認為,美國商務部的新舉措從宏觀角度看是可以理解的,但是為什么要在這個時間點推出,就有些耐人尋味了。

過去一年多,中國的互聯網大廠和科技公司自稱在AI大模型領域取得了顯著戰績,“與OpenAI的差距只有半年到一年”。就在前幾天,周鴻祎還宣稱“去年我們看大模型像原子彈,今年再看大模型像茶葉蛋”——從資本市場炒作的角度看,上述說法很有道理(尤其是有利于大股東離婚減持);從技術研發的角度看就完全不是那么一回事了。事實上,中國科技行業對OpenAI的“趕超”,離不開下面三個因素的幫助:

第一,對境外開源大模型的吸收借鑒。

GPT-3以上的版本是不開源的,但是國外并不缺乏開源大模型可供借鑒(抄襲),其中最受歡迎的就是Meta于2023年2月發布的LlaMA,以及7月發布的LLaMA2。LLaMA本來只是有條件地對學術界開源,但很快遭到大規模泄露,Meta索性將其后續版本做成了全面開源。

LLaMA2有三個公開版本,分別擁有70億個、130億個和700億個參數;Meta還宣布會在合適的時候公布更復雜的版本。雖然LLaMA2還是比不上GPT-4,但是作為一個借鑒(抄襲)的原點已經足夠了。眾所周知,國內一部分創業公司(名字就不點了)的“自研大模型”就是拿LLaMA2套皮的,就連參數名稱都懶得改。

第二,通過租用GPT接口,對GPT模型參數進行“蒸餾”。

一個月前,外電報道稱字節跳動旗下產品疑似因為調用GPT接口訓練自己的大模型而被封號。其實這種事情,所有人都在做,圈內俗稱“蒸餾”。所謂“蒸餾”,就是反復與GPT進行海量對話,通過GPT返回的數據對自己的模型參數進行調節;簡而言之,就是讓GPT幫你訓練自己的模型。

只要有足夠的人力、財力,任何公司都可以通過先抄LLaMA2、再租用GPT進行“蒸餾”的方法,在較短的時間內搞出一個像模像樣的“自研大模型”,在測試中的表現甚至真能做到“與OpenAI只差半年到一年”(具體差多少取決于花了多少錢做蒸餾)。很可惜,通過這種方法搞出來的大模型永遠無法趕超OpenAI,就像在考試時抄學霸試卷的學生永遠不可能超過學霸——對了,還得小心別被監考老師抓住。

第三,租用Azure、AWS等海外云計算服務,解決算力瓶頸。

從2022年開始,美國不斷收緊對華芯片出口禁令。雖然英偉達多次推出了對華“特供版”GPU,但是美國商務部隨即補上了漏洞,現在可供利用的漏洞已經很小了。公允地說,哪怕不考慮芯片禁令,中國公司也很難搶到足夠的GPU,因為英偉達的高端GPU一直供不應求,亞馬遜等北美大廠經常是“出了新型號先搶一萬張”,來自中國的客戶的優先級肯定不會太高。

我們知道,AI大模型使用的算力分為“訓練”和“推理”兩種,前者要求明顯更高。因此,中國科技公司普遍采取了“訓練與推理分開”的模式,把一大塊訓練業務交給微軟Azure、亞馬遜AWS、谷歌GCP等北美云計算大廠去做,因為只有它們有足夠的高端算力;至于推理,則可以全部放在國內(合規要求也必須在國內),甚至在硬件端搞一些“國產替代”。這個玩法,實際上是變相繞過芯片禁令,芯片雖然沒進口到中國,相關算力卻是中國公司在使用。美國監管當局肯定早已注意到了這里存在的漏洞,只是以前沒管,現在決定出手管了。

當然,美國商務部的提議會不會訴諸實踐、合不合法(此處是指美國的國內法),是值得爭議一番的。不過在中美科技競爭的大背景下,這個提議得到實施的概率很大,美國云計算廠商的大門早晚是要對中國客戶關上的。真正需要回答的問題有兩個:

  1. 為什么美國要在這個時候推出新的禁令?
  2. 那些認真想趕超GPT的國內廠商,接下來去哪里找算力?

先說第一條。從商業或科技邏輯講,美國商務部在此刻提議新的禁令,有點不太好理解:中國與美國在AI大模型方面的差距仍然很大,所謂“大模型從原子彈變成了茶葉蛋”純粹是A股公司大股東為了減持而吹的牛逼,業內人士沒人相信,美國人應該更不信。允許中國公司租用美國云計算資源,在短期內不會影響硅谷的科技霸權,反而會帶來一筆不菲的收入。芯片禁令對中國AI研發的限制已經夠大了,有必要更進一步、把事情做絕嗎?微軟、亞馬遜這些云計算巨頭為什么不阻止美國商務部把事情做絕呢?

對于上面的疑問有兩種解釋路徑。

一種是政治解釋:今年是大選年,美國兩黨在互相比較誰對中國更強硬,“戰場州”的選民普遍對全球化沒什么好感,此時加強對華科技禁令是一張比較好的牌。至于硅谷科技巨頭,這幾年一直是它們春風得意、收入和利潤猛增的時刻,失去一點來自中國客戶的云計算收入應該不是大問題,沒人愿意為此事死磕。

另一種則是科技解釋:下一代AI大模型(GPT-5及其競爭對手),需要的訓練算力可能會升級到“萬卡規?!蹦酥痢癗萬卡規?!?。因為在現有基礎上進一步提升大模型的能力,必須“大力出奇跡”、從資源規模上想辦法,就像當年的核武器從2萬噸量級飆升到千萬噸乃至1億噸一樣。如果中國公司打算追趕到這一步,那它們對美國云計算資源的需求就會上升一個數量級;換個角度講,美國本土客戶的需求也會上升一個數量級,導致微軟、亞馬遜手中的高端算力更加供不應求。

因此,美國商務部此時提出對華云計算服務禁令,一方面是提前封死中國公司追趕的道路,另一方面也有助于把寶貴的算力資源留給美國本土公司使用。在市場經濟環境下,價高者得,發生什么事情很難說;所以最佳競爭策略是把中國公司排除在市場經濟之外。微軟、亞馬遜肯定也知道自己手里的算力會更加精貴、不缺客戶,所以也沒有動力提出反對。

現在輪到第二個問題:對于那些真心想追上世界領先水平(而不是炒高股價、離婚減持)的中國科技公司而言,接下來要去哪里找算力呢?

答案取決于它們愿意付出多高的代價,而且不僅是經濟代價。

哪怕美國商務部正式頒布并嚴格執行禁令,中國公司要通過注冊海外分支機構、尋找海外合作伙伴的方式去變相購買美國云計算服務,應該也是有門路的。問題在于一旦被抓,后果可能很嚴重——永遠不要低估美國監管者下死手的力度。國內互聯網大廠多是美國、香港上市公司,它們有沒有膽子為了AI大模型冒如此巨大的風險呢?

如果不考慮上述冒險做法,那就只有立足于發掘國內算力資源了。目前AI相關芯片領域所有的“國產替代”都集中在推理端,因為推理所需算力要求不高。在訓練端,全世界都存在對英偉達(設計)+臺積電(制造)的替代需求,可是全世界都沒做到(包括美國自己的科技大廠)?;蛟S再過五年、十年,總歸有人能拿出替代方案,但那時的世界又不一樣了。上文提到過,目前國內自研AI大模型與GPT的差距還是明顯的,而且GPT自身也在迅速迭代,訓練算力的需求一時半會是下不來的。

目前國內的幾家主流大廠(大家都知道是哪幾家),平均每家手頭只有1000-2000張用于通用大模型訓練的顯卡,有的多些、有的少些。有人猜測,某些大廠可能在海外囤積了大批顯卡;不過考慮到近年來英偉達顯卡一直供不應求,就算“囤積”了,規模也不會太大。即將到來的GPT-5時代,可能是一個“萬卡規?!钡臅r代,全國現有的符合要求的顯卡加起來可能都滿足不了哪怕一個自研大模型的訓練需求。怎么辦?我也很想知道。

附帶說一句,在2022年11月ChatGPT橫空出世之前,中國科技公司囤積英偉達顯卡的最強動力,竟然是為云游戲做準備——當時很多互聯網大廠是真心相信云游戲是未來、而且能迅速兌現的。無心插柳柳成蔭,云游戲雖然一直沒起來,為云游戲準備的顯卡卻成了中國AI大模型的救命稻草。

真是令人啼笑皆非:過去三年,中國游戲行業遭受了來自四面八方的一輪又一輪的抨擊,夾起尾巴做人,在社交媒體上動不動就能看到“游戲算科技嗎”“游戲有什么技術含量”的說法?,F在,居然是游戲行業要在拯救中國“硬科技”的過程中,發揮舉足輕重的作用。我們所有人都欠游戲行業一個感謝。那些一貫輕視、侮辱、詆毀游戲的人,還欠游戲行業一個道歉。我等待著他們的道歉,我希望能聽到他們的道歉!

作者:怪盜團團長裴培

微信公眾號:互聯網怪盜團(ID:TMTphantom),互聯網行業觀察者及研究者。

本文由人人都是產品經理合作媒體@互聯網怪盜團 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!