關于AI算力的若干神話與現實
算力作為AI發展的核心驅動力,一直是業界關注的焦點。然而,在這一領域中,存在著不少神話和誤解。本文深入探討了AI算力的現實與神話,供大家參考。
算力將是未來很長一段時間最重要的“戰略資源”之一,這一點已經得到了專業人士和資本市場的普遍認可。正因為算力實在太重要,與算力相關的產業鏈又太長太復雜,所以圍繞著算力總是會產生許多“神話”。各種各樣的人都在發表與這個話題有關的言論,有些純粹是出于興趣,有些則是出于利益(最典型的例子是炒股票)。無論在中文互聯網還是英文互聯網上,英偉達每天都在被顛覆,臺積電則每周或每個月都在被顛覆,甚至連GPU這個概念也經常被顛覆。
有人說,華為昇騰芯片的算力已經超過了英偉達的“大卡”,而且證據確鑿。還有人說,新興芯片設計公司Groq的自研芯片的推理效率遠遠高于英偉達的同類產品,至少可以在推理端實現對英偉達的替代。上述兩個神話的共同點是:都有一定的基礎論據,不是完全的空想,但都與事實相去甚遠。就好比盲人摸象,有人只摸到了大象身上的一根毛發,就激動地自稱抓住了大象的本質——這就是關于算力的“神話”層出不窮的根本原因。
此時此刻,關于AI算力有三個最引人注目、也最富爭議的“神話”:
- 英偉達的護城河沒有多寬,很容易被競爭對手攻破;
- 只要攻破了英偉達的護城河,我們就能解決AI算力的緊缺問題;
- AI算力很快將從數據中心下放到端側,從而為“AI手機”等消費級產品帶來機遇。
對于第一個“神話”,只有做過AI研發的人最能理解其荒謬性。外人往往認為,衡量硬件算力的唯一標準是技術指標,只要在關鍵技術指標上超越了英偉達,就可以取而代之——如果真的這么簡單就好了!英偉達的L40“中卡”,在某些技術指標上甚至超過了自家的H100“大卡”,更不要說與上一代“大卡”A100相比了。AMD的數據中心GPU產品線,也不乏在某些技術指標上超過H100的產品。為什么沒有想到用這些產品代替H100?
因為英偉達的護城河不止硬件本身,還包括CUDA軟件社區和NVLink互聯技術。有些AI開發者把英偉達稱為“三頭怪”:競爭對手必須同時砍下硬件、CUDA和NVLink三個頭,才能將其擊敗。在這三大護城河當中,硬件層面已經是最容易逾越的了!假設不考慮成本、不考慮兼容性和使用效率,華為、阿里等國內科技公司都有能力開發出“看上去比英偉達更好”的數據中心GPU,在全世界范圍內具備這種能力的公司就更多了;可是有什么用呢?“看上去比英偉達更好”是毫無意義的。
目前主流的AI訓練服務器包括8塊H100 GPU;英偉達的下一代“超級芯片”GB200包括兩塊B200 GPU和一塊Grace CPU,一臺服務器由多塊這樣的“超級芯片”組成。GPU與GPU之間、GPU與CPU之間無時無刻不在交換數據,而NVLink是一種高速的、久經考驗的芯片互聯解決方案。在2014年NVLink發布之前,市面上最流行的芯片互聯技術是英特爾、IBM、戴爾和惠普共同開發的PCI Express(簡稱PCIe),它適用于絕大多數的主流芯片,問題是速度太慢、而且對通用計算GPU的優化程度不夠。NVLink 4.0的傳輸速率能夠達到PCIe 5.0的7倍以上,能源消耗則只有后者的五分之一。在實踐中,大部分用戶都認可NVLink在所有類似的解決方案當中是最快的。
按照英偉達的說法,NVLink把GPU變成了“樂高積木”:8個GPU組成一個服務器,32個服務器組成一個算力集群;微軟、亞馬遜這樣的大廠還可以組建更大規模的超級算力集群,直至所謂“萬卡集群”,GPT-4就是在這樣的集群上訓練出來的。當然,NVLink只適用于英偉達的產品,以及英偉達的技術合作伙伴IBM的Power系列產品。準確地說,即便在英偉達的GPU當中,也只有“大卡”具備完整的NVLink支持,“中卡”“小卡”要么根本不支持NVLink,要么只支持很低的傳輸速率。這顯然是英偉達為了區分產品層級而使用的謀略:要訓練大模型,就必須買昂貴的“大卡”,想通過組合大批“中卡”瞞天過海是不可能的。
如果企業客戶選擇英偉達之外的GPU,就只能使用PCIe等通用互聯技術,組建算力集群的效率要下一個臺階。PCIe也在不斷進化,但是其與NVLink的差距不是幾年內能彌補的。理論上,客戶也可以自己“魔改”,強行在英偉達“中卡”甚至其競爭對手的顯卡上使用NVLink技術,但是這樣做的風險實在太大。從NVLink首次發布至今已經經歷了十年以上,任何競爭對手若想做出足以取而代之的技術,恐怕要花費同樣長的時間。
至于推理環節,芯片互聯的需求沒那么大,確實可以不考慮NVLink,以Groq為代表的專業推理芯片設計公司有機會,國內科技企業也有機會。但是,對于一般的企業客戶來說,采購英偉達的“中卡”“小卡”可以完成多種任務,還可以做圖形渲染、做云游戲;而其他公司推出的“專業推理芯片”往往是高度特化的,只適合執行大模型推理任務。對于科技巨頭來說,就連推理環節也出現了以英偉達“大卡”代替“中卡”的趨勢,因為這樣能提升推理速度、實現算力的靈活配置。綜合各項顯性和隱性成本考慮,絕大部分企業不會主動考慮在推理環節把英偉達替換掉。
至于CUDA的重要性,更是怎么高估也不過分:它包括一系列代碼庫、一整套工具和開發環境,數以百計的軟件開發商是其長期合作伙伴。開發者不需要熟悉GPU的底層架構即可上手。更重要的是,CUDA積累了數以百萬計的開發者群體。從學術界到產業界,到處是精通CUDA的開發者,他們也會教自己的下屬和后輩使用CUDA。在你使用CUDA開發的時候,你其實是站在無數前人經驗的基礎之上。一位在國內從事AI開發的技術人員告訴我:“全球擁有博士學位的CUDA開發者可能有50萬人,他們精通高性能計算,由此實現了CUDA社區資源的良性循環。整個英偉達生態的線下線上免費活動非常多,我自己就加入了好幾個英偉達中國交流群,每天收到各種會議交流信息。除非實在沒有使用CUDA的條件,否則很難想象有人會主動放棄CUDA!”
不可否認的是,在十多年的發展歷程中,CUDA變得日益臃腫、復雜,開發難度逐漸提升了。曾任職于蘋果和AMD的著名芯片架構師吉姆·凱勒(Jim Keller)曾指出:“CUDA是一片沼澤,而不是護城河。CUDA并不漂亮,它是通過一次次堆積功能而構建起來的?!迸c其說這是英偉達的問題,倒不如說是所有大型應用開發生態的共同問題:需要實現的功能太多,而且必須保持向下兼容的特性,于是生態系統變得越來越復雜混亂,開發效率不斷降低。除非推倒重來,這樣的問題是不能避免的;而專業開發人員都知道,CUDA就算再臃腫,也遠遠沒到需要推倒重來的地步。
真正能對英偉達構成威脅的力量來自開源社區。英偉達的顯卡驅動程序是閉源的,因此飽受詬病。2022年,由于受到黑客的威脅,英偉達對部分GPU驅動程序的內核模塊(Kernel Module)進行了開源,但只是聊勝于無,實用價值不大。外部開發者以反向工程的技術手段開發了一些英偉達顯卡的開源驅動程序,可想而知,它們的技術水平不會很高。英偉達堅持閉源的原因很簡單,就是要最大限度地保持對自家產品的控制、謀取最高的利潤,這一點對于盈利性公司而言無可厚非。
英偉達的老對手AMD則于2014年推出了名為”AMDGPU”的開源驅動程序。作為落后幅度很大的追趕者,AMD必須通過開源實現差異化,力爭建立一個足以與英偉達競爭的開源軟件生態。在信息科技的歷史上,我們經常看到“一個強大的閉源產品VS一個豐富的開源生態”的競爭格局——閉源的Windows和開源的Linux共同構成了PC操作系統的雙峰,而閉源的iOS和開源的安卓又構成了智能手機操作系統的雙峰。遺憾的是,由于AMD的產品力太弱,開源策略還不足以讓它真正挑戰英偉達。Linux和安卓的成功,很大程度上是因為它們是“純軟件”,開源社區的包容性和創造力足以做出能與商用軟件匹敵的產品;英偉達的統治地位卻是軟硬件一體化的產物,要讓開源社區一口氣砍掉它的“三個頭”,實屬強人所難。
再說第二個“神話”。假如明天發生奇跡,市面上驟然出現幾個性能比英偉達更好、軟件生態比英偉達更發達的競品,全球算力緊缺的問題是不是就能解決呢?當然不能。無論是誰設計出了世界上最好的GPU,在當前情況下,它都要去找臺積電代工,因為那是全球5納米以下制造能力最強、良品率最高的半導體制造企業。而且,臺積電的5納米及3納米產能,幾乎全部位于臺灣南部工業園區的第18號晶圓廠.至于廣受外界關注的臺積電美國亞利桑那工廠,其一號和二號工廠分別要到2025年和2028年才投產;號稱使用最先進技術的三號工廠,至今尚未確定投產日期。
芯片制造是典型的重資產行業,重資產行業的特點就是供需關系很少完美匹配,總是處于供不應求和供大于求的循環之中。因為資本開支需要時間轉化為產能,而客戶需求往往呈現突發性增長的態勢,等到產能追上來了,需求增長可能也就結束了。ChatGPT引發的生成式AI浪潮出乎所有人的意料,臺積電當然不可能事先為之擬定資本開支計劃。老實說,現在最希望三星和英特爾能夠追上臺積電的,應該是英偉達。
1990年代以前,美國芯片制造業一度占據過世界領先地位,后來是它自己半主動地放棄了這個地位,這也是美國“去制造業化”進程的一部分?,F在,《芯片法案》試圖促進芯片代工廠回流美國,通過該法案拿到補貼、在美國設廠的不止臺積電一家。然而,臺積電創始人反復表達過自己不看好美國重振芯片制造業的努力:第一是因為美國工程師不及東亞地區的人勤奮,第二是因為美國地廣人稀、難以通過基礎設施實現產業鏈的富集效應。
三星、英特爾面臨的問題說明了一個事實:光刻機不是決定芯片產業發展的唯一因素。如果買上幾臺最先進的光刻機就能做好芯片代工,美國商務部完全可以直接買下大批光刻機并送給英特爾等美國本土芯片制造商,而不是花大力氣勸說臺積電來建廠。過去三十多年,芯片制造業積累了太多的技術流程知識(technological know-how),只有經驗豐富的工程師、中層經理和管理層加在一起,才能完整地掌握并使用這些知識。中芯國際的崛起,既得益于曾長期在臺灣工作的創始人張汝京,也離不開一批在臺灣半導體產業積累了深厚經驗的技術骨干和經理人。
在臺灣,除了臺積電,還存在聯電等一批芯片代工廠;可是近二十年來,它們與臺積電的差距越拉越大。這種“馬太效應”的形成,固然有企業自身決策和執行力的影響,但也是由芯片制造業的特性決定的——資本開支太大、技術迭代太快,最優質的客戶只會選擇最先進的代工廠,從而形成“強者恒強”的趨勢。臺積電在臺灣半導體產業的領先地位早在2003年前后就已形成,而在全球半導體行業的領先地位則是在2014年蘋果全面轉移芯片訂單之后才確立的。2022年,英偉達把H100芯片代工合約全部交給臺積電,一方面體現了對臺積電5納米以下制程技術的認可,一方面也進一步打消了三星在短期內追上來的希望!
總結下來就是:算力供應的瓶頸在于臺積電,解決瓶頸只有兩種可能性——要么等待臺積電把產能擴張出來,要么等待三星、英特爾或其他代工廠的技術水平趕上來。因此我們可以理解,為何英偉達在財報當中反復指出“下一代芯片仍將處于供不應求的狀態”。這種持續的供不應求,對所有人都造成了影響,但是科技巨頭受到的影響相對較小,因為它們總能得到英偉達的優待。算力緊缺的時代也是科技行業重新洗牌的時代,創業公司必須牢牢抱住算力資源豐富的大廠的大腿,大廠的統治力其實更加穩固了。
至于第三個“神話”,其實有一定的實現可能性,只是市場在短期的期望值太高了。所謂“端側計算”(Terminal Computing)的概念其實并不新鮮了,我們日常使用的電腦、智能手機乃至智能家電都是“客戶端”,也都具備一定的算力。以玩游戲為例,常見的游戲方式是把游戲下載到本地、由“端側算力”運行游戲程序;云游戲則是在數據中心運行游戲程序,計算結果通過串流的方式輸出到客戶端。到底哪一種方式更優越?考慮到網絡串流有延遲,在客戶端硬件條件較好的情況下,大部分人會首選“端側計算”。
但是在生成式AI方面,情況明顯不同:絕大部分桌面級電腦的顯卡算力不足以執行大模型推理任務,手機算力就更不夠了。在當前的主流消費級顯卡當中,只有英偉達的RTX系列可以勝任一定程度的推理任務,所以英偉達正在推廣“基于RTX的桌面AI推理”;可是RTX對一般消費者而言還是太貴了,只有游戲發燒友買得起。何況,英偉達推廣桌面推理的主要對象并不是消費者,而是輕量級的專業開發者。
在全球范圍內,已經有多家手機廠商提出了“AI手機”的概念。不過,迄今還沒有一家主流手機廠商推出過具備完整的“端側AI算力”的手機。嚴格地說,“AI手機”不一定意味著要通過端側算力進行AI推理;手機廠商完全可以租用大量云平臺算力,或者自己儲備一批算力,專門用于解決自身用戶的AI推理需求——蘋果可能正在做這樣的事情。除了算力,手機廠商還有很多可以做的事情,包括推出自己的大模型,基于大模型開發更好的聊天應用和生產力工具,把AI與手機的硬件功能更緊密地結合起來,等等。算力固然很重要,但算力不是全部。
不過,如果手機廠商非要嘗試把算力下放到端側,又該怎么做呢?我們知道,為了降低耗電量和發熱量,智能手機采用的都是低功耗的ARM架構芯片。英特爾曾經嘗試把x86芯片用于手機,以慘敗告終。現在ARM也可以勝任復雜的計算任務了,英偉達在2023年推出的Grace CPU就是基于ARM架構;但是,用于數據中心和桌面工作站的ARM芯片,其功耗水平還是手機端完全無法接受的。在現有技術條件下,硬要為智能手機設計“端側推理芯片”,得到的恐怕只是推理能力孱弱、功耗遠高于一般水平的四不像。
算力究竟應該放在云端還是終端,是由具體需求決定的。在游戲場景中,用戶對傳輸延遲的忍受程度很低,所以云游戲至今沒有成為主流。而在生成式AI場景中,到目前為止,用戶對傳輸延遲不太敏感。因為AI大模型推理本身消耗的時間就很長了,網絡傳輸所消耗的時間壓根算不了什么。哪怕我們真能在手機上搭載專業級的推理芯片,從而節約幾十毫秒的傳輸時間,用戶可能根本就感受不到;我們如何說服用戶為自己感受不到的功能付費呢?
因此,五到十年乃至更長的時間以后,完全可能出現端側算力和云端算力同時承擔AI推理任務的情況。我們的電腦、手機、汽車、智能電視乃至掃地機器人都會具備一定的推理算力。至于這些端側算力究竟要強大到什么地步?推理算力在端側和云端究竟會以什么比例分配?那就完全無從預測了。
這就是消費電子廠商的困境所在:它們對未來毫無頭緒,不知道該采取什么動作,還是該安靜地等待一陣子。這也是2023-2024年蘋果在硅谷科技巨頭當中股價表現較差、失去市值最大公司地位的根本原因。
從這個角度講,還是A股機構投資者具備天然優勢——他們不需要真正理解世界上發生的任何事情,只需要沉浸在自己(以及上市公司)營造的幻覺之中,就可以一路遙遙領先,創造神話。至于這種遙遙領先是如何把他們帶到滅亡邊緣的,那就是另一個故事了。
本文摘自互聯網怪盜團新書《巨浪:生成式AI的史詩與現實》一書的第五章,有刪節。原書第五章題為《算力戰爭》,全面描述了英偉達、臺積電等芯片產業鏈巨頭在算力經濟中的地位,以及全球AI算力緊缺的原因和發展態勢。
本文由人人都是產品經理作者【互聯網怪盜團】,微信公眾號:【互聯網怪盜團】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!