作者丨朱可軒
編輯丨陳彩嫻
大模型浪潮來襲后,2023 年英偉達數(shù)據(jù)中心的 GPU 出貨量總計約 376 萬臺,較之上一年的 264 萬臺增長 100 多萬臺,并成為歷史上規(guī)模增長最快的硬件公司。據(jù)估計,2025 年英偉達銷量將達到 650 萬至 700 萬塊 GPU。
目前情況來看,英偉達在 GPU 上的壟斷局面仍在持續(xù),然而,其長期持久性(>6 年)的問題仍在被持續(xù)熱議。
當前,以谷歌、微軟、亞馬遜和 Meta 為代表的海外巨頭正在積極整合 AI 需求,力爭成為 NPU 的主要消費者,與此同時,他們也正在自研具有競爭力且高度可靠的芯片。
此外,計算需求的規(guī)模之大也觸及了資本支出、電力供應和基礎設施建設的極限,這正在推動行業(yè)轉向分布式、垂直集成和協(xié)同優(yōu)化的系統(tǒng)(芯片、機架、網(wǎng)絡、冷卻、基礎設施軟件、電源),而英偉達對此準備不足。
基于此,英偉達可能會失去有利地位,影響將波及 AI 堆棧的各個層面——從晶圓廠和半導體,到基礎設施、云端、模型開發(fā)者和應用層。
巨頭加速芯片競爭
據(jù)英偉達方面介紹,2025 財年第四季度,其共交付了 110 億美元 Blackwell 芯片,Blackwell 主要賣給云巨頭,這部分收入占英偉達數(shù)據(jù)中心業(yè)務收入的半成左右。
不過,業(yè)內判斷,云巨頭的份額將縮小,此外,由于過度購入并被迫虧損出售的小 / 短期 GPU 租賃廠商的利用率和投資回報率也均較低。
同時,由于規(guī)?;那把啬P统杀靖汀⑿阅芎头夯芰Ω?,尤其是在有效的 RAG 和廣泛可用的微調機制之下,大多數(shù)使用特定數(shù)據(jù)訓練專有模型的公司價值點尚不明確,這些長尾買家的需求并不穩(wěn)固。
此外,部分小型獨立云廠商如 Coreweave、Lambda、Crusoe、Runpod 等的未來不夠明晰,英偉達過往偉減少云巨頭帶來的沖擊給予他們資金和 GPU 支持,但其仍舊缺乏產(chǎn)品多樣性、基礎設施和人才能力。
相比之下,云巨頭的需求則增長迅速,外部開發(fā)者面臨著長期資源短缺,交付周期長達數(shù)月,而內部需求也加劇了這一趨勢,50-70% 的總計算量用于前沿訓練和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。
盡管各大云服務提供商每年的資本支出都超過 200 億美元,但所有主要云平臺都已滿負荷運轉。憑借規(guī)模和基礎設施經(jīng)驗,云巨頭最有能力攤銷折舊和停機成本,同時提供他們也提供了很強的靈活性、安全性和可靠性,由此帶來高 AI 服務利潤率和客戶信任度。
當 GPU 支出數(shù)億時,英偉達在主導驅動并行 AI/ML 工作負載方面的平衡是可控的,如今,這種情況已不復存在。在一些超大規(guī)模數(shù)據(jù)中心,資本支出已超過毛利潤的 25%,GPU 占基礎設施支出的一半,并占數(shù)據(jù)中心 TCO 約 80%。此外,與軟件不同,推理是邊際成本結構的核心。
雖然替代英偉達并不容易,但巨頭們均在尋找機會點:
Meta 用 ASIC 取代了英偉達處理其一些最大的 DLRM 工作負載,谷歌也用同樣的方法處理了 YouTube 的關鍵視頻編碼工作負載。亞馬遜早在 2012 年就用 Nitro 取代了虛擬機管理程序,并用 Graviton 取代了大量英特爾 CPU。
云巨頭以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要設計合作伙伴已經(jīng)投入了大量資金和工程人才,以削弱英偉達的壟斷。
并且歷屆 TPU 論文中與對應的 GPU 相比都有性能和能耗上的優(yōu)勢。比如,TPU 第 4 代和英偉達的 A100 是同等制程的,在這一情況下,單看半導體利用率,TPU 的技術和架構及設計方案會比 GPU 有 3-5 倍的性能提升。
現(xiàn)階段,也有許多頭部廠商在采用 TPU,如 Anthropic 使用 TPU v5e 進行推理,蘋果則曾選擇在 TPU V4 和 V5p 的混合體上訓練其 SOTA 3B 參數(shù)本地模型。
發(fā)展至第六代,TPU Trillium 已經(jīng)將能效和 HBM 容量提高一倍,峰值性能提高三倍以上。而谷歌也在迭代其軟件堆棧,由 TensorFlow 過渡到 JAX 用于處理編譯和低級部署優(yōu)化,TPU 和 JAX 的組合幾乎完全取代了谷歌內部用于 AI 工作負載的英偉達 GPU。
本月初,谷歌又發(fā)布了第七代 TPU"Ironwood",作為谷歌首款面向 AI 推理時代的 TPU,單芯片峰值算力可達 4614 TFLOPs。據(jù)介紹,Ironwood 可擴展至 9216 片芯片集群,性能是第六代 TPU Trillium 的 2 倍,并且能效較之于第一款 Cloud TPU 高出近 30 倍。
此外,HBM 帶寬也有所提升,單顆 Ironwood 芯片的內存帶寬達 7.2Tbps,是 Trillium 的 4.5 倍,Ironwood 芯片間互聯(lián)(ICI)帶寬則為 1.2Tbps,是 Trillium 的 1.5 倍。
除谷歌外,亞馬遜也正在加速芯片開發(fā),自 2015 年收購 Annapurna Labs 后,他們推出了第二代 Inferentia 和新的 Trainium 芯片,預計到 2026 年,支出將達到 25 億美金。第一代運行 Alexa 的后端,而第二代則專注于 LLM 價格和性能的優(yōu)化。Anthropic 也已選擇了亞馬遜作為主要算力供應商,并與其一同研發(fā)下一代芯片。
微軟則推出了自研 AI 芯片 Maia 100 芯片和相關的 Cobalt 100 CPU。在軟件方面,微軟推出了兼容 Pytorch 的編譯器 Maia SDK,依靠 Open AI 的 Triton 框架來取代 CUDA。另外,還推出了一種新的數(shù)據(jù)格式(MX v1.0)以使跨提供商的量化標準化,這將使自研和第三方芯片無縫互操作,為開發(fā)者提供完整的可移植性。
Meta 也在布局 ASIC,早期,Meta 芯片主要為 Instagram 和 Reels 提供 DLRM,隨著第二代 MTIA 芯片發(fā)布和支持定制軟件堆棧,其已開始在 Facebook 和 Instagram 的新聞推送推薦系統(tǒng)中使用推理芯片。
Meta 還在合成數(shù)據(jù)生成方面擴大芯片使用,此前,Llama 3.1 就使用了這些芯片進行監(jiān)督微調和數(shù)據(jù)提煉,以預訓練較小的模型。上月,據(jù)外媒報道,Meta 已經(jīng)在小規(guī)模部署測試其首款用于 AI 訓練的自研芯片。
當前,AI 的工作負載偏向于訓練,即使在微軟,訓練也約占算力需求的六成,理論上來講,由于訓練受限于內存且對空間限制較為敏感,會限制 ASIC 的可行性,但隨著重心由訓練轉向推理,英偉達的壓力也正在增大。
業(yè)內分析認為,在許多情況下(尤其是對于中型模型),上一代 A100 的性價比都高于 H100,而 AMD 也正在成為更具競爭力的替代品,甚至從長遠來看,尤其是對于小模型而言,基于 CPU 的推理或為最佳選擇。
分布式帶來的挑戰(zhàn)
當然,也有人會反駁稱,就單芯片性能而言,英偉達 B100 的性能相當于 3 個 Trillium TPU,但有觀點認為,單芯片性能并不重要:云巨頭能夠垂直整合并利用其規(guī)模和專業(yè)打造總體上更經(jīng)濟、性能更高的分布式系統(tǒng),對于英偉達而言,這將會是難以競爭或適應的結構性趨勢。
隨著登納德縮放定律(Dennard scaling)的失效和 SRAM 邏輯尺寸的縮小,晶體管小型化的回報下降,新節(jié)點成本卻一路飆升,硬件增益(密度、性能和成本)將越來越多地來自系統(tǒng)技術的協(xié)同優(yōu)化,以及互聯(lián)、芯片、冷卻、電源、機架和數(shù)據(jù)中心的智能設計。
這在很大程度上得益于先進的封裝技術(例如芯片、增加的封裝內 HBM)和更大的基板。而更大的增益則來自于數(shù)據(jù)中心運營商、供應商和系統(tǒng)集成商有意識地根據(jù)超大規(guī)模需求定制設計的努力。
以微軟的數(shù)據(jù)中心設計為例,他們規(guī)劃了自己的電信光纖網(wǎng)絡,并推出新的 ColorZ 可插拔光收發(fā)器 + DSP,以支持長距離(
為了支持海量數(shù)據(jù)流,微軟計劃開發(fā)用于交換機和收發(fā)器的封裝內、并最終實現(xiàn)芯片光學器件。目前搭載 Maia 芯片的機架擁有更高的垂直整合度,通過使用定制配電、高帶寬以太網(wǎng)協(xié)議和專用的機架內 "sidekicks" 來實現(xiàn)閉環(huán)液體冷卻,且在提高芯片密度的同時,降低了互連要求和成本。
重要的是,這些服務器集成到現(xiàn)有的微軟數(shù)據(jù)中心基礎設施后,可以在現(xiàn)有空間內實現(xiàn)動態(tài)功耗優(yōu)化、更輕松的管理以及更大的計算能力,這是擴展訓練運行的必要條件。
谷歌所見略同,他們放棄了大型芯片,轉而采用體積更小、成本更低、且具有深度互連的 ASIC 集群。在機架層面,所有 TPU 都具有相同的配置,無需支持不同的環(huán)境。此外,它們在機架中集成的服務器主板也更少,這提高了機架密度,并進一步降低了硬件部署的復雜性。
并且谷歌使用 ICI 而非 NVLink,這讓他們能通過無源銅纜,以非常低的成本連接 64 個 TPU 的切片。
與英偉達的不同之處還在于,谷歌在數(shù)據(jù)中心及其他方面均進行了大量的定制化:TPU 設計為在 4096 個芯片的艙內運行,使用定制光學開關(Apollo)代替普通的電子分組交換機,與英偉達相比,大大降低了功耗和停機時間。
更重要的是,結合更小的批量大小、數(shù)據(jù)驗證技巧和高級分區(qū),這意味著谷歌可以在多個連接的數(shù)據(jù)中心訓練像 Gemini Pro 1.5 這樣的前沿模型。這最大限度地降低了未來訓練基礎設施的功耗和尺寸要求,并且在提高了硬件模塊化的同時,延長了舊芯片 / 設備的使用壽命。
基礎設施正在變得愈發(fā)分布式,以 Meta 為例,Llama 3 的訓練就并非集中于單一數(shù)據(jù)中心。值得一提的是,由于需要去在包括 AWS、Oracle 等云上做訓練,所以 Meta 也正在通過與 HammerSpace 合作將多云多數(shù)據(jù)中心的數(shù)據(jù)完全統(tǒng)一起來。
微軟也正在為 OpenAI 連接遍布全國的集群。當前,海外巨頭都在積極探索實現(xiàn)真正的異步分布式訓練。
同時,也加速了基礎設施的建設:小型數(shù)據(jù)中心更容易進行設計、獲得土地使用權 / 許可證、環(huán)境影響評估 ( EIA ) 審批、供應商 / 總承包商 ( GC ) 以及建設輸電和電壓變壓器;互聯(lián)集群則可以幫助克服電網(wǎng)滿負荷運行的電力限制,單個數(shù)據(jù)中心很快就會達到規(guī)模極限(例如,10GW 集群約占美國電力的 1%)。
如微軟已開始深入研究,并已與 Lumen 等光纖網(wǎng)絡提供商斥資超過 100 億美元。雖然還需要幾年時間才能部署,但將提供 1-5Pbit 的帶寬和
這些區(qū)域分布式訓練系統(tǒng)將持續(xù)擴展并成為常態(tài),從而實現(xiàn)更經(jīng)濟、更快速的基礎設施建設,同時推動單次運行(x-xxGW)的峰值功率 / 計算能力。
不過,雖然分布式系統(tǒng)為非傳統(tǒng)但資金雄厚的參與者創(chuàng)造了一些機會,但基礎設施專業(yè)知識至關重要,巨頭必須不斷擴展以訓練出更優(yōu)秀的模型。長期來看,關鍵區(qū)別在于訓練將在 x00MW-xGW 數(shù)據(jù)中心的 " 小型 " 聯(lián)網(wǎng)園區(qū)中進行,而不是在 xxGW 級的單體數(shù)據(jù)中心中進行。
基于前述趨勢,業(yè)內分析認為,英偉達將很難在性能或成本上競爭,其既無法與云深度集成,也無法定制硬件,除非他們發(fā)展出規(guī)模較小的客戶,英偉達本身并不適合服務于跨集群或百億億次級的情況。
由于模型規(guī)模龐大且權重分布不均,單個 NIC、GPU 或光模塊故障就可能導致整臺服務器癱瘓,迫使數(shù)據(jù)重新傳輸,而隨著新機架的出現(xiàn),節(jié)點規(guī)模也隨之增大,這種情況會更加嚴重,即使頻繁設置檢查點,也會將 MFU 拖累數(shù)個百分點。
此外,盡管英偉達正在推動向 800 Gbps 網(wǎng)絡的過渡,但他們面對數(shù)據(jù)通信領域由超大規(guī)模引領的大規(guī)模轉型表現(xiàn)出措手不及,未來會越來越多地使用可插拔 ZR 光模塊來支持連接數(shù)據(jù)中心所需的超高帶寬光纖連接,還將獲得新的 DSP 和支持電信硬件(放大器、多路復用器、轉發(fā)器等)。
這會破壞英偉達的網(wǎng)絡堆棧,并且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供應商受益。
值得一提的是,英偉達還面臨著一個最緊迫的問題——容錯,在訓練過程中處理多個故障點時,容錯能力是確保可靠性和高利用率的關鍵。規(guī)模較小的客戶依賴于開源框架,但對于規(guī)模非常大的集群,英偉達的網(wǎng)絡設計和硬件選擇并未提供內置保護。
如今,許多巨頭依賴于內部解決方案:谷歌的 Pathways 比其他解決方案在邊緣情況和故障類型方面表現(xiàn)更優(yōu),同時能夠靈活處理同步和異步數(shù)據(jù)流。Pathways 還擅長檢測和修復幾乎無法察覺的、繞過 ECC 的 GPU 內存問題,而英偉達的診斷工具 ( DCGM ) 可靠性要低得多。
英偉達也難以提供具有競爭力的分區(qū)和集群管理軟件,其 BaseCommand 系統(tǒng)(基于 Kubernetes 構建)旨在實現(xiàn)跨平臺,并兼容異構系統(tǒng)。
然而,其他廠商擁有更完善的專有集成解決方案,如谷歌的 Borg 和微軟的 Singularity 能夠更好地處理規(guī)?;奶摂M機 / 容器管理、透明遷移以及 GPU 工作負載的調度 / 管理。谷歌甚至還通過 MegaScaler 在單個園區(qū)內外的 TPU Pod 之間同步劃分工作負載。
較之英偉達,云巨頭在半導體、基礎設施和模型層面的垂直整合,能夠提升其系統(tǒng)級理解、可觀察性、協(xié)同優(yōu)化和故障分析能力。
當前英偉達也已在通過 Blackwell 和 GB200 解決結構性問題。在硬件層面,安裝了機架寬的銅纜連接背板,并采用液冷技術來提高密度、能效和總體擁有成本 ( TCO ) ,并推出了基于以太網(wǎng)的數(shù)據(jù)中心級網(wǎng)絡解決方案 Spectrum-X。
在軟件方面,英偉達正在積極更新 DCGM 軟件,并推出專用的可靠性、可用性和可維護性 ( RAS ) 引擎,旨在通過傳感器級芯片數(shù)據(jù)預先向運營商發(fā)出故障警報,從而幫助緩解持續(xù)存在的 NIC/Infiniband 故障。
然而,綜合來看,這還不夠。
如前文所述,幾乎所有關鍵基礎設施軟件的內部都存在更好的版本,超大規(guī)模數(shù)據(jù)中心也早已實現(xiàn)了規(guī)?;痛怪闭稀?/p>
以冷卻為例,早在英偉達強制使用液冷前,谷歌于 2018 年就通過 TPU v3 部署強制使用液冷,谷歌的 TPU v3 部署每千瓦時用水量比微軟的英偉達數(shù)據(jù)中心少 2 倍,PUE(電源使用效率)為 1.1,而微軟的 PUE 則>1.4。這意味著英偉達在每個超大規(guī)模數(shù)據(jù)中心損失了 30% 的有效電力和 50% 的占地面積。
英偉達意識到了這一點,并通過布局 DGX Cloud、NGC 等努力提升價值鏈,也前瞻性收購了 Mellanox,但未來正朝著大型園區(qū)和云的方向發(fā)展,而英偉達卻主要在數(shù)據(jù)中心層面進行優(yōu)化,其正面臨著前所未有的長期挑戰(zhàn)。雷峰網(wǎng)雷峰網(wǎng)
參考鏈接:
https://mohitdagarwal.substack.com/p/from-dominance-to-dilemma-nvidia