0
| 本文作者: 劉伊倫 | 2026-03-31 17:50 |
“超節(jié)點(diǎn)互聯(lián)協(xié)議生態(tài)的碎片化,正成為制約其規(guī)模化部署的核心瓶頸。”奇異摩爾CEO田陌晨說。
從當(dāng)前產(chǎn)業(yè)實(shí)踐來看,全球已形成多條技術(shù)路線并行競爭的格局:英偉達(dá)NVLink憑借成熟生態(tài)與全棧封閉體系占據(jù)高端訓(xùn)練主導(dǎo)地位;華為靈衢依托超節(jié)點(diǎn)架構(gòu)在國內(nèi)智算中心實(shí)現(xiàn)規(guī)模化部署;UALink聯(lián)盟以開放標(biāo)準(zhǔn)為基礎(chǔ),打造多廠商兼容的開放互聯(lián)協(xié)議,形成“反英偉達(dá)”聯(lián)盟;ETH?X、SUE等以太網(wǎng)開放協(xié)議,以及OISA標(biāo)準(zhǔn),在通用物理層之上構(gòu)建原生超節(jié)點(diǎn)互聯(lián)協(xié)議,兼顧開放生態(tài)與部署成本。
路線的差異客觀上構(gòu)成了彼此割裂的生態(tài)孤島,設(shè)備互操作性受限,客戶一旦選定某條路線便深陷遷移成本高昂的“單選題”困境。
“英偉達(dá)新一代DGX SuperPOD統(tǒng)一內(nèi)存域的規(guī)模上限為576個Rubin GPU,核心原因正是其多層異構(gòu)的互聯(lián)架構(gòu):GPU與CPU之間采用NVLink或PCIe、GPU與GPU之間采用NVLink,而跨服務(wù)器互聯(lián)則采用InfiniBand或以太網(wǎng)。”資深產(chǎn)業(yè)專家劉雨嫣表示,“不同層次的計(jì)算資源采用不同協(xié)議互聯(lián),會直接推高集群維護(hù)成本,同時削弱網(wǎng)絡(luò)彈性。”
不過這一困境并未動搖國內(nèi)廠商自研的路徑,不少廠商相繼推出采用自研互聯(lián)協(xié)議的超節(jié)點(diǎn)方案。
“但這類企業(yè)普遍缺乏chip-to-chip片間互聯(lián)技術(shù)的積累,而算力體系向scale-up深度演進(jìn)的過程中,對網(wǎng)絡(luò)能力與系統(tǒng)架構(gòu)的要求卻會持續(xù)抬升。網(wǎng)絡(luò)研發(fā)的技術(shù)難度并不亞于高端芯片設(shè)計(jì),且至少需要500人的團(tuán)隊(duì)規(guī)模才能支撐。”芯片廠商高管張翔評價(jià)道。關(guān)于國產(chǎn)芯片廠商在超節(jié)點(diǎn)領(lǐng)域的競爭態(tài)勢,歡迎添加微信 YONGGANLL6662 交流更多信息。
各家單打獨(dú)斗,本質(zhì)是出于搶占生態(tài)話語權(quán)、構(gòu)建技術(shù)壁壘等考量,但這一做法無疑加劇了協(xié)議生態(tài)的碎片化。行業(yè)更主流的共識,指向了另一條更關(guān)鍵的路徑:協(xié)議標(biāo)準(zhǔn)化。
歷史規(guī)律反復(fù)驗(yàn)證:協(xié)議標(biāo)準(zhǔn)化是技術(shù)規(guī)模化爆發(fā)的先決條件。TCP/IP奠定了萬維網(wǎng),4G LTE收斂催生了移動互聯(lián)網(wǎng)。超節(jié)點(diǎn)互聯(lián)亦然,只有通過開放統(tǒng)一的互聯(lián)協(xié)議,實(shí)現(xiàn)算力硬件的全域互通與高效協(xié)同,才能真正支撐起下一代AI算力基礎(chǔ)設(shè)施。
那么,既然開放是大勢所趨,為何頭部廠商仍堅(jiān)持以封閉協(xié)議構(gòu)筑壁壘?在標(biāo)準(zhǔn)割據(jù)與生態(tài)壟斷的夾縫中,中小芯片廠商是否還有破局空間?這場關(guān)乎未來算力格局的技術(shù)博弈,最終是否真的會像互聯(lián)網(wǎng)一樣,走向協(xié)議統(tǒng)一與全域互通?
封閉協(xié)議催生生態(tài)「排他性」,谷歌與英偉達(dá)會就此「贏家通吃」嗎?
“互聯(lián)標(biāo)準(zhǔn)不統(tǒng)一、生態(tài)割裂,是當(dāng)前的必然結(jié)果。谷歌和英偉達(dá)在設(shè)計(jì)超節(jié)點(diǎn)互聯(lián)架構(gòu)之初,就沒有以開放兼容為目標(biāo)。它們不會等待行業(yè)形成共識,而是持續(xù)迭代新標(biāo)準(zhǔn),以此保持技術(shù)領(lǐng)先身位。” 通信芯片專家李南指出。
多位行業(yè)人士也認(rèn)為,超節(jié)點(diǎn)整體仍處于極早期階段。它的出現(xiàn),本質(zhì)源于云計(jì)算架構(gòu)從通算向智算轉(zhuǎn)型,這一變化要求云計(jì)算體系必須圍繞AI范式進(jìn)行全面重構(gòu)。
“在當(dāng)下全面重構(gòu)的階段,互聯(lián)協(xié)議是突破超節(jié)點(diǎn)‘通信墻’這一核心瓶頸的關(guān)鍵所在,因此各大巨頭正通過封閉化的技術(shù)路線,快速構(gòu)筑屬于自己的底層壁壘,所以這個階段追求協(xié)議統(tǒng)一并不現(xiàn)實(shí)。”劉雨嫣說。
谷歌為TPU集群量身打造了封閉式芯片間高速互聯(lián)協(xié)議 ICI(Inter-Chip Interconnect),并將其與OCS光電路交換、以太網(wǎng)交換機(jī)、專用光模塊以及TPU深度協(xié)同,實(shí)現(xiàn)了極高的產(chǎn)品解決方案一致性,依據(jù)需求構(gòu)建了“蘋果式生態(tài)”。“這種情況下他們一定是實(shí)現(xiàn)效果最佳的,Gemini 3的成功便是最有力的說明。”李南評價(jià)道。
英偉達(dá)則從底層硬件出發(fā),自下而上構(gòu)建超節(jié)點(diǎn)解決方案。其以NVLink為核心的私有互聯(lián)技術(shù),提供了遠(yuǎn)超傳統(tǒng)以太網(wǎng)的帶寬與通信效率,讓多芯片以極低時延實(shí)現(xiàn)高效協(xié)同調(diào)度,并且靠著在單芯片設(shè)計(jì)能力上的壟斷地位,其在市場上同樣極具聲量。
“但英偉達(dá)需要兼顧原有技術(shù)體系的兼容性與繼承性,短期內(nèi)其超節(jié)點(diǎn)規(guī)模僅能支持到576顆芯片。而云廠商身處激烈的MaaS競爭,提供Token服務(wù)必須原生支持超大規(guī)模集群調(diào)度,面向的是百萬卡級別的組網(wǎng)能力,這種路線差異最終帶來了雙方產(chǎn)品形態(tài)的分化。”芯片專家子皓表示。
不過,業(yè)內(nèi)普遍認(rèn)為,二者只是技術(shù)優(yōu)先級與演進(jìn)路徑不同,本質(zhì)差異并不大。英偉達(dá)后續(xù)同樣具備支撐百萬卡級規(guī)模的能力,這就意味著英偉達(dá)和谷歌一樣,都將具備強(qiáng)大的規(guī)模化部署能力。
所以,為了充分利用封閉自研協(xié)議的優(yōu)勢,英偉達(dá)及谷歌都定義統(tǒng)一、標(biāo)準(zhǔn)化的原子節(jié)點(diǎn)。通過讓每一個最小算力單元形態(tài)、接口、性能保持一致,實(shí)現(xiàn)大規(guī)模的高效組網(wǎng)。
規(guī)模化部署能夠帶來極強(qiáng)的“排他性”,進(jìn)一步強(qiáng)化了英偉達(dá)及谷歌的壟斷地位。
子皓向雷峰網(wǎng)表示:“AI云是贏家通吃的市場,一旦錯失先機(jī),很可能徹底被邊緣化。而封閉的互聯(lián)協(xié)議,正是當(dāng)前英偉達(dá)和谷歌重要的競爭手段,甚至可以說是最優(yōu)選擇。”
那么,面對英偉達(dá)和谷歌強(qiáng)大的競爭壁壘,超節(jié)點(diǎn)這場游戲是否還有新玩家的席位?
國產(chǎn)超節(jié)點(diǎn)陷阱:500人團(tuán)隊(duì)死磕自研協(xié)議,不如接入開放生態(tài)
“對絕大多數(shù)芯片廠商而言,超節(jié)點(diǎn)賽道已明顯超出其能力邊界。這類企業(yè)普遍缺乏chip-to-chip互聯(lián)技術(shù)的積累,而算力體系向scale-up深度演進(jìn)的過程中,對網(wǎng)絡(luò)能力與系統(tǒng)架構(gòu)的要求卻會持續(xù)抬升。”張翔表示,“網(wǎng)絡(luò)研發(fā)的技術(shù)難度并不亞于高端芯片設(shè)計(jì),且至少需要500人的團(tuán)隊(duì)規(guī)模才能支撐。”
與此同時,對于單純聚焦超節(jié)點(diǎn)系統(tǒng)解決方案的廠商而言,同樣面臨難以破解的行業(yè)困境:超節(jié)點(diǎn)的技術(shù)話語權(quán)與生態(tài)落地,高度依賴行業(yè)巨頭帶頭并定義標(biāo)準(zhǔn),獨(dú)立方案商很難憑借自身力量建立事實(shí)標(biāo)準(zhǔn),但被動跟隨、適配巨頭標(biāo)準(zhǔn),又會在產(chǎn)業(yè)鏈中失去不可替代性。
在標(biāo)準(zhǔn)話語權(quán)缺失、自研投入性價(jià)比較低的多重約束下,對不少廠商而言,過度追求互聯(lián)協(xié)議自主權(quán),反而容易變成不切實(shí)際的“內(nèi)耗”,并進(jìn)一步加劇互聯(lián)協(xié)議生態(tài)的割裂。而放棄協(xié)議自研,是否就等于放棄生態(tài)話語權(quán)?歡迎添加微信 YONGGANLL6662 交流這一行業(yè)矛盾。
芯片公司和OEM的合作是一個破局的思路,寒武紀(jì)與中興通訊的合作提供了一個“分工解耦”的例子,前者專注MLU-Link芯片級互聯(lián),后者發(fā)揮系統(tǒng)級工程化優(yōu)勢,雙方通過協(xié)議適配完成超節(jié)點(diǎn)落地。華為開放靈衢2.0協(xié)議,為第三方芯片廠商提供高速互聯(lián)能力,支持超節(jié)點(diǎn)集群的多卡擴(kuò)展。中國移動OISA等開放聯(lián)盟同樣破解標(biāo)準(zhǔn)割裂,走“國芯國連、協(xié)議共用”的開放路線。
此外,在超節(jié)點(diǎn)的產(chǎn)品形態(tài)下,采用統(tǒng)一開放的互聯(lián)協(xié)議正為中小芯片廠商對抗谷歌、英偉達(dá)的封閉生態(tài)提供了歷史性契機(jī)。
趨境科技架構(gòu)師謝威宇向雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示:“國產(chǎn)算力硬件廠商當(dāng)下不應(yīng)走封閉路線,在英偉達(dá)和谷歌的體系中,異構(gòu)會帶來效率損耗,但對中小廠商而言,超節(jié)點(diǎn)則提供了異構(gòu)的契機(jī),其通信與計(jì)算并非強(qiáng)耦合,所以統(tǒng)一的通信層為產(chǎn)業(yè)協(xié)同創(chuàng)造了條件。英偉達(dá)之外芯片廠商間的合作,能在全球競爭中占據(jù)更大的市場份額。”
不少業(yè)內(nèi)人士也表示:統(tǒng)一協(xié)議帶來高效互聯(lián)的情境下,異構(gòu)集群效率會更高。大模型推理等任務(wù)結(jié)構(gòu)復(fù)雜,不同模塊天然適配不同芯片,強(qiáng)行同構(gòu)反而會抹銷場景化適配帶來的性能收益。
“當(dāng)前,PD分離已是成熟且易于落地的拆分方案。未來還可向更細(xì)粒度延伸,例如在模型內(nèi)部實(shí)現(xiàn)Attention與MoE、稠密計(jì)算與稀疏計(jì)算的分離,讓更匹配的計(jì)算硬件承接更細(xì)分的任務(wù),會有更高效率。”謝威宇表示。
行業(yè)共識也并非只有“兼容開放”一條路徑:擁抱開放協(xié)議是務(wù)實(shí)選擇,而為適配自身優(yōu)勢場景,走向適度的協(xié)議自主化,同樣是國產(chǎn)算力廠商值得探索的可行方向。
這種場景化自主,建立在對超節(jié)點(diǎn)最優(yōu)規(guī)模的判斷之上。對部分芯片廠商而言,其真正的優(yōu)勢區(qū)間也較為明確:面向中小型模型推理集中在16–64 卡,萬億參數(shù)大模型則在128–256卡。
“過度追求超節(jié)點(diǎn)規(guī)模,一旦超出閾值,通信延遲增長會抵消算力提升,導(dǎo)致GPU閑置率上升、故障率急劇攀升,MFU也會大幅下降。聚焦優(yōu)勢場景與成本優(yōu)化,通過低精度算力與互聯(lián)協(xié)議深度優(yōu)化,才能有效降低單Token成本,遠(yuǎn)比盲目擴(kuò)集群規(guī)模更具競爭力。”曦望Sunrise聯(lián)席CEO王勇表示。
NVLink終將「安卓化」?CSP對封閉協(xié)議沒有“容忍度”
超節(jié)點(diǎn)互聯(lián)協(xié)議生態(tài)的“開放”與“封閉”之爭,是AI基礎(chǔ)設(shè)施產(chǎn)業(yè)極具張力的敘事主線。這場博弈不僅關(guān)乎技術(shù)路線的勝負(fù),更將決定下一代算力基礎(chǔ)設(shè)施的權(quán)力分配格局。
“當(dāng)超節(jié)點(diǎn)演進(jìn)為全行業(yè)的技術(shù)焦點(diǎn),其規(guī)模效應(yīng)與性能需求將自下而上驅(qū)動當(dāng)前碎片化的網(wǎng)絡(luò)互聯(lián)協(xié)議生態(tài)向收斂態(tài)演進(jìn)。這一過程有望推動資源與研發(fā)力量向統(tǒng)一的開放協(xié)議體系匯聚,最終構(gòu)建出支撐下一代數(shù)字基礎(chǔ)設(shè)施發(fā)展的、具有廣泛互操作性的標(biāo)準(zhǔn)協(xié)議框架與生態(tài)系統(tǒng)。”田陌晨表示。
SUE、OISA、ETH-X、UALink等協(xié)議的涌現(xiàn),正逐步推動開放互連生態(tài)的構(gòu)建。
然而,這一收斂進(jìn)程注定不會一蹴而就。
超節(jié)點(diǎn)互聯(lián)協(xié)議碎片化是一個復(fù)雜命題,僅憑單一企業(yè)的力量難以進(jìn)行統(tǒng)籌,這是一場關(guān)乎“生態(tài)構(gòu)建”與“產(chǎn)業(yè)協(xié)同”的系統(tǒng)性工程,其成功高度依賴于產(chǎn)業(yè)鏈上下游的緊密協(xié)作。
因此,市場力量也將成為打破封閉格局的關(guān)鍵推力。
“CSP(云服務(wù)提供商)企業(yè)與大客戶對封閉協(xié)議的容忍度會逐漸逼近臨界點(diǎn),其推動協(xié)議開放的訴求日益強(qiáng)烈。英偉達(dá)雖然通過NVLink和InfiniBand能構(gòu)建起技術(shù)壁壘,但面對這種行業(yè)壓力,開放協(xié)議是遲早的事情。”劉雨嫣表示。
事實(shí)上,英偉達(dá)已于2025年5月推出NVLink Fusion,將封閉的NVLink高速互聯(lián)技術(shù)開放為可集成第三方芯片的半定制架構(gòu),但主要面向云廠商等客戶及合作伙伴,且有嚴(yán)格準(zhǔn)入與合規(guī)門檻。
總體看來,封閉與開放的博弈本質(zhì)上是產(chǎn)業(yè)發(fā)展階段的映射。
谷歌ICI、英偉達(dá)NVLink等垂直整合方案,皆是特定歷史階段的產(chǎn)物:先以封閉體系快速滿足市場需求、初步確立工業(yè)標(biāo)準(zhǔn),再通過行業(yè)協(xié)會漸進(jìn)式推動協(xié)議統(tǒng)一,最終交由UEC等產(chǎn)業(yè)組織落地實(shí)現(xiàn),這一路徑在IT產(chǎn)業(yè)發(fā)展史上屢見不鮮。
互聯(lián)網(wǎng)的發(fā)展歷程為此提供了最有力的參照。
無論是WLAN、以太網(wǎng)、5G等不同底層接入方式,還是手機(jī)、電腦等各類終端,彼此之間的通信都統(tǒng)一基于IP協(xié)議承載。正是憑借這套全球通用的協(xié)議體系,互聯(lián)網(wǎng)才打破了早期各類私有通信協(xié)議的壁壘,實(shí)現(xiàn)全域互通。
這一邏輯同樣適用于當(dāng)前的AI算力基礎(chǔ)設(shè)施。
采用開放統(tǒng)一的超節(jié)點(diǎn)互聯(lián)協(xié)議,能夠讓算力硬件全域互通、高效協(xié)同,以此支撐起爆發(fā)式增長的算力需求。
循此邏輯,面向國產(chǎn)超節(jié)點(diǎn)互聯(lián)的未來發(fā)展,更可行的路徑已然清晰:由國內(nèi)大型云服務(wù)商與頭部廠商協(xié)同,在工信部指導(dǎo)下,共同制定統(tǒng)一的中國國家標(biāo)準(zhǔn)。回顧過去幾十年的技術(shù)演進(jìn),PON接入、TD-LTE等重大技術(shù)體系均走過類似道路,以頂層引導(dǎo)與產(chǎn)業(yè)協(xié)同的方式,形成自主可控、規(guī)模化落地的技術(shù)標(biāo)準(zhǔn)體系。
作者長期關(guān)注AI芯片、存儲領(lǐng)域,歡迎添加微信 YONGGANLL6662 交流更多行業(yè)信息。
注:文中張翔、李南、子皓皆為化名。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。