隨著人工智能模型參數(shù)規(guī)模突破萬億級(jí),傳統(tǒng)單芯片算力已難以滿足大模型訓(xùn)練需求。在此背景下,一種名為“超節(jié)點(diǎn)”的新型技術(shù)架構(gòu)正成為AI基礎(chǔ)設(shè)施升級(jí)的核心方向。該架構(gòu)通過高速互聯(lián)協(xié)議將數(shù)百至數(shù)千顆算力芯片緊密耦合,在邏輯層面構(gòu)建出“超大型GPU”,從根本上突破了單機(jī)服務(wù)器的性能瓶頸。
超節(jié)點(diǎn)概念最早由英偉達(dá)提出,其核心創(chuàng)新在于采用Scale up縱向擴(kuò)展模式替代傳統(tǒng)Scale out橫向擴(kuò)展。以英偉達(dá)GB200 NVL72為例,該系統(tǒng)通過NVLink Switch將36個(gè)Grace CPU與72個(gè)Blackwell GPU實(shí)現(xiàn)全互聯(lián),總帶寬達(dá)130TB/s,有效解決了分布式訓(xùn)練中的通信延遲問題。這種架構(gòu)的關(guān)鍵在于專用互聯(lián)協(xié)議(如NVLink、UALink)與特定網(wǎng)絡(luò)拓?fù)洌ㄈ缗謽洹esh結(jié)構(gòu))的深度融合。
物理層面,超節(jié)點(diǎn)機(jī)柜集成計(jì)算節(jié)點(diǎn)、交換節(jié)點(diǎn)、供電單元與散熱系統(tǒng)四大模塊。在ETH-X方案中,計(jì)算節(jié)點(diǎn)通過高速背板連接器與交換節(jié)點(diǎn)互通,后者搭載的高帶寬交換芯片承擔(dān)著機(jī)柜內(nèi)全芯片互聯(lián)任務(wù)。面對(duì)單機(jī)柜功耗突破百千瓦的挑戰(zhàn),供電系統(tǒng)采用Power shelf配合Busbar母線供電,支持N+2冗余設(shè)計(jì);散熱方案則轉(zhuǎn)向液冷主導(dǎo)模式,GPU、CPU及交換芯片均需配備冷板模組,液冷占比超80%,這對(duì)冷板、快接頭等配套產(chǎn)業(yè)提出全新要求。
國(guó)產(chǎn)陣營(yíng)正通過超節(jié)點(diǎn)架構(gòu)實(shí)現(xiàn)彎道超車。華為CloudMatrix 384系統(tǒng)集成192顆鯤鵬CPU與384顆昇騰910C芯片,采用自研UB網(wǎng)絡(luò)互聯(lián)。盡管單顆910C芯片性能僅為英偉達(dá)GB200模組的三分之一,但通過集群規(guī)模效應(yīng),其整體BF16性能達(dá)NVL72的1.7倍,內(nèi)存容量與帶寬分別提升3.6倍和2.1倍。更值得關(guān)注的是,華為Atlas 950超節(jié)點(diǎn)支持8192張昇騰芯片全光連接,互聯(lián)帶寬達(dá)16.3PB/s,總算力是英偉達(dá)NVL144的6.7倍。
產(chǎn)業(yè)鏈變革隨之而來。光通信領(lǐng)域,高速光模塊與光芯片需求激增;交換芯片賽道,國(guó)產(chǎn)廠商加速自研進(jìn)程;液冷散熱從可選配置變?yōu)楹诵慕M件,帶動(dòng)冷卻液、CDU等細(xì)分市場(chǎng)增長(zhǎng);供電系統(tǒng)則催生高功率電源與高壓UPS的旺盛需求。中興通訊推出的智算超節(jié)點(diǎn)系統(tǒng)搭載自研凌云AI交換芯片,紫光股份H3C UniPoD S80000實(shí)現(xiàn)64卡柜內(nèi)全互聯(lián),浪潮信息“元腦SD200”通過虛擬映射技術(shù)將顯存空間擴(kuò)展8倍,這些創(chuàng)新標(biāo)志著國(guó)產(chǎn)超節(jié)點(diǎn)生態(tài)逐步成熟。
技術(shù)標(biāo)準(zhǔn)正從封閉走向開放。UALink聯(lián)盟匯聚AMD、谷歌等科技巨頭,博通SUE框架將以太網(wǎng)優(yōu)勢(shì)引入Scale up領(lǐng)域,中國(guó)移動(dòng)聯(lián)合48家單位發(fā)布OISA協(xié)議,海光攜手國(guó)產(chǎn)廠商推出HSL規(guī)范。這種開放趨勢(shì)將降低產(chǎn)業(yè)鏈協(xié)同門檻,加速技術(shù)創(chuàng)新。隨著超節(jié)點(diǎn)規(guī)模向萬卡、百萬卡級(jí)演進(jìn),光通信、液冷、供電、交換芯片四大領(lǐng)域的技術(shù)突破將持續(xù)重塑AI基礎(chǔ)設(shè)施格局。
















