ICC訊(編譯:Nina)近日,LightCounting分享來(lái)自GTC 2024的網(wǎng)絡(luò)和互連亮點(diǎn)。
除了首席執(zhí)行官黃仁勛(Jensen Huang),DGX GB200 NVL72也是GTC 2024主題演講的明星。該機(jī)架級(jí)系統(tǒng)集成了72個(gè)下一代Blackwell GPU,通過(guò)NVLink連接,形成“1 Giant GPU”。Jensen對(duì)NVLink無(wú)源銅“背板”的描述在投資者中引起了短暫的恐慌,他們認(rèn)為它會(huì)以某種方式取代InfiniBand,但事實(shí)并非如此。NVL72代表了下一代人工智能系統(tǒng),但英偉達(dá)(NVIDIA)還透露了其部署的Hopper一代集群的新細(xì)節(jié)。下一代800G (XDR) InfiniBand要到2025年才能到達(dá)客戶(hù)手中,因此早期的Blackwell系統(tǒng)將使用400G (NDR) InfiniBand代替。
圖片:GTC 2024,4月4日(來(lái)源:英偉達(dá))
Jensen表示,Hopper一代EOS超級(jí)計(jì)算機(jī)剛剛上線。本集群使用608臺(tái)64端口的NDR交換機(jī),交換機(jī)端口總數(shù)為38912個(gè)。該系統(tǒng)將葉交換機(jī)放置在排末端的機(jī)架中,因此所有InfiniBand鏈路都使用光收發(fā)器。LC估計(jì)服務(wù)器為系統(tǒng)總共44032個(gè)NDR端口添加了5120個(gè)端口。由于英偉達(dá)使用所謂的“雙端口OSFP”800G收發(fā)器,每個(gè)收發(fā)器服務(wù)兩個(gè)NDR端口。因此,LC估計(jì)完整的EOS系統(tǒng)使用大約22000個(gè)800G光收發(fā)器。
Blackwell一代GPU包括第五代NVLink,其互連帶寬是Hopper的兩倍。它通過(guò)將每條通道的速度提高一倍至200Gbps,從而為每個(gè)NVLink x2端口提供400Gbps的單向帶寬。每個(gè)Blackwell GPU包括18個(gè)端口,可提供1.8TB/s(14.4Tbps)的聚合雙向帶寬。為了連接NVL72機(jī)架中的72個(gè)GPU,英偉達(dá)開(kāi)發(fā)了NVLink5交換機(jī)芯片。NVL72機(jī)架包括九個(gè)NVLink交換機(jī)托盤(pán),每個(gè)托盤(pán)帶有兩個(gè)ASIC。交換機(jī)使用5184根無(wú)源銅(DAC)電纜,在機(jī)架內(nèi)提供All-to-all GPU連接。
對(duì)于網(wǎng)絡(luò)生態(tài)系統(tǒng)來(lái)說(shuō),GTC 2024最大的失望可能是800G InfiniBand延遲到2025年。盡管延期,該公司還是公開(kāi)了Quantum-X800交換機(jī)系統(tǒng)和ConnectX-8適配器(NIC)。當(dāng)這些800G InfiniBand產(chǎn)品可用時(shí),每個(gè)GPU的帶寬將增加一倍,因?yàn)镃onnectX-8網(wǎng)卡將一對(duì)一地取代ConnectX-7 (400G)網(wǎng)卡。他們應(yīng)該還將率先在電氣(主機(jī))端處理帶有200G通道的光學(xué)器件,從而推動(dòng)對(duì)第二代200G/lambda DSP的早期需求。
備注:GTC大會(huì)全稱(chēng)是GPU Technology Conference,是英偉達(dá)主辦的最重要的GPU技術(shù)交流活動(dòng),從2019年開(kāi)始每年舉辦一屆。