新型AI超級計算機將256個Grace Hopper超級芯片連接為巨大的、1-Exaflop、144TB GPU,用于支持生成式AI、推薦系統(tǒng)和數(shù)據(jù)處理的巨型模型
COMPUTEX——2023年5月29日——NVIDIA今天宣布推出一款新型大內存AI超級計算機——由NVIDIA GH200 Grace Hopper超級芯片和NVIDIA NVLink Switch System 驅動的NVIDIA DGX 超級計算機,旨在助力開發(fā)面向生成式AI語言應用、推薦系統(tǒng)和數(shù)據(jù)分析工作負載的巨型、下一代模型。
NVIDIA DGX GH200的超大共享內存空間通過NVLink互連技術以及NVLink Switch System使256個GH200超級芯片相連,使它們能夠作為單個GPU運行。其提供1 exaflop的性能和144 TB的共享內存——相較2020年推出的上一代NVIDIA DGX A100內存大了近500倍。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“生成式AI、大型語言模型和推薦系統(tǒng)是現(xiàn)代經(jīng)濟的數(shù)字引擎。DGX GH200 AI超級計算機集成了NVIDIA最先進的加速計算和網(wǎng)絡技術來拓展AI的前沿。”
GH200超級芯片使用NVIDIA NVLink-C2C芯片互連,將基于Arm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在一起,從而不再需要傳統(tǒng)的CPU至GPU PCIe連接。與最新的PCIe技術相比,這將GPU和CPU之間的帶寬提高了7倍,將互連功耗減少了5倍以上,并為DGX GH200超級計算機提供了一個600GB的Hopper架構GPU構建模塊。
DGX GH200是第一款將Grace Hopper超級芯片與NVIDIA NVLink Switch System配對使用的超級計算機,這種新的互連方式使DGX GH200系統(tǒng)中的所有GPU作為一個整體協(xié)同運行。上一代系統(tǒng)在不影響性能的前提下只能通過NVLink把8個GPU整合成一個GPU。
DGX GH200架構相比上一代將NVLink帶寬提升了48倍以上,實現(xiàn)在單個GPU上通過簡單編程即可提供大型AI超級計算機的能力。
面向AI先鋒的新研究工具
谷歌云、Meta和微軟是首批有望接入DGX GH200來探索其用于生成式AI工作負載的能力的公司。NVIDIA還打算將DGX GH200設計作為藍圖提供給云服務提供商和其他超大規(guī)模企業(yè),以便他們能夠進一步根據(jù)他們自己的基礎設施進行定制。
谷歌云計算副總裁Mark Lohmeyer表示:“構建先進的生成式模型需要創(chuàng)新的AI基礎設施。Grace Hopper超級芯片的全新NVLink和共享內存解決了大規(guī)模AI的關鍵瓶頸,我們期待它在谷歌云以及我們的生成式AI計劃中發(fā)揮強大的能力?!?
Meta基礎設施、AI系統(tǒng)及加速平臺副總裁Alexis Bj rlin表示:“隨著AI模型規(guī)模越來越大,它們需要可擴展的強大基礎設施,以滿足不斷增長的需求。NVIDIA的Grace Hopper設計看起來能夠讓研究人員探索新的方法來解決他們面臨的最巨大挑戰(zhàn)?!?
微軟Azure基礎設施企業(yè)副總裁Girish Bablani表示, “在以往訓練大型AI模型是一項資源和時間密集型任務。DGX GH200 所具備的處理TB級數(shù)據(jù)集的潛力使得開發(fā)人員能夠在更大的規(guī)模和更快的速度下進行高級別的研究?!?
全新NVIDIA Helios超級計算機將推進研發(fā)
NVIDIA正在打造自己的基于DGX GH200的AI超級計算機,以支持研發(fā)團隊的工作。
這臺名為NVIDIA Helios的超級計算機將配備四個DGX GH200系統(tǒng)。每個都將通過NVIDIA Quantum-2 InfiniBand網(wǎng)絡互連,以提高訓練大型AI模型的數(shù)據(jù)吞吐量。Helios將包含1024個Grace Hopper超級芯片,預計將于今年年底上線。
完全集成,專為巨型模型而構建
DGX GH200超級計算機包含NVIDIA軟件,可為最大的AI和數(shù)據(jù)分析工作負載提供一個交鑰匙式全棧解決方案。NVIDIA Base Command 軟件提供AI工作流程管理、企業(yè)級集群管理和多個加速計算、存儲和網(wǎng)絡基礎設施的庫,以及為運行AI工作負載而優(yōu)化的系統(tǒng)軟件。
此外還包含NVIDIA AI Enterprise,即NVIDIA AI平臺的軟件層。它提供100多個框架、預訓練模型和開發(fā)工具,以簡化生成式AI、計算機視覺、語音AI等生產(chǎn)AI的開發(fā)和部署。
供貨情況
NVIDIA DGX GH200超級計算機預計將于今年年底上市。
觀看黃仁勛在COMPUTEX 2023的主題演講中介紹NVIDIA DGX GH200超級計算機。