ICC訊 2024年5月15日,由華為海思光電主辦,ICC訊石承辦的“2024芯?光論壇:芯光耀智算 互聯(lián)暢未來”會(huì)議在武漢光谷皇冠假日酒店火熱舉辦。本次大會(huì)匯聚了近500位光電子領(lǐng)域?qū)I(yè)人士,探討光電技術(shù)的演進(jìn)趨勢,共話全球光互聯(lián)產(chǎn)業(yè)的發(fā)展機(jī)遇。
5月15日上午主論壇《智能計(jì)算與光互聯(lián)技術(shù)》聚焦智能計(jì)算的爆發(fā)式增長及互聯(lián)增長和光電互聯(lián)的技術(shù)最新進(jìn)展,探討了光互聯(lián)在智能計(jì)算時(shí)代的發(fā)展趨勢。來自華為昇騰計(jì)算、科大訊飛、中國信通院、中國移動(dòng)研究院和華為海思光電的行業(yè)專家及學(xué)術(shù)大咖進(jìn)行了深度的分析與探討。
余海波 華為武漢研究所所長
華為武漢研究所所長余海波代表主辦方致歡迎辭,隨著AIGC技術(shù)的快速發(fā)展,其產(chǎn)業(yè)規(guī)模未來將突破萬億元,大模型的發(fā)展將極大促進(jìn)光互聯(lián)產(chǎn)業(yè)的發(fā)展。希望大家能通過今天的研討和交流,共同探討技術(shù)創(chuàng)新、產(chǎn)業(yè)發(fā)展和標(biāo)準(zhǔn)工作,共建健康的行業(yè)生態(tài)。
周斌 華為昇騰計(jì)算業(yè)務(wù)CTO
華為昇騰計(jì)算業(yè)務(wù)CTO周斌發(fā)表了主題為《AI的演進(jìn)及下一代AI計(jì)算系統(tǒng)的思考》的精彩演講。
張驍 科大訊飛基礎(chǔ)設(shè)施總監(jiān)
科大訊飛基礎(chǔ)設(shè)施總監(jiān)張驍發(fā)表了主題為《大模型訓(xùn)練網(wǎng)絡(luò)互連-從需求到挑戰(zhàn)》的演講?;趪a(chǎn)算力的扎實(shí)國產(chǎn)化積累,科大訊飛在2023年與華為進(jìn)行軟硬件聯(lián)合攻關(guān)大模型國產(chǎn)化算力底座核心難題,構(gòu)建了國內(nèi)首個(gè)支持萬億級浮點(diǎn)參數(shù)大模型訓(xùn)練的國產(chǎn)算力集群“飛星一號(hào)”平臺(tái),形成了超大模型訓(xùn)練算力集群優(yōu)勢。
分享中指出在隨著大模型的進(jìn)一步發(fā)展,算力規(guī)模化趨勢突顯,網(wǎng)絡(luò)的互聯(lián)速度將是關(guān)鍵技術(shù),從機(jī)內(nèi)通信到柜間通信,網(wǎng)絡(luò)帶寬都面臨著迅速的增長,需要超大帶寬、極致成本和極簡運(yùn)維的聯(lián)接方案。 同時(shí),大模型的長穩(wěn)訓(xùn)練需要穩(wěn)定可靠的網(wǎng)絡(luò)及聯(lián)接方案??拼笥嶏w聚焦TOP問題,聯(lián)合華為、海思光電采用創(chuàng)新光模塊故障預(yù)測及分析方法,將任務(wù)影響環(huán)比下降約70%,大幅降低了光鏈路故障對訓(xùn)練效率的影響。此外,功耗在數(shù)據(jù)中心的運(yùn)營中也是不可忽視的一環(huán),需要產(chǎn)業(yè)界在組網(wǎng)架構(gòu)、通信方案、軟件效率等領(lǐng)域持續(xù)提升,支撐大模型產(chǎn)業(yè)的長期發(fā)展。
張海懿 中國信通院技術(shù)與標(biāo)準(zhǔn)研究所所長
中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所張海懿所長發(fā)表了主題為《智算中心網(wǎng)絡(luò)技術(shù)產(chǎn)業(yè)發(fā)展展望》的演講。我國出臺(tái)系列政策加快布局算力基礎(chǔ)設(shè)施,智能算力需求激增,高性能智算中心網(wǎng)絡(luò)建設(shè)成為熱點(diǎn)。2003-2023年近二十年間智能算力需求指數(shù)增長,以GPT為代表的人工智能大模型突破性進(jìn)展激發(fā)了全球智能算力發(fā)展熱潮,千卡算力芯片構(gòu)建的集群將成為千億參數(shù)大模型訓(xùn)練的標(biāo)配。如何加速構(gòu)建高性能網(wǎng)絡(luò)以支撐智能算力發(fā)展成為業(yè)界關(guān)注的熱點(diǎn)。
張所長在演講中提到,智算中心架構(gòu)涉及到的互聯(lián)包含了智算接入網(wǎng)絡(luò)、智算中心間互聯(lián)、服務(wù)器間互聯(lián)和片上/片間互聯(lián)多個(gè)領(lǐng)域,技術(shù)上都在快速發(fā)展,其中800G & 1.6T短距以太網(wǎng)將成為承載超高速算力互聯(lián)重要手段,滿足AI大模型等應(yīng)用場景帶來的數(shù)據(jù)持續(xù)增長需求;而800G及更高速率的長距光傳輸方向正在加快技術(shù)標(biāo)準(zhǔn)研究,逐步啟動(dòng)試點(diǎn)驗(yàn)證:
· 標(biāo)準(zhǔn)化進(jìn)展:800G和1.6T成為ITU-T、OIF、IEEE 802.3、CCSA等國內(nèi)外標(biāo)準(zhǔn)組織的研究熱點(diǎn),調(diào)制格式、映射技術(shù)、擴(kuò)展C+L光系統(tǒng)、高性能FEC等是標(biāo)準(zhǔn)化的關(guān)鍵。
· 產(chǎn)業(yè)化進(jìn)展:基于~130G Baud,16QAM調(diào)制的800G方案是目前技術(shù)研究和產(chǎn)品研發(fā)的重點(diǎn),可以重用400G QPSK產(chǎn)業(yè)鏈。1.6T部署還需依賴200G Baud以上光電器件的成熟。
此外,800Gb/s和1.6Tb/s的光模塊研發(fā)應(yīng)用也正在加速,報(bào)告中提到當(dāng)前8x100Gb/s光模塊基本成熟,4x200Gb/s和城域800Gb/s相干光模塊是下一步研發(fā)的重點(diǎn)。
程偉強(qiáng) 中國移動(dòng)研究院基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所副所長
中國移動(dòng)通信有限公司研究院基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所副所長程偉強(qiáng)發(fā)表了主題為《高性能以太網(wǎng)助力智算中心互聯(lián)》的演講。
隨著智能算力需求的激增,承載網(wǎng)絡(luò)成為AI算力高速增長的瓶頸。以太網(wǎng)技術(shù)路線逐漸形成產(chǎn)業(yè)共識(shí),高帶寬、高性能、高可靠和高安全的以太網(wǎng)助力智算中心互聯(lián)是提升智算中心網(wǎng)絡(luò)性能和整體算力水平的關(guān)鍵技術(shù)之一。
報(bào)告中提到800G將會(huì)是DCN和DCI發(fā)展的重要代際節(jié)點(diǎn),因?yàn)锳IGC推動(dòng)全球云服務(wù)商加速部署800G商用網(wǎng)絡(luò),以應(yīng)對日益增長的數(shù)據(jù)傳輸需求,并優(yōu)化數(shù)據(jù)中心基礎(chǔ)設(shè)施。數(shù)據(jù)中心DCN在向800G演進(jìn),同時(shí)DCI也已經(jīng)開始啟動(dòng)800G研究,800G以太網(wǎng)標(biāo)準(zhǔn)進(jìn)展顯著,業(yè)界加快轉(zhuǎn)向800G應(yīng)用。
關(guān)于中國移動(dòng)800GE標(biāo)準(zhǔn)進(jìn)展,程偉強(qiáng)介紹了中國移動(dòng)積極參與并推動(dòng)IEEE 802.3 df & dj工作組的800GE標(biāo)準(zhǔn)化工作,主導(dǎo)多項(xiàng)需求及標(biāo)準(zhǔn)文稿提案,并牽頭完成了800GE 20km新項(xiàng)目立項(xiàng),這是中國公司在IEEE的首個(gè)以太網(wǎng)基礎(chǔ)標(biāo)準(zhǔn)立項(xiàng),同時(shí)主導(dǎo)通過了20km/40km相關(guān)標(biāo)準(zhǔn)框架提案被工作組采納。
程偉強(qiáng)的演講總結(jié)聚焦高性能以太網(wǎng)能夠助力智算中心互聯(lián),并倡議業(yè)界伙伴加強(qiáng)投入,提升智算中心網(wǎng)絡(luò)性能和整體的算力水平。
滿江偉 華為海思光電先進(jìn)光電實(shí)驗(yàn)室主任
華為海思光電先進(jìn)光電實(shí)驗(yàn)室主任滿江偉發(fā)表了主題為 《AI大模型下光電子互聯(lián)技術(shù)的機(jī)遇與挑戰(zhàn)》的演講。滿主任在演講中用數(shù)據(jù)和圖表再現(xiàn)了AI基礎(chǔ)設(shè)施的核心引擎——GPU的加速演進(jìn),從原來的兩年一代到現(xiàn)在的一年一代。配套的AI光互連光模塊需求也在快速增長。
為了適配Al對光聯(lián)接的需求,滿江偉指出光模塊的演進(jìn)需要重點(diǎn)關(guān)注5大方向:大帶寬、低時(shí)延、低功耗、高可靠和智能化。海思光電聯(lián)合產(chǎn)業(yè)上下游合作伙伴,在洞察AI對光聯(lián)接的需求后,打造了星云智能光模塊的解決方案,全面承載AI計(jì)算需求:
大帶寬:依托自研光電芯片,通過系統(tǒng)級的規(guī)格定義和聯(lián)合優(yōu)化,滿足AI互聯(lián)的帶寬需求
低時(shí)延:采用算法優(yōu)化、線性直驅(qū)等多種方案降低時(shí)延,支撐大模型訓(xùn)練效率提升
低功耗:綜合使用低驅(qū)EML、無TEC設(shè)計(jì)、高效率光源等技術(shù),綜合降低模塊功耗
高可靠:通過架構(gòu)極簡設(shè)計(jì),提高系統(tǒng)可靠性,配合高可靠的光源方案,提升模塊長期工作的可靠性
智能化:聯(lián)合計(jì)算領(lǐng)域進(jìn)行系統(tǒng)級優(yōu)化,實(shí)現(xiàn)鏈路的故障智能定界、自愈消除、污損檢查等多項(xiàng)功能,大幅提升運(yùn)維效率
總 結(jié)
隨著GPT等大模型的出現(xiàn),對計(jì)算、訓(xùn)練和推理的算力需求快速提升,推動(dòng)了GPU和CPU性能持續(xù)提高,傳統(tǒng)電互聯(lián)和網(wǎng)絡(luò)逐漸不能匹配帶寬增長的需求,實(shí)現(xiàn)下一代智能計(jì)算需要新技術(shù)大幅提升互聯(lián)的容量。光互聯(lián)作為骨干網(wǎng)和數(shù)據(jù)中心網(wǎng)絡(luò)的關(guān)鍵環(huán)節(jié)之一,每一步都需要滿足苛刻的功耗、時(shí)延及智能等要求,跟上產(chǎn)業(yè)需求,配合上下游產(chǎn)業(yè)鏈解決當(dāng)前帶寬增長不足的挑戰(zhàn),共建繁榮的光互聯(lián)AI產(chǎn)業(yè)生態(tài)。