隨著各行業(yè)數(shù)字化轉(zhuǎn)型進(jìn)度加快,5G、人工智能等新技術(shù)迅速普及應(yīng)用,算力需求快速增長。一年來,ChatGPT為代表的大模型開發(fā)和應(yīng)用取得巨大進(jìn)展,帶動(dòng)算力需求進(jìn)一步提升。在數(shù)據(jù)中心與高性能計(jì)算中心高速發(fā)展的同時(shí),互連技術(shù)也需要隨之升級(jí)演進(jìn),以滿足數(shù)據(jù)傳輸?shù)拇髱?、低時(shí)延、低能耗等要求。相比于電信號(hào),光信號(hào)具有傳輸帶寬大、傳輸損耗小、抗干擾能力強(qiáng)、可高速無串?dāng)_并行傳輸?shù)戎T多優(yōu)勢(shì),因此光互連成為通信發(fā)展的重要技術(shù)方向,如何發(fā)展片上與片間光互連以突破傳統(tǒng)電互連瓶頸,成為當(dāng)前的研究熱點(diǎn)之一。
片上光互連
大規(guī)模集成易引發(fā)信號(hào)傳輸瓶頸問題,其解決思路之一是使用片上光互連代替電互連,數(shù)據(jù)傳輸由芯片上的光波導(dǎo)鏈路實(shí)現(xiàn)。相較于電,光傳輸損耗小、帶寬大,片上光互連可以支撐實(shí)現(xiàn)大量長距離通道,若擴(kuò)展到整個(gè)晶圓,則可實(shí)現(xiàn)晶圓級(jí)光互連網(wǎng)絡(luò)。
片上光互連的核心是光電子集成芯片
光電子集成芯片由集成在同一塊襯底上多種不同功能的有源器件和無源器件構(gòu)成,通過光波導(dǎo)進(jìn)行互連通信,進(jìn)而實(shí)現(xiàn)具有特定功能的片上光學(xué)互連處理。激光器、調(diào)制器和探測(cè)器是光互連系統(tǒng)的核心集成器件,可分別采用波分復(fù)用、偏振復(fù)用及模分復(fù)用技術(shù)提高片上光互連的傳輸容量。目前,針對(duì)單一物理維度光信號(hào)的復(fù)用、解復(fù)用器件已經(jīng)較為成熟。而多種復(fù)用方式的綜合運(yùn)用,如波長-偏振-模式混合復(fù)用等,可進(jìn)一步提高片上光互連系統(tǒng)的通道數(shù)量和傳輸容量,這也是片上光互連的重要發(fā)展趨勢(shì)。此外,選擇和設(shè)計(jì)合適的片上拓?fù)浣Y(jié)構(gòu)對(duì)性能提升也具有重要意義。片上光互連架構(gòu)不僅決定著片上網(wǎng)絡(luò)中不同節(jié)點(diǎn)的互連方式,同時(shí)也影響路由器的端口和網(wǎng)絡(luò)鏈路數(shù)量,進(jìn)而影響網(wǎng)絡(luò)的時(shí)延、功耗和可靠性等性能。
片上光互連尚處于研究階段
美國加州伯克利大學(xué)于2015年制造出一種片上微處理器,使用光實(shí)現(xiàn)處理單元與存儲(chǔ)單元之間的雙向互連通信,每個(gè)方向可提供2.5Gbit/s帶寬,這一成果具有重要意義。Intel也進(jìn)行了針對(duì)性研究,并在2020年研究院活動(dòng)上展示了其在微環(huán)調(diào)制器、全硅探測(cè)器、集成半導(dǎo)體光放大器、集成多波長激光器等光互連核心器件方面的重要進(jìn)展。曦智科技于2022年在“第二屆高性能芯粒與互連架構(gòu)國際研討會(huì)”上,介紹其實(shí)現(xiàn)了硅光芯片和CMOS電芯片的垂直封裝,由光波導(dǎo)替代銅導(dǎo)線,形成片上光網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。該系統(tǒng)的通道數(shù)為512,單通道頻率4GHz,片上總帶寬2Tbit/s。實(shí)測(cè)數(shù)據(jù)顯示,該計(jì)算系統(tǒng)能在1ns內(nèi)完成多個(gè)計(jì)算核之間“All-to-All”的數(shù)據(jù)廣播,這將大幅提高每個(gè)計(jì)算核的算力利用率。
片間光互連通
常情況下,光電合封(C P O,C o-p a c k a g e d Op tics)面向大型以太網(wǎng)網(wǎng)絡(luò)交換機(jī),交換芯片與光芯片封裝在一起,與外部其他芯片之間形成光互連;而光I/O(Optical I/O)面向分布式計(jì)算系統(tǒng),計(jì)算芯片與光芯片封裝在一起,與外部其他芯片之間形成光互連。本文將這兩種形態(tài)統(tǒng)稱為片間光互連。
CPO:解決數(shù)據(jù)中心網(wǎng)絡(luò)中交換芯片與光芯片之間的互連問題
CPO通過將光引擎放置在靠近主機(jī)ASIC的位置,最大程度地減少高速電通道損耗和阻抗不連續(xù)性,從而實(shí)現(xiàn)更高速度、更低功耗的I/O驅(qū)動(dòng)。CPO相較于可插拔光模塊,帶寬密度提升一個(gè)數(shù)量級(jí),能量效率優(yōu)化40%以上。
目前報(bào)導(dǎo)的CPO光引擎技術(shù)方案主要為VCSEL陣列方案和硅光集成方案。然而,伴隨著VCSEL調(diào)制速率的提升,芯片可靠性下降,在56GBaud速率尚沒有穩(wěn)定可靠的大規(guī)模集成VCSEL陣列,因此基于VCSEL陣列方案的多路并行光互連研究大幅減少。硅光集成技術(shù)在近年來成為CPO光引擎的主要方案。硅光不需要?dú)饷芊庋b,CMOS兼容更易與電芯片集成,且硅光調(diào)制器和探測(cè)器均可支持56GBaud以上速率。
當(dāng)前CPO技術(shù)主要由交換機(jī)與光模塊公司在推進(jìn),C P O樣機(jī)在近三年相繼發(fā)布。在“O F C 2 0 2 0”會(huì)議上,In tel推出首款CPO樣機(jī),由1.6Tbi t/s的硅光引擎與12.8Tbi t/s的可編程以太網(wǎng)交換機(jī)集成。在“OFC 2021會(huì)議”上,Ranovus發(fā)布了Odin品牌模擬驅(qū)動(dòng)CPO 2.0架構(gòu)。在“OFC 2022會(huì)議”上,Mar vell展示了其首款CPO樣機(jī),帶寬為1.6Tbit/s;Ranovus基于AMD的Xilinx計(jì)算加速平臺(tái)進(jìn)行CPO 2.0的聯(lián)合展示。在“OFC 2023”上,Broadcom和Marvell分別發(fā)布了51.2Tbit/s的交換芯片??傮w來看,終端用戶、設(shè)備制造商以及光器件供應(yīng)商均涉足其中,形成了初步的產(chǎn)業(yè)生態(tài)。
據(jù)Yole預(yù)測(cè),CPO市場(chǎng)將從2022年的600萬美元增長到2033年的2.87億美元。CPO數(shù)據(jù)中心市場(chǎng)于2022年正式起步,出貨將以800Gbit/s和1.6Tbit/s端口為主,到2027年CPO端口將占近30%。CPO需要高度集成的光學(xué)以及硅芯片技術(shù),難度較大,從可插拔到CPO的轉(zhuǎn)換對(duì)企業(yè)研發(fā)實(shí)力提出較高要求,當(dāng)前CPO產(chǎn)業(yè)鏈包含設(shè)計(jì)、光引擎供應(yīng)商、激光器供應(yīng)商、交換機(jī)廠商、硅光代工廠、設(shè)備商等。
2020年,業(yè)界開始對(duì)發(fā)展CPO標(biāo)準(zhǔn)形成共識(shí)。標(biāo)準(zhǔn)進(jìn)展與技術(shù)和產(chǎn)業(yè)進(jìn)展密切相關(guān),美國、中國及歐盟率先開展標(biāo)準(zhǔn)化工作。光互連論壇(OIF)、板載光學(xué)聯(lián)盟(COBO)、聯(lián)合開發(fā)基金會(huì)(JDF)、國際光電委員會(huì)(IPEC)、中國計(jì)算機(jī)互連技術(shù)聯(lián)盟(CCITA)等標(biāo)準(zhǔn)組織均針對(duì)CPO作出了一系列部署。
光I/O:解決計(jì)算芯片CPU、GPU、XPU等之間的互連問題
光I/O利用光具有的低功耗、高帶寬、低延遲等優(yōu)勢(shì),取代傳統(tǒng)的電I/O方案,芯片輸入輸出的為光信號(hào),進(jìn)而構(gòu)建分布式計(jì)算網(wǎng)絡(luò)。在相同能效情況下,光I/O的邊帶寬密度與UCle、NVlink、PCIe等電互連相當(dāng),但傳輸距離遠(yuǎn)超電互連。
光I/O需要物理層和互連協(xié)議多重創(chuàng)新。在物理層方面,對(duì)于CPU而言,通用的對(duì)外通信通過PCIe協(xié)議實(shí)現(xiàn)。目前,數(shù)據(jù)中心內(nèi)的光互連解決方案絕大部分針對(duì)以太網(wǎng)設(shè)計(jì),基于PCIe的光互連解決方案幾乎處于空白狀態(tài)。相比于以太網(wǎng),PCIe信號(hào)的通道數(shù)較多,單通道帶寬較小,調(diào)制方法不同,對(duì)延遲的容忍度相對(duì)較小。因此,基于以太網(wǎng)的光互連方案無法直接套用到PCIe應(yīng)用場(chǎng)景,需要重新定義和設(shè)計(jì)。PCI-SIG于2023年8月宣布成立PCIe光學(xué)工作組,其職責(zé)是致力于通過光學(xué)接口實(shí)現(xiàn)PCIe。
在協(xié)議層方面,當(dāng)前主流的分布式計(jì)算主要使用基于以太網(wǎng)的軟硬件生態(tài)系統(tǒng),而這一系統(tǒng)存在諸多的提升空間。目前基于以太網(wǎng)的方案需要使用內(nèi)存屏障甚至軟件設(shè)定臨界區(qū),導(dǎo)致性能開銷大、延遲長,在復(fù)雜的控制流程之下甚至?xí)霈F(xiàn)“死鎖”。相比以太網(wǎng)協(xié)議,CXL(Compute Express Link)協(xié)議提供了高效的數(shù)據(jù)同步,可大大降低軟件管理的復(fù)雜度,降低CPU處理網(wǎng)絡(luò)功能開銷。
目前各大芯片巨頭均已在光I/O領(lǐng)域進(jìn)行布局,其中包括Intel、AMD、NVIDIA等。Intel已經(jīng)與Ayar Labs合作多年,多次在OFC上展示其FPGA芯片間通過光I/O實(shí)現(xiàn)信號(hào)互連的階段性進(jìn)展。AMD通過收購Xilinx,整合了其硅光團(tuán)隊(duì),在“ISSCC 2023”展示了其初步的進(jìn)展。NVIDIA與Ayar Labs展開合作,其內(nèi)部也有自己的硅光團(tuán)隊(duì)開發(fā)相關(guān)技術(shù)。Ayar Labs在光I/O方面具有較強(qiáng)實(shí)力,與多位伙伴積極合作,其在“OFC 2023”上展示的TeraPHY可以實(shí)現(xiàn)雙向4.096Tbit/s數(shù)據(jù)傳輸。據(jù)Yole預(yù)測(cè),光I/O市場(chǎng)將從2022年的500萬美元增長到2033年的23億美元。
由于面向不同應(yīng)用場(chǎng)景,兩種片間光互連的性能存在較大差異。從帶寬和能效角度來看,根據(jù)Intel數(shù)據(jù),單個(gè)CPO模塊的帶寬為1.6~3.2Tbi t/s,帶寬密度為50~200Gbi t/(s·mm),能效為15pJ/bit;而光I/O的總帶寬為40Tbit/s,帶寬密度為5Tbit/(s·mm),能效為3pJ/bit。Ayar Labs數(shù)據(jù)顯示,同樣能效情況下,光I/O的邊帶寬密度比CPO的大一個(gè)數(shù)量級(jí)。從延遲角度來看,根據(jù)Ayar Labs數(shù)據(jù),光I/O的延遲在5ns左右,對(duì)應(yīng)的誤碼率為1e-15,而CPO為了達(dá)到相同的誤碼率,需要使用FEC技術(shù),其延遲在100~150ns。整體上看,光I/O比CPO的性能要求更高。
總結(jié)展望
片上光互連的核心是光電子集成芯片,當(dāng)前處于研究階段。CPO的研究聚焦51.2Tbit/s交換機(jī),產(chǎn)業(yè)化與標(biāo)準(zhǔn)化進(jìn)程已經(jīng)啟動(dòng)。光I/O特別適用于計(jì)算結(jié)構(gòu),當(dāng)前已有產(chǎn)品小批量出貨,未來仍需物理層和互連協(xié)議進(jìn)一步創(chuàng)新。無論片上還是片間光互連仍有許多亟待解決的關(guān)鍵問題,如生態(tài)尚不成熟、功能選擇較少、編程模型缺乏業(yè)界共識(shí)、可靠性存挑戰(zhàn),以及面臨相干、線性驅(qū)動(dòng)可插拔等其他技術(shù)擠壓等,需要業(yè)界的積極探索與合作,共建完善的技術(shù)、產(chǎn)業(yè)與標(biāo)準(zhǔn)生態(tài)。
作者:中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所 劉璐 吳冰冰