ICC訊 (編譯:Aiur)如今,云數(shù)據(jù)中心正忙于為絕大多數(shù)應(yīng)用程序軟件開(kāi)發(fā)者構(gòu)建基于人工智能(AI)的計(jì)算平臺(tái),這些開(kāi)發(fā)人員不一定必須是機(jī)器學(xué)習(xí)(ML)或數(shù)據(jù)科學(xué)領(lǐng)域的專家才能推動(dòng)行業(yè)更加流行和強(qiáng)大,其影響可能很快會(huì)超過(guò)互聯(lián)網(wǎng)和移動(dòng)設(shè)備平臺(tái)。
兩個(gè)關(guān)鍵因素對(duì)于云AI計(jì)算平臺(tái)的成功至關(guān)重要。一種是計(jì)算能力,另一種是分布式計(jì)算機(jī)之間的互連帶寬。從2012年到AlphaGo,計(jì)算能力以每3-4個(gè)月翻一番的驚人速度增長(zhǎng),這要?dú)w功于針對(duì)分布式和并行計(jì)算進(jìn)行了優(yōu)化的先進(jìn)計(jì)算機(jī)處理器,例如圖形處理單元(GPU)和Tensor處理單元(TPU)。下圖顯示了Google AI/ML的增長(zhǎng),而曲棍球棒的增長(zhǎng)率與其他主要的云AI/ML數(shù)據(jù)中心相似。作為結(jié)果,AI/ML已將東西向(east-west)內(nèi)部數(shù)據(jù)中心的流量推向了前所未有的高度。
盡管數(shù)據(jù)中心運(yùn)營(yíng)商一直在使用AI/ML優(yōu)化其網(wǎng)絡(luò)性能以支持AI/ML流量,但是網(wǎng)絡(luò)生態(tài)系統(tǒng)的增長(zhǎng)速度仍然慢很多,因?yàn)橐蕴W(wǎng)交換機(jī)和光收發(fā)器的容量平均要每?jī)赡瓴欧环?,并且未?lái)幾年,這一增長(zhǎng)率甚至可能會(huì)放緩。盡管如此,基于多個(gè)光學(xué)互連計(jì)算場(chǎng)的超級(jí)計(jì)算機(jī)最近已經(jīng)實(shí)現(xiàn)了驚人的700 petaFlop的AI超級(jí)計(jì)算性能。該超級(jí)計(jì)算平臺(tái),通過(guò)在主干和分支交換機(jī)中使用數(shù)千個(gè)短距離200 Gb/s可插拔光收發(fā)器來(lái)實(shí)現(xiàn)光互連。在不遠(yuǎn)的將來(lái),200 Gb/s可插拔收發(fā)器將升級(jí)為400 Gb/s可插拔收發(fā)器。
展望未來(lái),隨著以太網(wǎng)/ Infiniband交換機(jī)的速度不斷提高,可插拔光收發(fā)器可以由采用共封裝的光學(xué)器件代替(CPO,意味著光學(xué)組件要與脊骨、葉交換機(jī)共同封裝)??梢灶A(yù)見(jiàn),CPO還將用作未來(lái)服務(wù)器芯片,用于網(wǎng)絡(luò)接口卡和GPU/TPU的≥100?400Gb/s光學(xué)接口。CPO所面臨的挑戰(zhàn)不僅在于3D光電封裝技術(shù),還在于CPO封裝所要求的超高可靠性。超高可靠性是基于這樣一個(gè)事實(shí):如果圍繞中央交換機(jī)的光收發(fā)器發(fā)生故障,則必須更換整個(gè)系統(tǒng)。
最近,許多研究人員和初創(chuàng)公司正在研究使用硅光子集成芯片(PIC)為AI/ML執(zhí)行更快、更省電的人工神經(jīng)網(wǎng)絡(luò)的可能性。他們的動(dòng)機(jī)基于這樣一個(gè)事實(shí),即典型的機(jī)器學(xué)習(xí)系統(tǒng)在矩陣乘法上花費(fèi)了90%以上的精力和運(yùn)行時(shí)間,而線性矩陣乘法可以使用并行或級(jí)聯(lián)硅光子馬赫-曾德?tīng)柛缮鎯x(MZI)來(lái)實(shí)現(xiàn)。但是,這些方法將面臨根本的可伸縮性挑戰(zhàn)。對(duì)于系列MZI,可擴(kuò)展性受到較大的級(jí)聯(lián)光學(xué)插入損耗的限制。對(duì)于使用波分復(fù)用的并行方法,可伸縮性則受到可用波長(zhǎng)數(shù)(包括陣列激光器或梳狀激光器的各種限制)以及硅光子PIC上波長(zhǎng)復(fù)用器/解復(fù)用器的設(shè)計(jì)的限制。
作者:Winston Way, Ph.D,新飛通
新聞來(lái)源:訊石光通訊網(wǎng)
相關(guān)文章