騰訊科技程傳勝:近年來自研交換機的實踐和探索

訊石光通訊網(wǎng) 2020/10/9 15:06:02

  ICC訊 開放數(shù)據(jù)中心峰會(ODCC2020)在北京召開,峰會圍繞數(shù)據(jù)中心新基建為主題,有數(shù)據(jù)中心領(lǐng)域及相關(guān)行業(yè)的眾多專家與會。在9月16日網(wǎng)絡(luò)分論壇上,騰訊科技程傳勝先生就百度近年來自研交換機的實踐和探索進行了分享。

  騰訊科技程傳勝

  程傳勝:剛才阿里、百度兩位同學都從OS和運維層面介紹了自研交換機,接下來就由我和大家分享騰訊科技自研交換機的硬件實踐。隨著集群規(guī)模越來越大,網(wǎng)絡(luò)也越來越大,傳統(tǒng)SONIC交換機也越來越大,加上我們的自研交換機比較慢,所以基于單芯片的自研交換機應運而生。單芯片的自研交換機是我們自主的硬件設(shè)計,這樣就會做到交換機內(nèi)部的硬件可控,單硬件的故障率也比較低,因此硬件的規(guī)格和模式方面也做了一些創(chuàng)新,OS軟件就是我們自主研發(fā)、擁有自主IP的交換機形式。

  看一看騰訊自研交換機的歷程,2018年之前騰訊對自研交換機無論是軟件、硬件還是模式都做了不少探索和摸索,2018年公司層面開始厚積薄發(fā),開展自研交換機的項目,主要包括兩款產(chǎn)品:2.0TTD3平臺,基于TH3平臺的Leaf/Spine研發(fā),2019年下半年規(guī)模上線,年底基于業(yè)務的發(fā)展需要集中研發(fā)3.2TTD3平臺TOR,今年下半年我們就可以規(guī)模上線,2020年上半年Q1又啟動了自研交換機3.0,包括基于TH4平臺的Leaf/Spine和TOR。

  這些是騰訊自研交換機的產(chǎn)品庫,BMC監(jiān)控運維方面也有一個比較好用的模塊,當時引入的時候整個BMC大概300元人民幣,軟件監(jiān)控和運維也有比較大的便利性,所以這是花小錢辦大事的功能,就是像管理服務器一樣管理交換機,交換機也可以借用服務器的運維平臺,對外接口也是適用QR8接口,芯片使用Tomahawk3,也是采用TD3的芯片,可以監(jiān)控20G、25G和10G,應用50G和100G的接入場景,CPU也是127,作為智能BMC的設(shè)計,目前已經(jīng)量產(chǎn)上線,預計明年Q1就會上線。

  我們選擇交換機接口形態(tài)的時候也做了調(diào)研,隨著芯片的發(fā)展和接口的多樣化,可選的端口比較多,包括ESP、SMP,最終還是因為生態(tài)的原因選擇200G,100G接入的時候是一分二的線纜,實現(xiàn)200G和100G的接入,要是往上接的話其實400G可以直接達到200G,我們使用芯片就是基于8.0T帶寬,CPU平臺同樣也是采用Intel1527平臺,因為從前面的運維和使用的角度來看,我們也對光模塊做了監(jiān)控系統(tǒng),所以需要花費30多秒的時間。FPGA用來管理所有的光模塊,也有比較強大的IO接口,所有的光模塊都可以一起訪問,共同點就是都在使用X86平臺,硬件適配和軟件開發(fā)周期會有比較大的縮減,運維或者制造的時候成本會低一點。

  因為之前我們的團隊剛剛組建,依賴的廠家比較多,94和84開始我們會采用新的研發(fā)模式,就是只能選擇一家ODM廠商幫助我們設(shè)計,另外一家就是按照合同生產(chǎn)的方式,這樣的話我們就可以做到兩個廠家交互的硬件100%一致,可以帶來很多好處,研發(fā)的時候不會發(fā)生很多問題。因為三家交付的硬件從概率上來講,研發(fā)的時候發(fā)生的問題是好幾倍,硬件完全統(tǒng)一的話研發(fā)的時候就會節(jié)約很多時間。我們今天所有的產(chǎn)品都拿過來在外面展覽,大家如果有興趣可以去看一看。

  今年我們的部署計劃是ECN交換機占到全部交換機的25%,明年我們的交換機會占100%,就是全部的自研交換機。基于現(xiàn)在已經(jīng)部署的自研交換機的故障率,滾動年硬件故障率小于千分之二,目前來看還可以優(yōu)于現(xiàn)網(wǎng)的交互數(shù)據(jù),時間成本也有不同程度的節(jié)約。我們做到了DCN硬件的融合,因為交換機和光模塊線纜都在DCN上面應用,數(shù)據(jù)的監(jiān)控只有五個參數(shù),電壓、電流、光伏率和溫度等等,能夠診斷出來的故障數(shù)量或者速度也比較慢,然后就對后面的光模塊在不增加成本的情況下做了如下的增強功能和監(jiān)控功能的定制,但是這些定制也有賴于我們交換機的硬件設(shè)計,比如剛才說的IOTC的設(shè)計,雖然光模塊監(jiān)控的參數(shù)變多了,頁數(shù)也變多了,但讀取的時間沒有增加反而減少,其實這就是光電結(jié)合的例子,后面也要做到更低成本的光電融合。

新聞來源:中國IDC圈

相關(guān)文章