用戶名: 密碼: 驗證碼:

大型數據中心內的網絡“甜點”——阿里巴巴自研DAC之路

摘要:作為數據中心物理網絡中的“第一段高速公路”,DAC在國際大型數據中心內已有10多年的大規(guī)模使用歷史,國際大型數據中心幾乎不使用AOC。自2019年至今,國內各大數據中心累積使用DAC的數量已遠超500萬根,僅阿里云數據中心,在2020年就已達到百萬級部署規(guī)模。

  DAC(Direct Attach Cable),即直連線纜,在ICT領域有著非常廣泛的應用,常用于各類IT設備的計算、存儲、網絡等高速接口短距離互聯(lián),也通常以其本質相稱——高速銅纜。

  作為數據中心物理網絡中的“第一段高速公路”,DAC在國際大型數據中心內已有10多年的大規(guī)模使用歷史,國際大型數據中心幾乎不使用AOC(Active Optical Cable,即有源光纜)。2019年前,國內數據中心的應用狀況恰好相反。

  2018年,阿里巴巴開啟自研DAC之路。自2019年至今,國內各大數據中心累積使用DAC的數量已遠超500萬根,僅阿里云數據中心,在2020年就已達到百萬級部署規(guī)模。

  阿里自研DAC的應用和落地,只是整個阿里云基礎設施進步和創(chuàng)新的眾多方面之一,但卻體現(xiàn)了阿里云基礎設施整體協(xié)同創(chuàng)新、務實求穩(wěn)的思路。

圖1:商用DAC(左)和AOC(右)

  Q&A

  · 在大規(guī)模數據中心場景下使用DAC有什么好處?

  · 什么原因導致DAC在國內數據中心的使用曾相對比較滯后?

  · 阿里巴巴的百萬DAC之路背后有哪些思考和體驗?

  · DAC的大規(guī)模應用給數據中心帶來了哪些改變?

  · 展望未來,DAC數據中心的應用前景和挑戰(zhàn)是什么?

  01 數據中心物理網絡互聯(lián)

  首先我們看一下數據中心內物理網絡高速互聯(lián)鏈路的情況。

圖2:數據中心網絡鏈路概覽

  在阿里云數據中心網絡典型3層CLOS架構下,集群內用于Spine和Leaf以及Leaf和TOR之間互聯(lián)的網絡鏈路長度一般在2km以內,其中Leaf和TOR之間的互聯(lián)長度通常在100m之內。這些需要短距和長距光模塊連接的鏈路數量,占到整個集群內總物理鏈路數量的1/3;而從服務器網卡接至TOR的鏈路長度通常在10m之內,但是其鏈路數量則占到了總物理鏈路數的2/3,通常使用DAC或AOC來連接。

  一、DAC和AOC的異同

圖3:DAC和AOC電/光通道

  AOC和DAC兩者在兩端的模塊封裝上采用相同外形和電界面,如SFP、QSFP等各種標準,確保和系統(tǒng)側(交換機、NIC等)的標準接插。

  AOC的模塊中包含了電、光轉換芯片,基本功能如CDR、Retimer/Gearbox、Laser、PD等電光器件,系統(tǒng)側的電信號調制到光信號上進行傳輸。

  DAC則僅僅是無源銅媒介,包括模塊中直接將高速差分同軸線(twinax cable)焊接起來并外加屏蔽層和外被層作為成纜(cable assembly),電信號從端到端直接傳輸。

  二、AOC的優(yōu)勢和問題

圖4:AOC在“黑盒”交換機下與NIC互聯(lián)

  1. 標準界面,即插即用。針對AOC光模塊的應用,以可插拔模塊和系統(tǒng)端口處為一致性目標點(TP1a和TP4),因此,在交換機“黑盒”時代,只要交換機所有端口和光模塊都滿足TP1a和TP4的電信號規(guī)格,AOC便可以即插即用。中間光信號的傳輸在模塊之間閉環(huán),系統(tǒng)用戶也無需關心。

  2. 光纖支持更長連接距離。眾所周知,光纖的單位長度損耗極低,可支持的傳輸距離遠超銅纜。

  三、DAC的優(yōu)勢和問題

  對IT設備的用戶和運維者來說,DAC相比AOC有兩個非常直觀的優(yōu)勢:成本和功耗。

  以2019年25G DAC和AOC為例:

  1. 成本低:DAC的成本是AOC的約1/5。

  2. 功耗低:DAC無源,零功耗;25G AOC功耗大約在1~2瓦/根。

  DAC還有相比AOC擁有更高可靠性和更低延時的優(yōu)勢,在大規(guī)模部署和對時延敏感型的業(yè)務中會有較明顯的體現(xiàn)。DAC相比AOC在浸沒式液冷環(huán)境中有更強的適應性(無需考慮光模塊對液體敏感的光電器件的密封處理)。

  四、DAC未規(guī)模化使用歸因

  2019年之前,DAC在國內數據中心未被規(guī)?;褂玫脑蛴袃蓚€:

  1. DAC在網絡“黑盒”設備下的運營問題:在使用商業(yè)交換機的時代,物理網絡中從TOR到服務器網卡,一路黑盒,無法做到包括DAC在內的“端到端”調試,而最好選用界面信號相對標準化的AOC即插即用。如果要使用DAC,則面臨“黑盒交換機”和各種類型網卡的組合適配工作在整個生命周期內都可能無法收斂,顯然對追求“穩(wěn)定”和“運營邊際效應”的數據中心網絡運營是無法接受的。

  2. DAC長度無法滿足各種IDC環(huán)境部署需求的問題:DAC因直接透傳高速電信號,所以長度受限于電信號損耗預算,通常在10Gbps下不超過7m,25Gbps下不超過5m,56Gbps下不超過3m,112Gbps下不超過2m,而AOC則通??梢宰龅阶铋L30m到100m。

  在國內大型互聯(lián)網公司的數據中心快速發(fā)展的早期,以租用機房為主,機柜功耗上限、機房散熱能力、機柜布線通道等限制條件各不相同。TOR通常要跨多個機柜來接入服務器,并且還要照顧不同出線方向的服務器,造成服務器至TOR的接入距離在大部分場景下都超過DAC能提供的最長距離,只好選用更長的AOC來支持。

  這一切,隨著2018年阿里云基礎設施開始進行數據中心網絡自研、IDC機柜自研及超大規(guī)模自建機房的投入運營發(fā)生了改變,在這場盛宴中,阿里把DAC這盤“甜點”端上了臺前。

  02 數據中心網絡白盒化 開出DAC應用之花

  2018年開始,阿里開啟白盒交換機+自研DAC的研發(fā),確立了“以終為始”的原則:以最終大規(guī)模部署時的網絡穩(wěn)定性、運營效率為導向進行總體設計。雖然“黑盒”下也存在DAC使用的技術可行性,但“白盒”才給大規(guī)模運營提供了根本保障。

  圖5:DAC在“白盒”交換機下與NIC互聯(lián)

  DAC互聯(lián)場景下,實際上兩端芯片(MAC到MAC或者PHY到PHY)之間是一個完整的電通道。

  TOR交換機+DAC+NIC每一種連接組合的總loss不同,需要TOR ASIC針對每一種loss設置合適的Tx EQ均衡參數來確保接收端的BER滿足無差錯傳輸的需求,組合情況非常多。

  交換機“黑盒”下,如果使用DAC,問題就來了:

  首先,新業(yè)務需求(網卡、線纜)要依賴設備廠商提供端口參數更新并在線升級,這對網絡運營的穩(wěn)定性和規(guī)模部署效率是極大的挑戰(zhàn)。

  其次,若妥協(xié)使用Link Training模式,可以讓99%以上的鏈路工作,但是在百萬級別規(guī)模的鏈路數量里,這個可靠性量級會給運維帶來沉重的負擔。

  阿里云自研白盒交換機和自研DAC是如何解決上述DAC應用問題的?

  1. 白盒下收斂端到端loss組合。阿里在交換機硬件設計時便考慮了交換機端口和內部鏈路的使用規(guī)劃,設計用于下聯(lián)服務器的端口通道loss較小且loss分布范圍較窄,并且同時在自研DAC的定義中,基于IEEE 802.3相關規(guī)范,針對不同長度的DAC,通過使用合適的線徑,收窄自研DAC的總體loss范圍。最后根據網卡通道的設計特征,在總通道loss計算和仿真中預留合理和足夠的網卡通道loss budget。這些設計,并不用付出額外的成本代價。

  2. 白盒下選用固定均衡參數?;谝陨显O計,總體互聯(lián)通道loss的收窄和可控,使得在實際中可以選用一套固定的均衡參數就可以讓所有互聯(lián)組合都能得到裕量足夠的BER性能,這套參數并不是針對每種組合都是最優(yōu)的參數,但是BER足夠,且鏈路穩(wěn)定可靠。從而避免使用Link Training模式,讓大規(guī)模網絡運營具備邊際效應。

  至此,這只是DAC規(guī)模化部署設計中最基本的一部分,如何快速落地、讓DAC在IDC真正用得“爽”,還要解決機柜集成、交付、運維的問題,這是更關鍵的一步。

  03 基礎設施協(xié)同創(chuàng)新 鑄成阿里DAC規(guī)模部署之路

  就在2019年阿里數據中心大規(guī)模成功部署DAC之后,業(yè)內迅速出現(xiàn)了一個新詞——MOR(Middle of Rack),用來戲稱阿里巴巴將TOR(Top of Rack)中置的做法。這個戲稱在某個層面卻很形象地說明了阿里在IDC機柜級別做出的一些獨具匠心、因地制宜的創(chuàng)新。

  阿里云基礎設施通過整體設計來克服DAC固有的種種短板,讓DAC的可規(guī)模應用轉化為穩(wěn)定性、能耗、成本、交付和運營效率等方面的整體收益。

  首先,打破常規(guī),TOR中置。TOR不一定必須放在Top。阿里將接入層交換機置于服務器機柜中間U位,單柜內交換機到最遠服務器的布線距離就縮短為了機柜高度的一半,單柜內最長僅需不超過2m。阿里第一代自研交換機甚至設計了后向前、前向后兩種散熱風流方向,來支持不同出線方向的服務器,從而做到機柜內同側布線,保證DAC長度需求最小化。后續(xù)的演進中,阿里已經將服務器的出線方向統(tǒng)一為前側,交換機型號歸一。

圖6:傳統(tǒng)機柜(左)TOR頂置vs阿里自研機柜(右)TOR中置

  其次,因地制宜,機柜創(chuàng)新。因為不同業(yè)務類型的服務器配置不同,除單柜外,仍然會有交換機跨兩柜接入服務器的需求。因此在交換機中置的同時,全新的機柜設計將跨柜理線的通道設計在了機柜中部(傳統(tǒng)機柜跨柜理線需要從柜頂的弱電孔穿出穿入)用于穿線。這樣的話,跨兩柜的交換機到服務器線纜最長需求2.5m便可以滿足;還有一點考慮:2.5m的長度需求在56G-PAM4可以輕松滿足,甚至未來112G-PAM4速率也有機會做到。

圖7:傳統(tǒng)機柜(左)雙并柜布線vs阿里自研機柜(右)雙并柜布線SERVER

  第三,布線標準化,助高效集成交付。將DAC從0.75m開始到2.5m之間以0.25m步長定義DAC長度規(guī)格,將中置交換機到機柜各個U位服務器的布線規(guī)則進行標準化定義,線纜長度剛剛夠,而無需額外的彎折和盤線,使得整機柜集成和交付的效率大大提升,同時也盡量避免DAC過度彎折帶來的信號完整性性能劣化。

  第四,DAC自研創(chuàng)新,解現(xiàn)場運維之憂??紤]到IDC運維習慣了多年的AOC較細、較軟的布線和運維體驗,阿里在自研DAC的設計中特別使用了尼龍編織外被取代傳統(tǒng)的PVC材質的外被,使得第一代25G DAC的彎折半徑和柔軟度較標準商用DAC大幅提升,成功幫助IDC現(xiàn)場運維從習慣已久的AOC過渡到DAC

圖8:阿里自研25G DAC(左)和200G 1分2 DAC(右)

  隨著自研交換機和DAC,以整機柜集成的形式在阿里云數據中心快速規(guī)?;渴穑⒗镌?A href="http://odinmetals.com/site/CN/Search.aspx?page=1&keywords=%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">數據中心DAC在2019年起的一年多時間內,率先達到了百萬量級的部署規(guī)模。

  04 開放共贏 結出國內DAC應用累累之果

  2020年,在阿里巴巴數據中心部署DAC累積百萬規(guī)模、運營一年之后,由阿里巴巴牽頭,和騰訊、百度等國內大型數據中心用戶合作,聯(lián)合立訊、兆龍等國內DAC廠商代表,在ODCC發(fā)布了《下一代數據中心高速銅纜技術白皮書》。

《白皮書》

  詳細闡述了DAC數據中心高速互聯(lián)中的應用技術,以及從25G-NRZ至56G-PAM4演進的方案。

  阿里巴巴以自己的大規(guī)模部署、運營結果,給國內用戶們帶來了DAC應用的最佳實踐經驗和信心。隨后幾年,越來越多的國內大型數據中心都陸續(xù)將DAC作為物理網絡“第一段高速公路”的首選,越來越多的合作伙伴也相繼進入DAC的研發(fā)、制造、供應和集成。

  從2019年至今,國內數據中心部署DAC的數量已累計超過500萬根,而這背后,帶來的是每年數以億計的成本降低和數千萬度電力的能源節(jié)約。

  05 從零到百萬 DAC規(guī)模化部署為數據中心帶來的改變

  DAC數據中心內的大規(guī)模部署使用,帶來的并不只有最直觀的成本和能耗收益,還有對數據中心網絡架構設計、演進、業(yè)務性能的影響。如果從整個云基礎設施的角度來看,后者甚至具有更重要的意義。

  一、與業(yè)務松耦合,讓網絡輕松演進

  1. 網絡追求單GB成本紅利,演進較快。數據中心網絡商用芯片的帶寬基本上維持著每3年翻一倍的演進速度,數據中心網絡也會在第一時間同步演進,以追求單GB網絡帶寬成本的下降紅利,以及新特性的應用。

  2. 業(yè)務長尾且多樣,迭代不同步。在同一個數據中心網絡內,同期通常會有不同速率的業(yè)務接入需求,比如在200G網絡下,主力接入是50G服務器,但同時仍然會有25G和100G服務器業(yè)務的接入需求。

  3. 利用多種形態(tài)的線纜,使數據中心網絡的演進與業(yè)務迭代松耦合。DAC的使用,非常容易實現(xiàn)各種特殊形態(tài)線纜,因為不同形態(tài)的DAC在主體上都是使用相同的高速裸線、制造工藝。DAC提供的低成本、通用性、靈活性、快速交付等特性,能夠高效地支持不同速率的業(yè)務接入,讓數據中心網絡能夠輕松、快速地演進獲得帶寬紅利和新特性。

  阿里云數據中心100G網絡架構中,采用25G和100G (NRZ)兩種直連DAC,TOR則對應有25G和100G兩種型號。

  阿里云數據中心200G網絡架構中,進一步將TOR收斂為一款設備,而使用Breakout形態(tài)如200G 1分2,100G 1分4,50G 1分2等多種DAC線纜,來支持從25G到100G(PAM4)不同速率服務器接入。網絡則快速從100G迭代到200G。

  未來阿里云數據中心網絡的迭代和演進,也將受益于此。

  二、穩(wěn)定性提升,延時降低

  1. 在普通風冷環(huán)境中,DAC的故障率同比AOC降低1個數量級以上。由于DAC零功耗,不含有電、光芯片等有源器件,不存在因激光器老化、半導體電應力等導致的失效因子。在業(yè)務運行中DAC體現(xiàn)了非常高的穩(wěn)定性,網絡運營輕量化,用戶網絡體驗“絲般順滑”。

  2. 在浸沒式液冷環(huán)境中,DAC更是體現(xiàn)了簡單、可靠的特點。DAC內不含有激光器、光波導等對液體敏感器件,不必采用如光模塊所必須的密封工藝,從而極大降低了相應的成本,提高了可靠性。阿里數據中心DAC通過對材料選用、線纜信號完整性性能設計,采用一款DAC同時支持風冷和浸沒式液冷環(huán)境。

  3. DAC提供極低的延時性能。DAC和光纖線纜本身均會有大約5ns/m的傳輸延時,但是光模塊則因重新時鐘恢復(CDR),甚至需要基于DSP的信號均衡技術,引入了額外的信號延時。在AI計算、資源池化等場景下,延時需要格外的控制。PCIE Gen6在64G-PAM4的速率下物理層協(xié)議中為了控制延時僅僅留了10ns以內的FEC延時開銷預算,而光模塊DSP-based re-timer芯片就會帶來幾十納秒的延時(收+發(fā))。

  三、節(jié)能減排,降本增效

  能耗和采購成本的降低,是從AOC切換到DAC后帶來的最直觀的收益。尤其是當匹以數據中心百萬級別的使用數量時,數字更令人吃驚。

  以100萬根25G直連DAC為例:

  OPEX:每年節(jié)省的電力消耗為>1千萬度;

  CAPEX:每100萬根25G DAC節(jié)省>1億元。

  此外,DAC無需建立如光模塊運營中所需的對激光器、模塊溫度等監(jiān)控所需的系統(tǒng),無需關注光纖端面潔凈度等現(xiàn)場問題。在數據中心內服務器部署規(guī)模爆發(fā)式增長的同時,DAC的應用幫助IDC現(xiàn)場運維、數據中心網絡運營效率明顯提升。

  06 展望未來

  DAC以銅為傳輸媒介,本質上決定了無論物理網絡通過提高單通道速率還是增加并行通道數量的方式來升級鏈路帶寬,DAC的應用都會受到嚴重挑戰(zhàn)?!案恍摇钡氖牵@兩種方式往往是同時或交替進行的。

  一、挑戰(zhàn):越來越短,越來越粗

  銅纜傳輸線的損耗在3~6dB/m這個級別,隨著單通道速率的不斷增長,能支持的DAC長度將會越來越短。如果能支持的最長長度達不到1.5m~2m,那就失去了DAC應用的大部分意義。

  DAC中每一路銅傳輸線的直徑在毫米級別(光纖則在微米級別),4通道→8通道→16通道的scale out使得DAC的直徑幾乎成倍地增加。

  所以在網絡速率和帶寬不斷提升的過程中,DAC在機柜內布線、可連接長度都有非常大的挑戰(zhàn)。

  二、DAC的未來

  隨著物理網絡單通道速率邁向224Gbps,銅媒介電通道面臨著非常大的挑戰(zhàn)。但是在高級Serdes技術的加持下,在材料和工藝不斷進步中,使用DAC來滿足數據中心超短距網絡互聯(lián)仍然是可實現(xiàn)且意義重大的。

  1. 材料和工藝演進:高速線纜的材料(包括絕緣介質材料和導體材料)性能以大約每三年20~30%的速度提升,而信號速率則是每三年翻一倍。當前的研究中,一些新的DAC材料工藝和技術也在不斷地涌現(xiàn),例如在不降低銅導體直徑的情況下,通過新材料和工藝降低絕緣層的厚度,使得總體線徑較小;還有比如通過成纜方式的改變,在同樣線徑下使得線纜更軟更易彎折。

  2. 新的應用需求:隨著AI計算的迅猛增長,AI訓練集群內的互聯(lián)擴展需要高帶寬、低延時。另外計算、存儲資源池化和擴展,也在提出對低延時互聯(lián)技術標準化的需求。DAC的高穩(wěn)定、低延時的特性可以很好地滿足這些領域的需求。

  3. DAC長度之上的潛在方案:從通信的邏輯上看很簡單,“電中繼”或者“電轉光”,滿足超過無源DAC長度極限的需求。

  有源銅纜。通過在DAC的模塊中加入Re-driver或Re-timer,來“中繼”電信號以達到延長高速電信號傳輸距離(變長),或同等距離下減小線徑(變細)的目的。其成本和功耗介于無源DAC和有源AOC之間,在一定的速率范圍內是個不錯的選擇。但是隨著速率上升到112G-PAM4以后,需要有CDR功能的re-timer(甚至DSP-based),后者則又帶來和光模塊相當的傳輸延時和功耗代價。

  Direct-drive光模塊。其模塊中不使用CDR(且不使用DSP-based均衡器)從而同比大大降低了傳輸延時,代價是強依賴于鏈路兩端的芯片來提供對信號的補償和均衡,兩端設備內的通道損耗預算被縮減。當前業(yè)內的一些廠商在進行基于112G-PAM4速率的Direct-drive光模塊研發(fā),生態(tài)處于早期階段。

  DAC技術,只是數據中心物理網絡互聯(lián)技術中的一個小部分,其所帶來的成本、能效、穩(wěn)定性、網絡性能方面的貢獻是非常明顯的;同時,其局限性和挑戰(zhàn)也一樣明顯。

  面對未來高性能、可預期數據中心網絡的發(fā)展需求,我們需要的,一定是基礎設施整體的創(chuàng)新。

【加入收藏夾】  【推薦給好友】 
1、凡本網注明“來源:訊石光通訊網”及標有原創(chuàng)的所有作品,版權均屬于訊石光通訊網。未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網注明“來源:XXX(非訊石光通訊網)”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。因可能存在第三方轉載無法確定原網地址,若作品內容、版權爭議和其它問題,請聯(lián)系本網,將第一時間刪除。
聯(lián)系方式:訊石光通訊網新聞中心 電話:0755-82960080-168   Right