Iccsz訊 數(shù)據(jù)中心的系統(tǒng)互連架構設計和物理布線互連設計日益成為數(shù)據(jù)中心的焦點?;诠饣ミB速率和密度的不斷升級展望,人們對數(shù)據(jù)中心的架構設計和投資成本回報性產(chǎn)生了躊躇和疑慮。數(shù)據(jù)中心的系統(tǒng)設計橫跨了多個學科,確實很少人能對數(shù)個學科的未來都有精確的預計?;诓煌鎯α亢筒煌嬎懔康?A href="http://odinmetals.com/site/CN/Search.aspx?page=1&keywords=%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">數(shù)據(jù)中心理應有不同的設計模型,希望本文對鏈路采用平行和波分復用的架構討論能夠厘清一些思路,帶來更多有益的思考。
數(shù)據(jù)中心是一個含混的概念。它不僅僅包括計算機系統(tǒng)和其它與之配套的設備(例如通信和存儲系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置。因此我們在考量數(shù)據(jù)中心設計的時候必須基于計算能力、存儲能力,互連能力,以及環(huán)境控制和監(jiān)控能力來做對應的設計,這些設計無疑將帶來計算成本、存儲成本,互連成本,以及環(huán)境控制和監(jiān)控的成本。如果我們不清晰地依據(jù)當前的技術以及當前的需求,結合未來需求和未來技術展望性做出合理的規(guī)劃,數(shù)據(jù)中心會成為一個巨大燒錢的倉庫。數(shù)據(jù)中心一旦建成,其是不可逆的。架構設計師必須非常小心!
在數(shù)據(jù)中心內(nèi),普遍建議的光互連方案如下:
基于系統(tǒng)對運算和傳輸速率的不同,系統(tǒng)設備的內(nèi)連可以采用10G AOC(300米鏈路),4*10G AOC(300米鏈路) 和4*25G AOC(100米鏈路) 以及100G PSM4 技術(500米到2公里)。近年來海量數(shù)據(jù)中心更引入CWDM4(2公里鏈路)作為減少光纖數(shù)量管理的手段。由于不同方案會帶來不同的性能和成本,我們認為:鏈路采用多模光互連技術是最成熟和最合理的方案,按照目前的成本估量,40G 多模鏈路的成本是10G 多模鏈路成本的2.5-3.0倍,而100G 多模鏈路大約是40G 的2.5-3.0倍,其中40G/100G 多模鏈路采用的均是MPO 多模光纖,意味著從40G 到100G 可以實現(xiàn)技術的平滑升級,并不需要觸動現(xiàn)有的網(wǎng)絡布線架構。
人們之前一直擔憂多模VCSEL的技術瓶頸到25GB/b將是極限,從而對多模數(shù)據(jù)中心的可延伸性產(chǎn)生了顧慮,近而放棄多模數(shù)據(jù)中心架構直接采用理論上(注意是理論上)可一直擴展升級的單模數(shù)據(jù)中心架構??墒亲罱难芯勘砻?,50G VCSEL NRZ技術并不是問題,在同樣的QSFP28封裝空間內(nèi),可以輕松地實現(xiàn)8*25G AOC光互連。這使得系統(tǒng)架構面向8*25G 和4*50G根本不是問題??赡苋藗冞M一步會擔心400G VCSEL 技術可行性,目前盡管我們沒有結論,但是400G VCSEL遇到的技術瓶頸和單模400G遇到的技術瓶頸是相同的。某種意義上,是錯覺打亂了人們的眼睛,就已知的知識,200G VCSEL AOC將進一步縮短傳輸距離(估計是50米),但是康寧的OM5光纖可以很好地彌補這一缺陷。問題當然還在于,采用OM5光纖將需要更換現(xiàn)有的布線架構。但是這個問題和其它問題是糾結在一起的,并不適合單項的做結論,它需要就其它技術做權衡取舍。
PSM4技術是對多模100G數(shù)據(jù)中心的補充。目前業(yè)界低估了PSM4技術的潛在性,而把焦點放在了CWDM4技術上,這或許多少有些誤區(qū)。PSM4技術采用的是單模MPO光纖傳輸,目前的傳輸距離到2KM非常輕松,而不是行業(yè)標準的500米,其實PSM4技術應該是10KM傳輸?shù)囊?guī)格,只是業(yè)內(nèi)對于它的應用幾乎是不假思索的定義為2KM。這是一個焦點被轉移后錯誤的認知,從一開始,分布式計算和并行傳輸就應該是這個領域的綱領性標準。100G PSM4的成本應該是100G VCSEL的3倍。只要人們愿意,未來可能降低到1.5-2倍水平。相對于100G CWDM4技術,PSM4技術使用了4倍光纖數(shù)量,光纖的成本可以假設為零,系統(tǒng)設計者考慮最多的是:一、光纖資源的有限性和日后可擴容性;二、數(shù)據(jù)機房的布線成本。
細致討論這些集合不同領域的知識和見解 做一個建設性結論
光纖傳輸之所以采用粗波分復用和密集粗波分復用是由于已經(jīng)布設的光纜資源的有限性,所以設計者考慮用波分復用設備替代單波長設備。在光纖資源并不緊張的情況下,這種空分復用技術本身是增加成本的,因為光纖成本接近于零,如果空間建筑允許,第一次布設的時候應該布設足夠的光纖以便于日后擴容采用。數(shù)據(jù)中心和骨干城域網(wǎng)不同,骨干城域網(wǎng)的光纜建設已經(jīng)完成,不管是之前思慮不周還是沒有了望到更長遠的需求,地底下被埋設的光纜資源都是有限的,因此必須啟用波分復用技術。但是數(shù)據(jù)中心不同,數(shù)據(jù)中心屬于第一次建設,它不需要采用未來還不明確的在哪種速率和帶寬下的波分復用技術。不能為波分復用而去做波分系統(tǒng),波分復用僅是對現(xiàn)有光纖資源的一個有效利用手段,這個手段需要付出很多成本代價,但是在現(xiàn)在的需求看來基本是沒有必要付出的。波分復用僅是同一種速率下的密度升級,按照現(xiàn)有的模塊與系統(tǒng)設計,它的第一次部署等同于喧賓奪主或者本木倒置,必將阻礙系統(tǒng)的速率和帶寬升級。
現(xiàn)有的100G CWDM4模塊是無法直接升級到200G與400G的。常規(guī)的波分復用系統(tǒng)可以被升級,是因為有源和無源被分割成兩個獨立的系統(tǒng)。無源是和速率波長無關的,所以可以自由升級。現(xiàn)在的數(shù)據(jù)中心CWDM4模塊集成了有源和無源技術,好處是空間緊湊,壞處也是明顯的,這個架構根本無法直接更換一個更高速率或更多波長(如8波,16波)的模塊,意味著當系統(tǒng)需要升級的時候。我們過去為CWDM4而CWDM4的成本都打了水漂。因為采用PSM4同樣可以實現(xiàn)光連接,且成本更低。按目前的直接材料成本和制成費用核算,單個CWDM4成本是PSM4的1.35-1.5倍。這些多出的成本對于現(xiàn)在的系統(tǒng)運作毫無意義。
現(xiàn)有CWDM4模塊對數(shù)據(jù)中心系統(tǒng)增加了可靠性風險,緊湊型CWDM4??齑嬖跍仫h和可靠性問題,CWDM4的規(guī)模部署需要數(shù)據(jù)中心將機房溫度嚴格設定在估計15-50-度的范圍,否則可能出現(xiàn)由于溫飄和光芯片可靠性招致的嚴重誤碼現(xiàn)象。如果機房的水冷和空調(diào)系統(tǒng)一旦間歇性失靈.數(shù)據(jù)中心將出現(xiàn)災難。CWDM4模塊需要一個更可靠的工作環(huán)境帶給系統(tǒng)巨大的能耗(PDU增大),如果僅僅因為使用CWDM4模塊而必須犧牲巨大的能耗,這些能耗的損失將在一個月內(nèi)使所有模塊的購買成本增大一倍。就我們已經(jīng)做過的驗證,4*25G CWDM CHIP業(yè)內(nèi)還沒有絕對的可靠性保證。任何一路的可靠性將影響到四路也就是整個模塊的可靠性。CWDM4的可靠性隱患包括:CWDM光芯片的可靠性,自由空間發(fā)射結構的可靠性或AWG的溫漂性。我們知道CWDM4技術正在進步,但是到目前為止,大家都在閉著眼睛過河。
CWDM4的光纖是否帶來了光纖資源的節(jié)約和長期性升級時候的一勞永逸?沒那么簡單!當我們做系統(tǒng)設計的時候一定要考慮到在一開始,光纖資源就必須按照平行架構去布置,而不要思考光纖復用的問題,因為在此時考慮復用是沒有意義的。我們根本不知道未來的技術需要多少光纖資源。把一個PSM4模塊升級到PSM8和把一個CWDM4模塊升級到CWDM8,理論上都需要仍掉現(xiàn)在的PSM4模塊和CWDM4模塊(很顯然這個情況下仍掉的錢是不同的)。把一個PSM4模塊升級到PSM8確實需要動用8根光纖,但是這個升級遭遇的技術瓶頸是更簡單低成本的。只要有需求,我們事實上在任何時候可以把一個PSM4模塊升級到CWDM4從而有效地利用光纖資源。人們會說,如果不是現(xiàn)在,而是將來把100G PSM4升級到100G CWDM4,那不是白白損失了一個PSM4模塊嗎?我們在之前已經(jīng)分析過,PSM4模快的能耗和管理成本遠遠為數(shù)據(jù)中心建造者賺回了不止10個CWDM4模塊.并且由于PSM4模塊的可靠性,拆卸下來的模塊仍然可以被利用于其它新建的系統(tǒng)。雖然沒有精確的計算,但是PSM4模塊的好處是非常多的:傳輸?shù)耐餍?無溫飄,可靠性更高,以及在某些情況下輕易地實現(xiàn)通道的分流監(jiān)測.
我們需要再次強化一個概念,波分復用技術是空分復用技術,它和系統(tǒng)速率和帶寬毫無關系。系統(tǒng)架造師如果把波分復用技術和系統(tǒng)從40G/100G向200G/400G 升級的相關技術融作一體考量的時候,就必然陷阱兩種不同技術思維的誤區(qū),招致錯誤的結論。波分復用技術的價值僅在于對現(xiàn)有光鏈路的改造以及資源非常緊張的應用(比如租用光纖資源的成本和稀缺性),它不能被視作一個初始技術。讓我們進一步闡釋,一個數(shù)據(jù)中心鏈路通常包括四種架構設計:設備架構、布線架構、升級架構和擴容架構。
設備架構:保證系統(tǒng)采用何種速率和吞吐率,只能基于現(xiàn)有的技術
布線架構:保證系統(tǒng)需要多少光纖資源,必須一次性想好道路的寬度
升級架構:系統(tǒng)從低速率(如10G/40G)向高速率(如100G/200G/400G演進的技術路徑和成本
擴容架構:如何利用空分復用技術把現(xiàn)有系統(tǒng)提升系統(tǒng)的容量和密度
對于擴容架構,我們有必要做進一步的論證,如下圖是兩個典型數(shù)據(jù)中心波分復用光互連架構
(A) 方案是有源和無源分離的設計方案
(B) 方案類似現(xiàn)在100G CWDM4 數(shù)據(jù)中心的結構
我們很容易發(fā)現(xiàn),就系統(tǒng)升級而言,A方案僅需要更換交換路由設備,而B方案的升級將只剩下光纜可以被再度利用。所以我們傾向認為現(xiàn)有CWDM4數(shù)據(jù)中心因為謀求更緊湊的設備,導致了升級成本的根本上升。因為除了光纜,什么也無法留下。即便我們認為這些被留下的光纜一定可被再利用進入下一代數(shù)據(jù)中心也是值得商榷的,下一代數(shù)據(jù)中心比如400G數(shù)據(jù)中心,如果采用FR8或LR8,這個波長是1550NM色散位移光纖,而現(xiàn)在的100G CWDM4是采用1310nm的光纜。
數(shù)據(jù)中心作為一個蓬勃發(fā)展的新事物,有太多值得討論的空間,本文最后的推薦結論是:
1)多模數(shù)據(jù)中心仍然是數(shù)據(jù)中心發(fā)展的核心。不但因為成本,也因為技術的可靠性.多模數(shù)據(jù)中心可以說是為數(shù)據(jù)中心而生。
2)在長距離數(shù)據(jù)中心發(fā)展上,PSM4技術優(yōu)于CWDM4,PSM8技術優(yōu)于CWDM8,以此類推。數(shù)據(jù)中心適宜定位平行技術作為主流,至少這個布局不會是一個全輸?shù)挠螒颉2⑿屑夹g不但透明且易于做OMA管理。
3)除非情不得已,數(shù)據(jù)中心采用NRZ技術演進是最可靠和低成本的。有時候我們要考慮,一旦數(shù)據(jù)中心被PAM4主導,它的下一步是PAM8/PAM16嗎?這樣的話系統(tǒng)將變得越來越不透明和難于管理。如果我們采用PSM4+PAM4的結構一定優(yōu)于CWDM4+PAM4的結構。
4)目前采用集成CWDM4技術做數(shù)據(jù)中心的第一次部署從一開始就把數(shù)據(jù)中心定義為過渡型而非固定型。這個理念需要修正。我認為這正是專業(yè)人士和非專業(yè)人士的分界點。從我接觸光通信時候起,我們就知道CWDM屬于一種增容的技術。目前的CWDM4技術界于離散和集成之間,并不成熟,而且無法擴充到8波或16波,這極大限制了CWDM系統(tǒng)地擴容能力,CWDM4作為數(shù)據(jù)中心第一次部署并不恰當.客觀上,這種技術的第一次部署是限制了系統(tǒng)的可能性與靈活性,帶來事與愿違的成本上升,必須十分謹慎!
結語:數(shù)據(jù)中心的平行架構和CWDM架構頗有點宇宙和哲學的意味,把這個問題講清楚頗費腦筋,CWDM技術是平行技術的延伸,而非對抗性技術。有多少個平行宇宙就有多少種CWDM宇宙。如果平行宇宙不存在,CWDM宇宙將很快塌縮到?jīng)]有發(fā)展空間,或者我們從另外一個意義上看,平行=簡單。