據(jù)微信公眾號“大國重器”報道,美國Lightmatter公司由美國麻省理工學(xué)院孵化,主要開發(fā)用于人工智能加速的光學(xué)計算處理器,近日在Hot Chips 32上展示了一款測試芯片。該芯片利用硅光電學(xué)和MEMS的技術(shù),可以光速在硅中執(zhí)行矩陣向量乘法,由毫瓦級激光光源提供動力。計算速度比基于晶體管的芯片(包括最新的GPU)提升了數(shù)個量級,且功耗非常小。
Lightmatter希望通過展示這款測試芯片來證明其處理器設(shè)計方法可靠。該公司是首批展示為人工智能推理工作負(fù)載量身定制的光計算(
silicon photonics,硅光子學(xué))芯片的公司之一。Lightmatter將在2021年秋季推出基于這款演示芯片的第一款商用產(chǎn)品,帶有光計算芯片的PCIe卡。
圖 在PCIe卡上的硅光子學(xué)芯片,光通過光纖進(jìn)入
硅光子學(xué)技術(shù)的進(jìn)步--通過硅芯片傳播光--使復(fù)雜的片上結(jié)構(gòu)成為可能,可通過控制以完全不同于傳統(tǒng)基于晶體管的電子器件的方式執(zhí)行MAC操作。由于傳統(tǒng)基于晶體管的芯片達(dá)到了Dennard擴(kuò)展的極限,單位面積的功耗上升,冷卻技術(shù)的能力無法跟上更大的芯片。因此,一種更具能效優(yōu)勢的硅光子技術(shù)就有了發(fā)展空間。
Lightmatter首席執(zhí)行官Nick Harris說:“我們通過采用完全不同類型的物理學(xué),使用光繞過了整個功率擴(kuò)展問題,意味著我們可以使用一套不同的規(guī)則進(jìn)行擴(kuò)展,所以[光學(xué)計算]速度更快,能量更低?!?
到底有多快,能量有多低?
Harris說:“我們可以將現(xiàn)有人工智能數(shù)據(jù)中心的能耗降低20倍,將物理體積縮小5倍,這還只是我們正在研發(fā)的第一代產(chǎn)品。未來還規(guī)劃了很長的路線圖?!?
Harris強(qiáng)調(diào),這款測試芯片是作為該技術(shù)的演示而打造,并不是為了在基準(zhǔn)測試上有好的表現(xiàn)。在實(shí)際應(yīng)用中,Lightmatter的量產(chǎn)芯片將擊敗AI加速市場的領(lǐng)導(dǎo)者Nvidia的Ampere A100芯片。與A100相比,Lightmatter的芯片在BERT和Resnet-50推理等工作負(fù)載上的能效將是20倍,吞吐量至少是5倍。
Lightmatter的芯片由兩個裸片垂直堆疊。上面是一個采用12納米工藝的ASIC,包含存儲器并協(xié)調(diào)控制下方的90納米光計算芯片。兩個裸片均采用格芯(GF)公司標(biāo)準(zhǔn)CMOS工藝制造。
下方光電處理器有一個64×64的光電矩陣矢量積計算器;數(shù)據(jù)在芯片上傳播的時間不到200皮秒,比需要多個時鐘周期的晶體管計算提升數(shù)個量級。計算引擎由一個50毫瓦的激光器驅(qū)動。根據(jù)Harris表示,這種低功耗光計算芯片的好處之一是它可以與控制/內(nèi)存ASIC進(jìn)行3D堆疊;而基于晶體管的計算芯片會產(chǎn)生太多熱量。堆疊芯片可縮短ASIC上的操作指令存儲與光電芯片上的計算部分之間的走線 — 從數(shù)據(jù)轉(zhuǎn)換器到光計算引擎的總路由不到一毫米。進(jìn)一步改善了延遲和功率。“這里有一個很好的正向循環(huán),節(jié)省功率可讓實(shí)現(xiàn)疊加,而疊加又可以節(jié)省更多的功率。”
圖 Lightmatter的“芯片”是由兩個裸芯片堆疊在一起的3D封裝。
上面是一個12nm的ASIC,具有內(nèi)存和控制功能,下面是作為計算引擎的90nm硅光電器件
DAC接收數(shù)字輸入信號,將其轉(zhuǎn)換為模擬電壓,然后用其來驅(qū)動激光器(這項技術(shù)在光收發(fā)器中已經(jīng)很成熟)。來自該激光器的光進(jìn)入計算陣列。計算部分是馬赫澤德干涉儀(MZI)。進(jìn)入MZI的相干光被一分為二,每一半的相位都有不同的調(diào)整量。結(jié)合不同相位的信號,產(chǎn)生建設(shè)性或破壞性的干擾,從而有效地調(diào)制通過MZI的光的亮度(這種調(diào)制可以被認(rèn)為是一種乘法運(yùn)算)。在波導(dǎo)相交的地方,信號有效疊加在一起,這是光MAC的基礎(chǔ)。從計算陣列輸出的光到達(dá)光電二極管,其信號通過ADC輸入,以便與數(shù)字電路的其他部分連接。
圖 Lightmatter的光學(xué)計算陣列由DAC和ADC塊組成,用于與其他數(shù)字電路相接
MZI中的關(guān)鍵操作--移動光的相位,通過機(jī)械方式實(shí)現(xiàn)。Lightmatter公司副總裁Carl Ramey說,該光電芯片采用了納米光學(xué)機(jī)電系統(tǒng)(NOEMS)。類似于MEMS器件,波導(dǎo)結(jié)構(gòu)通過蝕刻在下方懸浮,然后通過向其上方和下方的電容板添加電荷來偏轉(zhuǎn)。這就成功地改變了光的相位,達(dá)到了要求的量。
Ramey說:“NOEMS器件具有一些非常驚人的特性,它們的損耗極低,靜態(tài)功率耗散幾乎為零。我們只需將一些電子傾倒到小電容上,幾乎沒有漏電現(xiàn)象--電容足夠小,用于致動的動態(tài)功率也非常小......。[結(jié)構(gòu)]也可以以相對較高的速度致動,最高可達(dá)數(shù)百兆赫茲?!?
Ramey說,Lightmatter的演示器有64×64個計算單元,但這很容易擴(kuò)大規(guī)模?!芭c基于晶體管的收縮陣列類似,計算量隨面積線性縮放,延遲也是隨著陣列的維度而縮放的。所以在一個典型的流水線晶體管設(shè)計中,你需要64個時鐘周期來執(zhí)行這里的操作,從左到右。我們的延遲也是隨著陣列維度而縮放的,但我們的速度要快三個數(shù)量級。所以即使是一千乘一千的陣列,其延遲時間也會遠(yuǎn)低于納秒。”
有趣的是,光計算陣列消耗的功率與面積的平方根成比例。這是因為功耗主要?dú)w于數(shù)據(jù)轉(zhuǎn)換?!爱?dāng)我們向陣列中添加新計算單元時,我們獲得了更多的性能,但在功率方面我們只支付了平方根,因此,建造的芯片越大,實(shí)際上的能效也越來越高效。這與電子系統(tǒng)非常不同,電子系統(tǒng)只能線性擴(kuò)展——更多的性能,更多的功耗。”
除了與計算相關(guān)的能量,還有在芯片上移動數(shù)據(jù)所涉及的能量(今天基于晶體管的大型人工智能芯片在硅片上移動數(shù)據(jù)可能會消耗50-100W)。有了光學(xué)計算,以光學(xué)方式移動數(shù)據(jù)就意味著不需要功率,這是一個巨大的功率節(jié)省。其結(jié)果是,一個器件的工作功率不到3W,是其他計算方法每次推理操作所需能量的一小部分。
光計算的另一個有趣的特點(diǎn)是多路復(fù)用的能力。多個獨(dú)立的數(shù)據(jù)流可以被編碼到不同波長的光上,類似于光通信中使用的技術(shù),并同時輸入到計算引擎中。這意味著一個光計算芯片可以同時進(jìn)行多個AI推理。Harris說:“這是光學(xué)計算的一個非常獨(dú)特的屬性,這意味著你有一個物理資源,一個處理器,但它就像一個處理器陣列一樣工作?!彪m然指定頻譜(1310至1600nm)理論上至少可以容納1000個通道,但Harris表示,由于激光技術(shù)相對不成熟,目前只能容納8個通道。
Lightmatter目標(biāo)客戶是數(shù)據(jù)中心,包括高性能計算等擴(kuò)展系統(tǒng),不過未來可能會擴(kuò)大;自動駕駛是遠(yuǎn)期的路線圖,但Harris承認(rèn),進(jìn)入這一領(lǐng)域所需的可靠性工程將是“一項巨大的工程”。
Lightmatter有一個完整的軟件棧,可以與TensorFlow或Pytorch集成;Harris表示,他們的目標(biāo)是與這兩個機(jī)器學(xué)習(xí)框架即插即用。
Lightmatter成立于2017年,目前有46人,位于馬薩諸塞州波士頓,已經(jīng)從包括谷歌風(fēng)投在內(nèi)的投資者那里籌集了3300萬美元的資金,并擁有30項專利。對于這家初創(chuàng)公司來說,首先面臨的挑戰(zhàn)之一可能是向持懷疑態(tài)度的客戶推銷整個光計算的概念。Harris說:“這是一個高難度的挑戰(zhàn),自20世紀(jì)60年代以來,在計算的歷史上,從來沒有一種技術(shù)能夠取代電子晶體管進(jìn)行計算。它從未發(fā)生過。人們曾經(jīng)嘗試過,但沒有成功。我認(rèn)為,這是第一次,你會看到它發(fā)生,我們銷售它的方式是通過展示它的工作而進(jìn)行?!?