亚洲无码射在线视频,欧美日韩高清,无码aⅴ精品一区二区三区

引言

2023 年是生成式人工智能的一年，對 ChatGPT 等新型大型語言模型（LLM）的興趣大增。眾多公司正在將人工智能整合到自己的服務中（如微軟Bing、谷歌Bard、Adobe Creative Cloud 等），對英偉達今年的股價產(chǎn)生了重大影響。

在我們展望人工智能的未來及其面臨的挑戰(zhàn)時，Ayar Labs 的首席技術(shù)官兼聯(lián)合創(chuàng)始人Vladimir Stojanovic提供真知灼見，在這次問答訪談中就 Ayar Labs 的技術(shù)如何促進生成式人工智能的發(fā)展向 Vladimir 提出了十幾個問題。

問答訪談

1.從架構(gòu)的角度來看，在繼續(xù)提高人工智能模型的增長和性能方面面臨哪些挑戰(zhàn)，尤其是在生成式人工智能的背景下？

生成式人工智能模型的關(guān)鍵在于它們非常龐大，需要在許多 GPU 之間進行全局通信，這超出了數(shù)據(jù)中心中單個機箱或機架的范圍。即使是推理（即推理和決策），要求也很高，微調(diào)和訓練更是如此。大致的規(guī)模是這樣的：一個機架用于推理，數(shù)十個機架用于微調(diào)，數(shù)百個機架用于訓練。你必須以某種方式將所有這些 GPU 互聯(lián)起來。

2. GPU 互聯(lián)的關(guān)鍵考慮因素是什么？

在上述生成式人工智能架構(gòu)中，互聯(lián)的作用是在全 GPU I/O 帶寬和低延遲的情況下，提供從每個 GPU 到每個其他 GPU 或子系統(tǒng)的全局通信，以最大限度地提高處理效率，同時在功耗、面積和成本方面的影響可以忽略不計?；旧?，它使分布式系統(tǒng)看起來就像一個巨大的虛擬 GPU。因此，互聯(lián)必須非?？焖佟⒚芗?、省電和經(jīng)濟。這就是 Ayar Labs致力于將光學輸入/輸出（I/O）商業(yè)化的原因：利用硅基光電子技術(shù)在芯片級集成光學連接，直接從 GPU（XPU）封裝中產(chǎn)生最快、最高效的互連。

3. 目前使用的是什么，為什么不是最佳的？

目前，這些系統(tǒng)依賴于可插拔光連接，這本質(zhì)上是一種光網(wǎng)絡技術(shù)?？刹灏喂饫|非常適合電信等長距離應用，但并不是為板載輸入/輸出而設計的。

在帶寬/延遲、功耗、密度和成本這四個方面，可插拔設備都無法滿足 GPU 輸入/輸出的要求?；诓灏问皆O計的 GPU 至 GPU 鏈路（或 GPU 至外部交換機鏈路）每比特消耗約 30 皮焦耳（pJ/b）：從最初的電氣 GPU 到光學可插拔鏈接需要 5 皮焦耳/比特，光學可插拔到光學可插拔鏈接需要 20 皮焦耳/比特，從光學可插拔轉(zhuǎn)換回電氣 GPU 或交換機還需要 5 皮焦耳/比特。將這 30pJ/b 與封裝內(nèi)光 I/O 解決方案相比，后者直接連接兩個封裝，功耗不到 5pJ/b，可節(jié)省近 8 倍功耗。

插拔式模塊也很笨重。與封裝內(nèi)光 I/O 相比，其邊緣帶寬密度低 10 倍以上，面積密度低 100 倍以上。這就限制了從 GPU 卡或機箱到系統(tǒng)其他部分的帶寬?；旧希裉煳覀円呀?jīng)到了極限，也許還能再擠出一代，系統(tǒng)就會完全陷入瓶頸。最后但并非最不重要的是成本。由于插拔式電纜是外部模塊，而不是板載芯片，因此其成本擴展性很差，多年來一直徘徊在 1 至 2 美元/Gbps 之間。要實現(xiàn)未來生成式人工智能系統(tǒng)性能擴展所需的 GPU-GPU 帶寬擴展，成本需要降低約 10 倍。封裝內(nèi)光電 I/O 可以通過在光電芯片側(cè)和激光側(cè)進行集成，幫助實現(xiàn)上述成本節(jié)約。

4. 您能談談對訓練和推理的影響嗎？您認為光 I/O 在哪些方面能發(fā)揮最大作用？

如上所述，有三種應用，每種應用都有不同的足跡和數(shù)量。首先，您需要訓練一個人工智能模型，然后對其進行微調(diào)（這可能是持續(xù)性的），最后通過推理將其投入生產(chǎn)?？紤]到模型的擴展趨勢--從目前最大的模型到下一代或兩代模型，推斷將需要 10-100 個 GPU，微調(diào)需要 100-1000 個 GPU，而訓練則需要數(shù)千到數(shù)萬個 GPU。鑒于一個機箱最多可容納 8 個 GPU，而一個機架可容納 32 個 GPU，因此即使是推理也會成為需要光 I/O 的機架級操作。

5. 您能否解釋一下系統(tǒng)工程師在設計大規(guī)模人工智能工作負載時面臨的主要挑戰(zhàn)，以及光 I/O 如何應對這些挑戰(zhàn)？

首先，我們要明確我們談論的是誰。如果我們指的是機器學習（ML）程序員，那么采用光 I/O 的平臺將提供具有高吞吐量擴展、低延遲性能和低延遲分布的 Fabric 解決方案。這樣一來，整個分布式計算操作看起來就像一個單一的虛擬 GPU，從而提高了程序員的工作效率，實現(xiàn)了可擴展的 ML 工作負載。

如果我們談論的是硬件設計人員，他們需要構(gòu)建能夠?qū)崿F(xiàn)強可擴展性分布式計算的平臺，那么光 I/O 就能實現(xiàn)物理分解。這是用更小的組件構(gòu)建復雜、可擴展的平臺的關(guān)鍵所在，而這些組件的成本縮放曲線也更為激進。可以想象，未來的設計將圍繞類似于一堆物理分解的 GPU 計算卡或交換卡來構(gòu)建，而不再需要復雜而昂貴的多 GPU 機箱。

6. 在未來五到十年內(nèi)，您如何看待光 I/O 技術(shù)在人工智能模型增長和能源消耗方面的作用？

光 I/O 的路線圖可實現(xiàn)超過十年的持續(xù)帶寬和功耗擴展，這反過來又可實現(xiàn)強大的分布式計算平臺擴展和相應的模型增長。

7. 在生成式人工智能場景中，"全對全連接 "與統(tǒng)一延遲和總體效率有何關(guān)系？光 I/O 在這方面有何幫助？

在生成式人工智能所需的超大規(guī)模（如數(shù)千個計算插槽）中，必須通過交換結(jié)構(gòu)實現(xiàn)全對全連接。這必須分布在所有計算插座上（如基于 TPU 的系統(tǒng)），或者與計算插座分開（如基于 GPU 的系統(tǒng)）。無論哪種情況，光 I/O 都能以低功耗和低成本提供豐富的帶寬和低每鏈路延遲。這就使得大量對距離不敏感的光連接可以直接從計算/交換插座和光纖架構(gòu)拓撲（即所謂的胖樹（或折疊克洛斯）設計）中取出，從而在不影響注入帶寬（節(jié)點向網(wǎng)絡注入數(shù)據(jù)的速率）或分段帶寬（計算真正的整體網(wǎng)絡帶寬）的情況下提供短而均勻的延遲。

目前，現(xiàn)有的 Fabric 設計在 Fabric 成本和性能之間折衷的辦法是使用較少的光纖可插拔連接，例如，與胖樹設計中計算節(jié)點的注入能力相比，降低分段帶寬，或使用其他 Fabric 拓撲（如 TPU 系統(tǒng)中的環(huán)形結(jié)構(gòu)），這些拓撲結(jié)構(gòu)最大限度地減少了機架和行級光纖連接的數(shù)量，但帶來了不均勻的延遲曲線，再次限制了應用性能。

8. 您能否詳細說明光 I/O 技術(shù)在可重構(gòu)性方面的作用，特別是在適應不斷變化的人工智能模型要求方面，以及這種靈活性如何影響系統(tǒng)級效率？

封裝內(nèi)光學 I/O 可實現(xiàn)計算/交換封裝的高帶寬和大量端口（鏈路），為如何配置結(jié)構(gòu)以滿足不斷變化的模型要求提供了靈活性。例如，系統(tǒng)設計可以強調(diào)更高的弧度（更多鏈接），從而根據(jù)需要增加節(jié)點數(shù)量，以更低的延遲支持更大的模型張量并行性。另外，系統(tǒng)設計也可以強調(diào)提高每個鏈路的吞吐量，從而降低流水線并行的傳輸延遲。

9. 考慮到人工智能應用向邊緣計算發(fā)展的趨勢，光 I/O 技術(shù)在為資源受限的邊緣設備提供高速連接方面有哪些獨特的挑戰(zhàn)和機遇？

由于邊緣設備可利用的資源有限，物理分解是一個關(guān)鍵考慮因素，也是光 I/O 的主要優(yōu)勢之一。例如，航空航天公司正在尋求將下一代傳感器從底層計算中分離出來，以重新平衡關(guān)鍵約束條件（如尺寸、重量和功率），同時實現(xiàn)新的傳感配置，解決距離（一米以上）問題（如多靜態(tài)雷達、合成孔徑、協(xié)作多輸入多輸出通信等）。

10. 光 I/O可為人工智能帶來哪些潛在的性能提升？

我們一直在創(chuàng)建和評估平臺開發(fā)，在機箱、機架和系統(tǒng)層面，這些平臺有可能在下一代產(chǎn)品中將光纖架構(gòu)吞吐量提升 10 倍以上。這樣，互連帶寬就能跟上 GPU 改進和人工智能集群擴展的趨勢，確保連接性不會成為未來人工智能發(fā)展的制約因素。

11. 隨著光 I/O 的成熟，在標準化、互操作性和生態(tài)系統(tǒng)發(fā)展方面有哪些關(guān)鍵考慮因素，以確保其廣泛采用并與各種生成式人工智能硬件和軟件框架兼容？

標準化對于整個生態(tài)系統(tǒng)的發(fā)展和繁榮非常重要，而標準化必須將光 I/O 作為核心考慮因素。這里有兩個要素：物理和軟件。

在物理層，有連接本身和為光學供電的激光。UCIe（通用芯片互連 Express）是業(yè)界圍繞封裝級通用互連而制定的標準，它將同類最佳的芯片到芯片互連與來自可互操作的多供應商生態(tài)系統(tǒng)的協(xié)議連接結(jié)合在一起。

對于激光器而言，CW-WDM MSA（連續(xù)波分復用多源協(xié)議）是一項行業(yè)倡議和規(guī)范，旨在為新興的先進集成光學應用（如人工智能、高性能計算和高密度光學）實現(xiàn) O 波段 WDM CW 光源標準化，這些應用預計將發(fā)展到 8、16 和 32 波長。

與其他物理層互連技術(shù)相比，這兩項計劃都能在性能、效率、成本和帶寬擴展方面實現(xiàn)飛躍。

在軟件層，CXL（Compute Express Link）等協(xié)議是處理器、內(nèi)存和加速器高速緩存相干互連的開放標準，是未來的發(fā)展趨勢。這使得池化或交換式內(nèi)存等先進技術(shù)成為可能，為 GPU 利用物理層的高吞吐量和低延遲共享分解內(nèi)存提供了基礎。

12. 在技能組合和專業(yè)知識方面，進入人工智能光 I/O 開發(fā)領域的專業(yè)人員需要具備哪些關(guān)鍵資質(zhì)和知識領域，企業(yè)和教育機構(gòu)如何為人才隊伍做好相應準備？

這是一個具有挑戰(zhàn)性的跨學科問題--從硅基光電子學和激光物理學到電路設計和計算機/網(wǎng)絡架構(gòu)（再加上制造和封裝），更不用說分布式計算/共享內(nèi)存系統(tǒng)的系統(tǒng)編程/通信堆棧。公司、個人和教育機構(gòu)可以通過認識和強調(diào)這種跨堆棧設計方法來做好最佳準備。

后記

感謝 Vladimir 先生抽出寶貴時間分享見解和觀點，讓我們了解如何應對企業(yè)在發(fā)展和提高人工智能模型性能時所面臨的架構(gòu)挑戰(zhàn)。顯而易見，光 I/O 在實現(xiàn)生成式人工智能的未來方面大有可為。

參考來源

https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049

Ayar Labs CTO Vladimir Stojanovic訪談：基于硅基光電子技術(shù)的光I/O如何助力生成式人工智能的未來