ARM中國：周易NPU加速算力升級推動端側AI應用發(fā)展

訊石光通訊網(wǎng) 發(fā)布時間:2024/11/13 15:11:30 編者:iccsz

摘要：AIGC大模型帶來算力的提升，端側AI應用也在算力加持下不斷發(fā)展壯大。ARM周易NPU產(chǎn)品面向AI生態(tài)進行優(yōu)化升級，瞄準使用場景的真實算力需求并實現(xiàn)功耗成本降低，推動AI生態(tài)的健康發(fā)展。

ICC訊 近日，在第12屆中國硬科技產(chǎn)業(yè)鏈創(chuàng)新趨勢峰會上，ARM CHINA產(chǎn)品總監(jiān)鮑敏祺發(fā)表《端側AI應用芯片機遇，NPU加速終端算力升級》主題報告，AI端則的生態(tài)發(fā)展并介紹“周易”NPU IP產(chǎn)品，對接并滿足多樣化端側硬件設備的不同AI計算需求。

端側AI新機遇指的是最新AIGC大模型帶來算力的提升，端側AI應用也在算力加持下不斷發(fā)展壯大。在AI經(jīng)典應用中，已經(jīng)可以通過手機拍攝可以識別物體類型，在短信提取關鍵信息和總結給用戶，又例如在圖片庫搜索中，通過AI大模型快速理解，迅速識別所需要的圖片?？傮w而言就是利用AI加速人們的辦事效率，并且AI獲得了公眾號的認可。這一切依賴于AI硬件側的性能支撐。

過去，云計算應用成為數(shù)據(jù)中心增長的主要驅(qū)動力，而現(xiàn)在AI大模型訓練和推理正在驅(qū)動智算中心規(guī)模的發(fā)展。AI端側的算力是否會像云端一樣不停地膨脹？鮑敏祺認為低于100億參數(shù)的大預言模型將會成為主流模型，事實上因為帶寬制約，10億至30億參數(shù)是普遍在端側和現(xiàn)有帶寬下能夠部署出來的大模型，并且容量優(yōu)化有很大的增強空間。當然，70億參數(shù)模型會面臨顯著的帶寬壓力，但在高帶寬場景下也能夠成功部署。

站在應用端客戶來看，頭部終端廠商如谷歌、微軟、蘋果等引領了推動端側AI的發(fā)展，中國廠商如華為、OPPO、小米等也在其消費電子產(chǎn)品和具體業(yè)務場景上部署AI應用。芯片廠商一致認為AI NPU（神經(jīng)網(wǎng)絡處理單元）將是未來消費類電子產(chǎn)品發(fā)展的重點。NPU通過專門優(yōu)化的硬件架構，能夠大幅提升端側設備的AI計算能力，同時降低功耗。

30-700億并行參數(shù)大模型如何接入硬件設備，AI硬件側面臨的挑戰(zhàn)主要時哪些？鮑敏祺總結為成本、功耗和生態(tài)，其中成本主要來自于存儲、帶寬限制和算力，尤其是一個SOC的整體面效，因為很多端側設備對芯片面積的預算會高度吃緊，包括算力資源。功耗需要考慮功耗預算的設置， AI很多程度上是來源于數(shù)據(jù)的搬運，特別用于外層的搬運，因此功耗cost會越來越高，而生態(tài)包括了軟件成熟度，因為語言模型需要不斷迭代優(yōu)化才能抓住最重要的目標客戶，這又帶來另一個挑戰(zhàn)，就是軟件和工具需要更多優(yōu)化和支持。

NPU就是端則AI不斷迭代優(yōu)化的關鍵硬件，ARM自研的“周易”NPU針對于AI硬件側挑戰(zhàn)做了哪些事情？一是微架構的升級，從計算能力上對它進行優(yōu)化。當前階段它保留了一部分CNN的能力，同時對Transformer進行升級，而Transformer的engine需要更強的softmax算力。二是Efficiency數(shù)據(jù)本地化，非本地化會帶來額外的能耗。周易NPU從算法上、從工具鏈上能夠?qū)崿F(xiàn)低精度量化，同時從硬件上對于低精度計算做更多的硬件加速。其次是compression無損壓縮以增加有效的帶寬。

因為周易NPU針對于大模型做一些總線帶寬的擴展。特別是解碼架構場景的算力要求并不高，但是對于帶寬要求卻很高。出于這種考量，In-NPU interconnection對于整個interconnect單核往外的帶寬能力有很大的提升。三是并行處理，包括數(shù)據(jù)并行和模型并行，在并行運作時貢獻weight參數(shù)和減少我的數(shù)據(jù)搬運，實現(xiàn)負載均衡。

鮑敏祺介紹了周易NPU架構，包含task schedule manager（任務日程管理器）、Optional on Chip SRAM、DRAM和CPU，未來的端側AI是一種多任務場景，需要一個高效的scheduler并行股那里和具有可擴展能力的核心。針對算法的特殊需求，可以在整個外部SOC上增加SRAM。更重要的是NPU異構策略，即獨立端到端地去執(zhí)行AI任務，并且自由裁減8T或10T的場景，與同構策略形成鮮明的不同。NPU異構在端側場景上還可以實現(xiàn)power gating或低功耗，即專注于某一種計算時，將其他不必要的功耗降至最低，若是所有應用采用這種處理方式，就可以將端側功耗降下來。ARM NPU已經(jīng)針對汽車、AI加速器、AIoT等場景進行了相應的實踐，實現(xiàn)了顯著的算力提升和功耗降低。

下一代周易NPU將面向AI生態(tài)進行優(yōu)化升級，目前已經(jīng)針對Wenxin、Llama、GPT等模型做了相關部署。在邊緣計算上，面向PAD、PC、Mobile等各類場景推出相應產(chǎn)品或適配。在汽車應用上，無論是IVI或是ADAS都可以根據(jù)實際場景算力需求和模型需求，提供最高至320tops的算力能力。

內(nèi)容來自：訊石光通訊網(wǎng)
本文地址：http://odinmetals.com//Site/CN/News/2024/11/13/20241113072219921175.htm 轉(zhuǎn)載請保留文章出處
關鍵字:
文章標題:ARM中國：周易NPU加速算力升級推動端側AI應用發(fā)展

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品，版權均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。
2、免責聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

ARM中國：周易NPU加速算力升級 推動端側AI應用發(fā)展

相關新聞

ARM中國：周易NPU加速算力升級推動端側AI應用發(fā)展