什么是NPU?
NPU是一種專為實(shí)現(xiàn)以低功耗加速AI推理而打造的處理器,其架構(gòu)隨著新AI算法、模型和用例的發(fā)展不斷演進(jìn)。一個(gè)優(yōu)秀的、專用的定制化NPU設(shè)計(jì)必須要在性能、工號、效率、可編程性和面積之間進(jìn)行權(quán)衡取舍,才能夠?yàn)樘幚鞟I工作負(fù)載做出正確的選擇,與AI行業(yè)方向保持高度一致。3OHesmc
早在2015年,面向音頻和語音AI用例而設(shè)計(jì)的NPU就誕生了,這些用例基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN)并且主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算。從2016年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運(yùn)算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。3OHesmc
到了2023年,大語言模型(LLM)一比如Llama 2-7B,和大視覺模型(LVM)一比如 StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個(gè)數(shù)量級。除計(jì)算需求之外,還需要重點(diǎn)考慮內(nèi)存和系統(tǒng)設(shè)計(jì),通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計(jì)將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。3OHesmc
AI PC將NPU推上競爭新高地
2024年被普遍視為AI PC元年,根據(jù)Canalys預(yù)測,到2027年,AI PC出貨量將超過1.7億臺,其中近60%將部署在商用領(lǐng)域。為了順應(yīng)PC行業(yè)的發(fā)展潮流,并顯著提高端側(cè)AI能力,英特爾、AMD、高通等頭部芯片廠商也正努力將專用NPU集成到CPU中,相關(guān)產(chǎn)品及路線圖已經(jīng)得到公布。3OHesmc
盡管AI PC實(shí)際市場表現(xiàn)取決于生態(tài)系統(tǒng)的協(xié)作水平,但毫無疑問的是,集成了NPU的中央處理器將驅(qū)動新一輪AI PC的發(fā)展。與此同時(shí),如何在電腦處理器中發(fā)揮出NPU的最大功效,也成為了業(yè)內(nèi)熱議的話題。3OHesmc
2023年12月,AMD率先發(fā)布銳龍8040系列處理器,其最核心的變化之一就是新增了AI計(jì)算單元。根據(jù)AMD的說法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語言模型性能提升40%,視覺模型提升40%。3OHesmc
一周之后,英特爾新一代酷睿Ultra移動處理器正式發(fā)布,這是其40年來第一個(gè)內(nèi)建NPU的處理器,用于在PC上帶來高能效的AI加速和本地推理體驗(yàn),被業(yè)界視作英特爾客戶端處理器路線圖的轉(zhuǎn)折點(diǎn)。英特爾方面將NPU與CPU、GPU共同作為AI PC的三個(gè)底層算力引擎,預(yù)計(jì)在2024年,將有230多款機(jī)型搭載酷睿Ultra。3OHesmc
3OHesmc
來自Trendforce的消息稱,微軟計(jì)劃在Windows12中為AI PC設(shè)置最低門檻,需要至少40TOPS算力和16GB內(nèi)存。也就是說,PC芯片算力跨越40TOPS門檻將成為首要目標(biāo),這也將進(jìn)一步推進(jìn)NPU的升級方向,比如:提升算力、提高內(nèi)存、降低功耗,芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計(jì)算優(yōu)化和內(nèi)存升級。3OHesmc
再來看一下高通的思路。高通是不打算從一開始就只依賴NPU實(shí)現(xiàn)移動設(shè)備AI體驗(yàn)的,而是將Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、傳感器中樞和內(nèi)存子系統(tǒng)“打包”,組成“高通AI引擎”。這意味著高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計(jì)和快速創(chuàng)新。通過定制設(shè)計(jì)NPU并控制指令集架構(gòu)(ISA),高通能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展,以解決瓶頸問題并優(yōu)化性能。目前,高通NPU從2015年初次被集成到SoC至今,在9年左右的時(shí)間里其實(shí)已經(jīng)更迭了四代不同的基礎(chǔ)架構(gòu)。3OHesmc
3OHesmc
本土NPU企業(yè)持續(xù)發(fā)力
在國內(nèi)廠商當(dāng)中,2017年,華為最先將NPU處理器集成到手機(jī)CPU中,使得CPU單位時(shí)間計(jì)算的數(shù)據(jù)量和單位功耗下的AI算力得到顯著提升,讓業(yè)內(nèi)看到了NPU應(yīng)用于終端設(shè)備的潛力。OPPO曾經(jīng)的自研NPU馬里亞納X,在拍照、拍視頻等大數(shù)據(jù)流場景下實(shí)現(xiàn)了更好的運(yùn)算效率,拉開了高端智能手機(jī)的體驗(yàn)差距。3OHesmc
2018年11月,作為安謀科技成立后第一款正式對外發(fā)布的本土研發(fā)IP產(chǎn)品,“周易”Z1 NPU在烏鎮(zhèn)舉辦的第五屆世界互聯(lián)網(wǎng)大會上公開亮相;兩年后的2020年10月,能夠在單顆SoC中實(shí)現(xiàn)128TOPS強(qiáng)大算力的“周易”Z2 NPU面世;2023年推出的“周易”X2 NPU則主要面向智能汽車產(chǎn)業(yè)和邊緣計(jì)算,支持多核Cluster,以及大模型基礎(chǔ)架構(gòu)Transformer,可提供最高320TOPS的算力。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實(shí)現(xiàn)了合作。3OHesmc
3OHesmc
“周易”X2 NPU主要功能升級(來源:安謀科技)3OHesmc
另一家企業(yè)芯原則在近日宣布,集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆,已被72家客戶用于128款A(yù)I芯片中,用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個(gè)市場領(lǐng)域。其最新推出的VIP9000系列NPU IP結(jié)合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在內(nèi)的所有主流框架。此外,它還具備4位量化和壓縮技術(shù),以解決帶寬限制問題,便于在嵌入式設(shè)備上部署生成式人工智能和大型語言模型算法,如Stable Diffusion和Llama 2。3OHesmc
作為人工智能視覺感知芯片研發(fā)及基礎(chǔ)算力平臺公司,愛芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N,也為行業(yè)探索Transformer在端側(cè)、邊緣側(cè)落地方面做出了有益的嘗試。實(shí)測數(shù)據(jù)顯示,目前大眾普遍采用的Transformer網(wǎng)絡(luò)SwinT,在愛芯元智AX650N平臺上獲得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。3OHesmc
生成式AI與多樣化處理器
與我們之前談?wù)摰腁I不同的是,生成式AI用例需求在有著多樣化要求和計(jì)算需求的垂直領(lǐng)域不斷增加。高通在《通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI》的白皮書中,將這些用例分為三類:3OHesmc
1. 按需型用例由用戶觸發(fā),需要立即響應(yīng),包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要,或在開車時(shí)用語音查詢最近的加油站。3OHesmc
2. 持續(xù)型用例運(yùn)行時(shí)間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實(shí)時(shí)翻譯。這包括用戶在海外出差時(shí)使用手機(jī)作為實(shí)時(shí)對話翻譯器,以及在PC上玩游戲時(shí)逐幀運(yùn)行超級分辨率。3OHesmc
3. 泛在型用例在后臺持續(xù)運(yùn)行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI 個(gè)性化和高級文本自動填充。例如手機(jī)可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實(shí)時(shí)調(diào)整學(xué)習(xí)資料。3OHesmc
白皮書指出,這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn):第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計(jì)算需求;第二,這些AI用例在不斷演進(jìn),在功能完全固定的硬件上部署這些用例不切實(shí)際。3OHesmc
例如CPU和GPU是通用處理器,它們?yōu)殪`活性而設(shè)計(jì),非常易于編程,前者擅長順序控制和即時(shí)性,后者適合并行數(shù)據(jù)流處理。但在運(yùn)行操作系統(tǒng)、游戲和其他應(yīng)用時(shí),會隨時(shí)限制他們運(yùn)行AI工作負(fù)載的可用容量;NPU是以AI為中心定制設(shè)計(jì)的,擅長標(biāo)量、向量和張量數(shù)學(xué)運(yùn)算,雖然易編程性有所降低,但以此換得了更高的峰值性能、能效和面積效率,從而能夠運(yùn)行機(jī)器學(xué)習(xí)所需的大量乘法、加法和其他運(yùn)算。3OHesmc
因此,只有支持處理多樣性的異構(gòu)計(jì)算架構(gòu),才能夠發(fā)揮每個(gè)處理器的優(yōu)勢。正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素,將增強(qiáng)生成式AI體驗(yàn)。換句話說,就是通過使用合適的處理器,異構(gòu)計(jì)算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,以最大化發(fā)揮生成式AI終端用戶體驗(yàn)。3OHesmc
端側(cè)AI,千帆競渡
如前文所述,無論是國際還是國內(nèi)企業(yè),盡管他們在NPU的技術(shù)和路線選擇上各有側(cè)重,但端側(cè)AI是顯而易見的競爭大市場和新市場,無論是AI手機(jī)、XR、AI PC等消費(fèi)類產(chǎn)品,還是物聯(lián)網(wǎng)、智慧家居、汽車電子領(lǐng)域,都是如此。3OHesmc
究其原因,還是自2023年起,大模型參數(shù)量出現(xiàn)顯著分化,輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。以谷歌發(fā)布的開源輕量化大模型Gemma為例,該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建,有2B和7B兩個(gè)版本,可以直接在筆記本和臺式機(jī)部署。 3OHesmc
近幾年大有取代CNN之勢的Transformer也值得多說幾句。由于它可以獲取全局特征,有一定的知識遷移性,能夠很好地適應(yīng)各種場景,不僅在COCO榜單上處于霸榜狀態(tài),很多以CNN為主的框架也已經(jīng)切換到了Transformer。目前來看,Transformer大模型在云端主要還是通過GPU部署,在邊緣側(cè)、端側(cè)硬件支撐方面,則更多依賴NPU實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)的加速。3OHesmc
這倒不是指CPU不能運(yùn)行Transformer模型,只是它的運(yùn)行速度無法滿足實(shí)際應(yīng)用落地需求。另一方面,盡管CNN和Transformer都屬于神經(jīng)網(wǎng)絡(luò),但Transformer的計(jì)算訪存比比CNN低,精度和靈活度高,而此前市面上的一些NPU主要針對CNN網(wǎng)絡(luò)做了一些過擬合的設(shè)計(jì),導(dǎo)致在部署Transformer網(wǎng)絡(luò)時(shí)遇到了功耗、效率等諸多問題,現(xiàn)在需要找到合適的新算力平臺,并在算法側(cè)找到能降低大參數(shù)模型帶寬的新途徑。3OHesmc
此外,輕量化AI大模型面世之后,場景應(yīng)用的AI智能邊際成本會大幅降低,因?yàn)樗惶枰贋檫@些長尾的場景做專門的適配,預(yù)訓(xùn)練的大模型憑借“足夠強(qiáng)的學(xué)習(xí)和推理能力”、“足夠?qū)挼闹R領(lǐng)域”,一經(jīng)部署就能達(dá)到比較好的效果,從而推動AI在端側(cè)和邊緣側(cè)更大范圍內(nèi)的普及和提升。3OHesmc
結(jié)語
多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。因此,端側(cè)AI越“卷”,越代表著NPU將快速迎來市場拐點(diǎn)。3OHesmc
得益于在端側(cè)和邊緣側(cè)處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)擁有的更高效率和更低能耗,神經(jīng)網(wǎng)絡(luò)處理器(NPU)正成為推動AI手機(jī)、AI PC和端側(cè)AI市場前行的強(qiáng)大動能,并有望開啟屬于自己的大規(guī)模商用時(shí)代。3月28-29日,由Aspencore舉辦的國際集成電路展覽會暨研討會(IIC Shanghai)將在上海召開。在與IIC 2024同期舉辦的“GPU/AI芯片與高性能計(jì)算應(yīng)用論壇”上,行業(yè)專家將與我們共同探討AI產(chǎn)業(yè)的最新動向及技術(shù)趨勢,點(diǎn)擊這里參考詳情并報(bào)名參會。3OHesmc
3OHesmc
責(zé)編:Elaine