最近,Arm Neoverse路線圖再次迎來更新,其中,V、E系列各增加了一款新品。Arm及其生態(tài)合作伙伴,圍繞Neoverse的新品及應(yīng)用做了介紹。Ou5esmc
Arm Neoverse路線圖發(fā)展歷程
作為全球芯片IP行業(yè)的領(lǐng)導(dǎo)者,Arm自1990 年成立以來,其獨特的 IP 技術(shù)授權(quán)許可模式,打造了一個強勁的Arm生態(tài)系統(tǒng)。迄今,Arm 低功耗處理器設(shè)計和軟件平臺已應(yīng)用于超過 2,300 億顆芯片的高級計算,覆蓋從傳感器到智能手機乃至超級計算的多樣化應(yīng)用。Arm Neoverse面向高性能計算、云數(shù)據(jù)中心、邊緣計算、網(wǎng)絡(luò)等領(lǐng)域,該平臺囊括了V、N和E三大系列,回顧該品牌四年來的發(fā)展之路,可以看到其成長的全過程。Ou5esmc
2018年底,Arm發(fā)布Neoverse初步路線圖。這是基于Arm指令集的IP產(chǎn)品,主要面向高性能計算市場。當時的平臺產(chǎn)品(代號Cosmos)基于16nm工藝,CPU核心為Cortex-A72、Cortex-A75。Arm承諾表示,Neoverse的性能將達到年增長率30%。Ou5esmc
2019年2月,Arm Neoverse N1和Neoverse E1發(fā)布。N1平臺(代號Ares)面向高性能設(shè)備,其CPU架構(gòu)與Cortex-A76同源,制程工藝升級到7nm,性能比Cortex-A72提升了60%。值得注意的是,N1平臺和相對應(yīng)的處理器核心,代表了Arm首款專為服務(wù)器和基礎(chǔ)設(shè)施市場設(shè)計的專用IP。Ou5esmc
E1采用智能設(shè)計,可實現(xiàn)高效的數(shù)據(jù)吞吐量,與Arm前幾代方案相比,吞吐量性能提升超過2.7倍,吞吐效率提升超2.4倍,計算性能提升超2倍??蔀閺牡陀?5W的基站,到幾百GB的路由器等設(shè)備提供支持。Ou5esmc
2020年9月,Arm更新了Neoverse路線圖,增加了Arm Neoverse V1和Arm Neoverse N2兩個平臺,還把Neoverse分為V、N和E三大系列:V系列主打高性能,核心更大,應(yīng)用于云、HPC和AI領(lǐng)域;N系列性能、功耗、面積并重,并行能力強大,應(yīng)用于云、5G、網(wǎng)絡(luò)和邊緣領(lǐng)域;E系列主打能效,功耗、核心面積要優(yōu)先于性能,應(yīng)用于5G、網(wǎng)絡(luò)和基礎(chǔ)設(shè)施邊緣領(lǐng)域。Ou5esmc
2021年3月底,Arm發(fā)布了Armv9指令集。同年4月底,Arm基于Armv9指令集架構(gòu)推出了Neoverse N2(代號Perseus),Arm還在基于Armv8.4-A CPU指令集基礎(chǔ)上,發(fā)布了Arm Neoverse V1(代號Zeus)。Ou5esmc
N2以5nm工藝為主,在與N1相同功率和面積效率的情況下,N2的單線程性能可提升40%、頻率提高10%。N2適用于橫跨云、智能網(wǎng)卡、企業(yè)網(wǎng)絡(luò)到功耗受限的邊緣設(shè)備。到2022年9月,已經(jīng)有近20家合作伙伴正基于N2平臺進行設(shè)計。Ou5esmc
V1是V系列的首個平臺,采用7nm/5nm工藝,其單線程性能比N1提升50%以上,支持可伸縮矢量擴展(SVE),適用于高性能云、高性能計算與機器學(xué)習等應(yīng)用。V1的整體架構(gòu)、模塊組成與N2類似,有全方位的微架構(gòu)改進,全面提升了基準測試、服務(wù)器/高性能計算工作負載,并且強化了電源、功耗、發(fā)熱管理。Ou5esmc
Ou5esmc
2022年9月,Arm再一次更新了Neoverse路線圖,增加了核心和平臺IO細節(jié),并宣布新增兩個新品——Neoverse V2(代號Demeter)、Neoverse E2。Ou5esmc
Ou5esmc
Neoverse V2平臺配備最新V系列核心、產(chǎn)業(yè)廣泛部署的Arm CMN-700 mesh互連技術(shù),采用Armv9架構(gòu),旨在為云端、超大規(guī)模和HPC工作負載提供領(lǐng)先的單線程性能,這是新一代基礎(chǔ)設(shè)施解決方案的基礎(chǔ)。V2提供市場領(lǐng)先的整型性能,增加了2MB的專用L2緩存,比V1上的L2大上一倍,且使用延遲的負載不變,顯著提升MySQL和Memcached等云應(yīng)用性能。V2上支持可伸縮矢量擴展完成了SVE2的過渡,可以幫助滿足更多非HPC ML類型的工作負載,同時添加了更多加密指令。Ou5esmc
Ou5esmc
E2結(jié)合了Arm Cortex-A510 CPU和可擴展的Neoverse CMN-700和N2系統(tǒng)背板,以允許在受限應(yīng)用程序中使用最好的云端技術(shù),包括可擴展的核心數(shù)量范圍、Arm SystemReady兼容性以及PCIe、CXL、IO和接口等。Ou5esmc
此外,Arm還預(yù)告稱,新一代Neoverse N系列產(chǎn)品將于2023年推出,其CPU的性能和效率與N2相比均有代際提升。Ou5esmc
Arm Neoverse新增產(chǎn)品基于“四項關(guān)鍵性原則”打造
Arm Neoverse路線圖中新增產(chǎn)品是基于四項關(guān)鍵原則打造的。Ou5esmc
第一,可擴展效率。兩年前,Arm推出了V、N和E系列核心設(shè)計原則,此后大量基于此類計算基礎(chǔ)的解決方案陸續(xù)面市。Arm相信憑借V、N和E系列核心組合,其將比友商覆蓋更多的市場并更為高效。Ou5esmc
第二,技術(shù)領(lǐng)先地位。Arm已經(jīng)創(chuàng)下了多項行業(yè)第一:第一個總內(nèi)存帶寬超過每秒1TB的CPU;第一個單塊裸片上能配置超過100個核心的CPU,核心數(shù)達到128個;第一個將DDR5和PCIe Gen5.0推向市場的CPU;第一個在SPEC CPU 2017基準測試中打破500整型跑分的CPU。Ou5esmc
第三,快速的創(chuàng)新步伐。Arm數(shù)據(jù)中心計算正以前所未有的速度進入市場,比如NXP的Layerscape效率極高,雖然只有8個核心和8MB緩存,但是卻擁有每秒100GB的網(wǎng)絡(luò)帶寬,以及安全加密和PCIe擴展等功能;英偉達Grace CPU適用于AI領(lǐng)域,集成了144個Arm Neoverse V2核心,使用低功耗DDR5,內(nèi)存帶寬達每秒1TB;另外,Ampere每年都推出基于Arm架構(gòu)高核心數(shù)服務(wù)器CPU,Amazon在短短4年內(nèi)發(fā)布了三代基于Arm架構(gòu)的Graviton處理器。Ou5esmc
第四,獨一無二的開發(fā)者社區(qū)的有力支持。Arm架構(gòu)已應(yīng)用在領(lǐng)先的Linux操作系統(tǒng)、云原生軟件、CI(持續(xù)集成)/CD(持續(xù)交互)管道,并得到了領(lǐng)先編程語言和運行庫的支持。Arm架構(gòu)已經(jīng)過主要編譯器的認可和優(yōu)化,目前是Kubernetes的熱門開發(fā)目標。Arm 高級副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Chris Bergey說,在排名前50位的Amazon EC2(亞馬遜彈性計算云)客戶中,有48家在運行基于Arm Neoverse的AWS Graviton處理器,包括了Twitter Feed、Snap和Airbnb等。Ou5esmc
在Arm看來,單芯片性能和單線程性能,是云決策者的兩大關(guān)鍵指標。單線程性能使其了解,對“擴展”要求最高且性能需求大的工作負載能否遷移到Arm。同時,高單芯片性能則使其可以通過大量運行在平臺上的“橫向擴展”工作負載,來實現(xiàn)投資價值的最大化。Ou5esmc
超大型互聯(lián)網(wǎng)公司十分關(guān)心TCO或TCO支出,TCO支出所能帶來的性能是他們盈利的關(guān)鍵。使用Arm Neoverse V1核心的AWS Graviton3可提供最高的單線程性能,Arm預(yù)期Graviton3能提供出色的性價比和每瓦性能,在所有CPU中Ampere Altra Max和阿里的倚天710提供最佳單芯片吞吐量。Ou5esmc
Arm Neoverse在內(nèi)的單線程設(shè)計,其單核的全部資源被專用于軟件執(zhí)行的每個線程,以提供更高的單線程性能。為此,在打造高端核心時可實現(xiàn)更有效的核心設(shè)計。單線程的設(shè)計的優(yōu)勢在于,能讓Arm的合作伙伴在每個系統(tǒng)中集成更多的完整核心。Ou5esmc
Arm Neoverse的一些應(yīng)用案例
現(xiàn)在,Arm已被用于全球各個主要公有云,包括AWS、微軟、谷歌、阿里巴巴、甲骨文等。這意味著,全球的每一位開發(fā)者都能體驗Arm Neoverse帶來的便利。Ou5esmc
Ou5esmc
·基于Arm Neoverse V1核心的AWS Graviton3 CPU
2022年8月,在亞馬遜云科技(AWS)芯片創(chuàng)新日上,亞馬遜副總裁James Hamilton講述了AWS如何開始定制芯片之旅。Ou5esmc
2013年,James向Andy Jassy(現(xiàn)任亞馬遜CEO)和Jeff Bezos(亞馬遜創(chuàng)始人)提出兩個論點:1.鑒于Arm架構(gòu)芯片出貨量在逐年增加,他確信Arm一定能設(shè)計出優(yōu)異的服務(wù)器CPU;2.很多功能正從主板逐漸遷移到SoC上,且該趨勢在手機領(lǐng)域已現(xiàn)端倪,他認為服務(wù)器領(lǐng)域也會出現(xiàn)類似的發(fā)展趨勢。Ou5esmc
AWS多年來堅持打造定制服務(wù)器,隨著服務(wù)器創(chuàng)新轉(zhuǎn)移到芯片上,James得出結(jié)論——AWS需要開始打造CPU。他認為,AWS如果不打造芯片,他們的創(chuàng)新將受到限制。在此基礎(chǔ)上,2015年AWS收購了Annapurna Labs,2018年AWS基于Arm Neoverse創(chuàng)建了AWS Graviton系列CPU,2022年基于Neoverse V1核心的AWS Graviton3落地商用。Ou5esmc
·基于Arm Neoverse V2核心的英偉達Grace CPU
在今年6月,英偉達發(fā)布了面向AI及高性能計算(HPC)的Grace CPU超級芯片和Grace Hopper超級芯片。英偉達正在推行GPU+CPU+DPU“三芯”戰(zhàn)略,英偉達超大規(guī)模和HPC副總裁兼總經(jīng)理Ian Buck介紹說,Grace CPU基于Arm Neoverse V2核心打造,提供多達72個核心與GPU結(jié)合建立AI。NVLink-C2C互連技術(shù)可將CPU與GPU結(jié)合起來,用于GPU和CPU之間的高性能和一致性通信。這要求CPU要有優(yōu)異的表現(xiàn),Neoverse V2的SPEC FP與SPEC int性能表現(xiàn)突出,它可與GPU本身的數(shù)據(jù)并行處理并駕齊驅(qū)。同時,V2核心本身具備優(yōu)異的每瓦性能,結(jié)合了Grace的LP DDR內(nèi)存能帶來優(yōu)秀的每瓦性能。Ou5esmc
Ian還透露說,英偉達正將所有的AI棧和軟件移植到Arm架構(gòu)。Ou5esmc
·基于Arm Neoverse核心的其他應(yīng)用
Arm正逐步邁入更為傳統(tǒng)的 “企業(yè)” 領(lǐng)域。VMware和英偉達及生態(tài)系統(tǒng)合作伙伴共同合作的Monterey項目,旨在利用包括英偉達BlueField DPU在內(nèi)的最新網(wǎng)絡(luò)技術(shù),提高企業(yè)數(shù)據(jù)中心的性能、可管理性和安全性。Ou5esmc
另外,RedHat的OpenShift支持Arm架構(gòu),SAP HANA正將其云基礎(chǔ)設(shè)施遷移到AWS Graviton上,HPE新推出的ProLiant第11代平臺,搭載了基于Arm Neoverse的Ampere Altra處理器等。Ou5esmc
·Arm持續(xù)賦能初創(chuàng)企業(yè)推動創(chuàng)新步伐
同時,國內(nèi)也有很多初創(chuàng)公司投入Arm架構(gòu)開發(fā),其中有三家來自中資初創(chuàng)企業(yè)正在開發(fā)基于Neoverse N2的產(chǎn)品——遇賢微電子和鴻鈞微電子致力于云原生服務(wù)器CPU的開發(fā),云豹智能則是針對DPU領(lǐng)域。Ou5esmc
Arm表示,與大型企業(yè)相比,初創(chuàng)公司確實有其優(yōu)勢,因初創(chuàng)公司致力于產(chǎn)品計劃的開發(fā),發(fā)展速度非常快,也非常開放。Ou5esmc
·大多數(shù)DPU基于Arm架構(gòu)開發(fā)
Ou5esmc
各種“云”都利用DPU來支撐云工作負載,而絕大多數(shù)DPU都基于Arm架構(gòu)開發(fā),Arm提供了功能強大且極其高效的核心,芯片供應(yīng)商通過使用Arm架構(gòu),可圍繞Arm核心來進行芯片定制。Ou5esmc
Chris Bergey指出:“這些DPU以極高的比特率處理網(wǎng)絡(luò)數(shù)據(jù)包,并以每秒千兆字節(jié)的速度加密NVMe SDD流量。此外,DPU還要加強客戶的工作負載與數(shù)據(jù)中心的其余部分之間的安全邊界,這都能在Arm CPU核心完成,這是建立在Arm高效計算基礎(chǔ)之上的專用處理能力。”Ou5esmc
如今的基礎(chǔ)設(shè)施,比如SSD、HDD、DPU、視頻加速器,它們都是定制化打造的,服務(wù)器CPU算是最后的標準產(chǎn)品,不過它將不會作為通用型產(chǎn)品繼續(xù)發(fā)展。實際上,功耗問題不容小覷,大型互聯(lián)網(wǎng)公司的電力支出占到總擁有成本(TCO)的30%-40%,僅微次于電信網(wǎng)絡(luò)運營商的電力支出。由于數(shù)據(jù)速率發(fā)展過于迅猛,計算工作負載正極力增長且愈加復(fù)雜,ML和AI正在發(fā)揮取代作用。Ou5esmc
Chris認為,基礎(chǔ)設(shè)施需要被重新定義。“云”將繼續(xù)存在于大型數(shù)據(jù)中心內(nèi),但我們的娛樂體驗、交通運輸和通信方式,將因邊緣的構(gòu)建而改變。“云”將加速發(fā)展——助力AR和VR創(chuàng)作者,實現(xiàn)視覺和觸覺上的沉浸式實時體驗。同時“云”也將具有高能效,DPU向大家證明了如何達成這一目標。他堅信,基礎(chǔ)設(shè)施的未來需要基于Arm Neoverse的高性能、高能效的計算基礎(chǔ),還需要Arm生態(tài)系統(tǒng)所提供的專用處理和工作負載加速能力。Ou5esmc
下一個發(fā)展趨勢是ML
Arm認為,下一個發(fā)展趨勢是ML,它正逐漸成為未來的首選工作負載。所以V1核心擁有一組專門用于增強ML應(yīng)用程序性能的功能:在架構(gòu)方面添加了Bfloat16(BF16);調(diào)整了V1 、N2以及后續(xù)設(shè)計的微架構(gòu),旨在通過BERT提高BF16的執(zhí)行;為Arm計算庫(ACL)增加BF16支持;將ACL集成到oneDNN ML框架中;oneDNN框架與Tensorflow搭配使用以運行BERT。Ou5esmc
“當我們在基于V1核心的AWS EC2 C7g上運行BERT,并將其與使用最新Xeon核心的 C6i進行對比,我們發(fā)現(xiàn)在Arm架構(gòu)上經(jīng)BF16優(yōu)化的堆棧性能比英特爾高出80%。我們在V1添加的BF16和Int8 MatMul意味著ML模型可以更緊湊地植入內(nèi)存,因此它們需要更少的內(nèi)存帶寬,從而使Graviton3的ML性能達到Graviton2的3倍。”Ou5esmc
責編:Clover.li