2024年7月25日,在由專(zhuān)業(yè)電子機(jī)構(gòu)媒體AspenCore與深圳市新一代信息通信產(chǎn)業(yè)集群聯(lián)合主辦的聯(lián)合主辦的“2024國(guó)際AIoT生態(tài)發(fā)展大會(huì)”上,英特爾中國(guó)解決方案架構(gòu)師楊濤分享了該公司持續(xù)的算力創(chuàng)新動(dòng)態(tài)。sTqesmc
他指出,近年來(lái)隨著生成式AI的火爆,芯片行業(yè)有兩大趨勢(shì)日益突顯——預(yù)計(jì)在未來(lái)兩年內(nèi),約有80%的企業(yè)會(huì)部署生成式AI,對(duì)產(chǎn)業(yè)而言這是極大的市場(chǎng)機(jī)會(huì)。另外,約有50%的邊緣計(jì)算設(shè)備具備機(jī)器學(xué)習(xí)功能,芯片企業(yè)需為端側(cè)設(shè)備增加AI處理算力。sTqesmc
在此背景下,楊濤介紹了英特爾在算力創(chuàng)新方面的一些動(dòng)態(tài)。為了支持對(duì)AI的需求,英特爾在最近幾年在持續(xù)發(fā)布并更新AI加速器、支持大模型的軟件棧、支持端側(cè)AI需求的分離式顯卡、內(nèi)置GPU、CPU、NPU的處理器,以及面向AI的開(kāi)源軟件等產(chǎn)品。sTqesmc
sTqesmc
支持AI訓(xùn)練/推理的加速器和軟件生態(tài)
英特爾先后發(fā)布了兩款A(yù)I芯片——Gaudi® 2和Gaudi® 3——是面向數(shù)據(jù)中心主推的AI訓(xùn)練/推理芯片。sTqesmc
Gaudi® 2在2023年發(fā)布,采用了臺(tái)積電7納米技術(shù),Gaudi® 3在2024年發(fā)布,采用了臺(tái)積電5納米技術(shù)。Gaudi® 3與前一代相比有諸多提升,比如在AI FP8(8位浮點(diǎn)數(shù))算力提升2倍,BF16算力提升了4倍;同時(shí)網(wǎng)絡(luò)帶寬提升2倍,內(nèi)存帶寬提升1.5倍。sTqesmc
sTqesmc
在楊濤看來(lái),在大芯片上集成AI還存在較大的門(mén)檻。“門(mén)檻主要體現(xiàn)在軟件生態(tài)方面,許多公司雖然推出了性能指標(biāo)非常高的芯片,但是這些芯片如何與大模型公司結(jié)合仍存在挑戰(zhàn),而英特爾的AI芯片在軟件生態(tài)上的適配度非常好。”sTqesmc
在今年4月,Meta發(fā)布了Llama 3大模型,緊接著,在7月24日,該公司又發(fā)布了升級(jí)版的Llama 3.1。在上述大模型發(fā)布的當(dāng)日,英特爾就宣布自己的AI產(chǎn)品組合支持這些大模型,并通過(guò)開(kāi)放生態(tài)系統(tǒng)軟件實(shí)現(xiàn)針對(duì)性?xún)?yōu)化,這涵蓋了 PyTorch 及英特爾® PyTorch 擴(kuò)展包、DeepSpeed、Hugging Face Optimum庫(kù)和vLLM等。sTqesmc
楊濤還介紹說(shuō),英特爾針對(duì)國(guó)內(nèi)的大模型用戶(hù)也有新動(dòng)態(tài)。例如,上個(gè)月,阿里云發(fā)布了通義千問(wèn)Qwen2大模型,英特爾在該模型發(fā)布的當(dāng)天,也發(fā)布了支持通義千問(wèn)Qwen2大模型的軟件棧。“我們想強(qiáng)調(diào)的是,英特爾不僅有單一的AI指標(biāo),同時(shí)也有非常好的軟件生態(tài),能第一時(shí)間支持最新的大模型。”sTqesmc
支持端側(cè)的分離式顯卡
除了應(yīng)用在數(shù)據(jù)中心訓(xùn)練/推理場(chǎng)景的AI產(chǎn)品之外,英特爾也支持對(duì)端側(cè)AIoT領(lǐng)域的AI算力提升。例如,英特爾在顯卡領(lǐng)域已經(jīng)布局很多年,但此前主要面向傳統(tǒng)的PC集成顯卡(核顯)市場(chǎng),多年來(lái)獨(dú)立顯卡市場(chǎng)一直被英偉達(dá)和AMD占據(jù)。sTqesmc
最近幾年, 先是全民“挖礦”風(fēng)潮興起,緊接著又是生成式AI爆紅,顯卡的核心功能也從加速圖形渲染,擴(kuò)大到加速HPC高性能計(jì)算、DL深度學(xué)習(xí)、AI人工智能等能力上。一時(shí)間,顯卡成為這幾年紅到不能再紅的“炸子雞”。sTqesmc
面對(duì)如此龐大的顯卡市場(chǎng),英特爾也開(kāi)始加強(qiáng)在顯卡領(lǐng)域的布局。2022年3月30日,英特爾正式發(fā)布最新的獨(dú)立顯卡,該顯卡被命名為Intel ARC(中文名為銳炫)。到2024年,Intel ARC系列更新到了第二代,其GPU max系列產(chǎn)品針對(duì)數(shù)據(jù)中心超算部署。sTqesmc
sTqesmc
英特爾的獨(dú)立顯卡均采用Xe GPU架構(gòu),該架構(gòu)下的產(chǎn)品細(xì)分為主打集成顯卡和入門(mén)獨(dú)顯的超低功耗Xe LP、針對(duì)游戲優(yōu)化的高性能圖形Xe LPG、面向數(shù)據(jù)中心和AI應(yīng)用的高性能Xe HP、適合超級(jí)計(jì)算的高性能計(jì)算Xe HPC四種微架構(gòu)。這些不同架構(gòu)的顯卡為不同應(yīng)用場(chǎng)景優(yōu)化,完整覆蓋集成顯卡、入門(mén)級(jí)獨(dú)顯、主流獨(dú)顯、旗艦獨(dú)顯、工作站、服務(wù)器數(shù)據(jù)中心、流媒體編解碼、AI、HPC和超算等各個(gè)細(xì)分領(lǐng)域。sTqesmc
端側(cè)設(shè)備有大量的AI需求,而如何去滿(mǎn)足這些設(shè)備的AI算力是芯片企業(yè)需要考慮的問(wèn)題。今年6月,在Computex 2024期間,英特爾CEO帕特·基辛格公布了下一代AI PC旗艦處理器Lunar Lake的架構(gòu)細(xì)節(jié)。據(jù)介紹,該處理器在圖形和AI處理能力上有較大提升,并且著重提高了輕薄本的高能效計(jì)算性能。Lunar Lake 將降低最高達(dá)40%的SoC功耗和帶來(lái)超過(guò)3倍的AI算力。該處理器于2024年第三季度出貨。sTqesmc
sTqesmc
具體來(lái)看,下一代AI PC旗艦處理器Lunar Lake集成了CPU、GPU、NPU,這些器件總計(jì)帶來(lái)了120TOPS的AI算力——CPU通過(guò)添加向量指令支持AI,可以帶來(lái)5TOPS的算力,內(nèi)置的GPU算力高達(dá)67TOPS,同時(shí)還帶矩陣計(jì)算能力,NPU(神經(jīng)網(wǎng)絡(luò)處理器)帶來(lái)更高的效率,帶來(lái)了最高48TOPS的算力。sTqesmc
AI開(kāi)源深度學(xué)習(xí)工具包
與數(shù)據(jù)中心領(lǐng)域一樣,不僅有算力挑戰(zhàn),還有軟件生態(tài)的挑戰(zhàn)。邊緣側(cè)也面臨著算力和軟件層面的挑戰(zhàn)。英特爾為了實(shí)現(xiàn)在多種硬件平臺(tái)上進(jìn)行優(yōu)化的神經(jīng)網(wǎng)絡(luò)推理,加速AI工作負(fù)載的處理,并縮短開(kāi)發(fā)周期,推出了一個(gè)深度學(xué)習(xí)工具包OpenVINO。sTqesmc
sTqesmc
該工具包采用了一種“一次編寫(xiě),隨處部署”的方法,特別針對(duì)英特爾硬件平臺(tái)進(jìn)行了優(yōu)化,包括CPU、GPU、VPU和FPGA。OpenVINO的支持涵蓋了從模型選擇、優(yōu)化到部署的整個(gè)流程,使得開(kāi)發(fā)人員能夠更高效地利用英特爾硬件加速AI應(yīng)用的開(kāi)發(fā)和部署。sTqesmc
這是一個(gè)開(kāi)源的軟件,不僅支持英特爾的芯片架構(gòu),也支持第三方的芯片架構(gòu),“這是一個(gè)針對(duì)端側(cè)、邊緣側(cè)的AI推理的軟件框架,我們希望能夠適用于各種邊緣應(yīng)用、AI PC,及云端CPU。”最后,楊濤指出,OpenVINO的大概的發(fā)展方向有三個(gè):第一,模型訓(xùn)練;第二,模型優(yōu)化;第三,模型部署。sTqesmc
責(zé)編:Clover.li