本月月初,Imagination Technologies在上海進(jìn)行了一次宣稱是“15年來最重要的GPU IP發(fā)布”。這次發(fā)布的GPU IP新品名為A-Series,沒有沿用早前以數(shù)字為系列代號(hào)的傳統(tǒng),而且似乎還弱化了PowerVR在產(chǎn)品名中的存在……
這次的產(chǎn)品發(fā)布頗令人意外之處在于,實(shí)際上Imagination于2017年才宣布推出最新的GPU架構(gòu)"Furian"——這個(gè)架構(gòu)的正式版本,即PowerVR Series9XT則是到2018年年底才出現(xiàn)的。在Imagination的常規(guī)操作中,某個(gè)彈性架構(gòu)實(shí)際是可以應(yīng)用多年的。比如Rogue架構(gòu)(最著名的產(chǎn)品就是蘋果的A系列SoC)沿用了將近7年時(shí)間,F(xiàn)urian才誕生。2Woesmc
所以A-Series的出現(xiàn),很有Imagination內(nèi)部“革新”的意味,這不僅體現(xiàn)在性能方面相比前代的飆升,以及架構(gòu)層面(A-Series產(chǎn)品的架構(gòu)名稱似乎叫做Albiorix,不過Imagination并沒有在會(huì)上提過)和市面已有GPU競品的很大差異,還體現(xiàn)在Imagination PowerVR產(chǎn)品執(zhí)行副總裁Steve Evans表示明年、后年還會(huì)相繼有B-Series、C-Series這樣的新品問世,而且預(yù)計(jì)每年性能攀升30%——這在現(xiàn)如今的移動(dòng)GPU行業(yè)并不是小數(shù)字,一年一步進(jìn)也不像Imagination往常的風(fēng)格。2Woesmc
拋開私募基金凱橋收購Imagination之類的問題不談,我們期望通過這篇文章,對(duì)A-Series架構(gòu)層面的部分剖析,來理解Imagination現(xiàn)如今和過去究竟發(fā)生了多大的變化,以及嘗試推斷這種變化的原因在哪里。2Woesmc
2Woesmc
首先還是簡單回顧一下這次發(fā)布的新品是什么,以及相比前代和競品,外顯的性能與能效差異如何。按照Evans的說法,A-Series是耗費(fèi)超過2年時(shí)間打磨的——這恰在Furian誕生時(shí)間點(diǎn)前后,或許A-Series的內(nèi)部變革計(jì)劃是從那個(gè)時(shí)間就提上日程的。A-Series GPU IP總共三個(gè)系列,分別是AXE、AXM和AXT,簡單說就是低中高端的差別,這和PowerVR過往產(chǎn)品的定位傳統(tǒng)一致。值得一提的是,其中定位小尺寸、低功耗的AXE系列應(yīng)該是基于前代的Furian架構(gòu)——不過它同樣應(yīng)用了最新的部分技術(shù)。2Woesmc
Evans表示,A-Series核心代表的是迄今為止最快的GPU核心(fastest GPU cores ever created),無論是相比前代產(chǎn)品還是市面上既有的其他競品,且在PowerVR家族內(nèi)是一次超乎尋常的飛躍(exceptional leap)。其中AXT系列“快了2.5倍”,這個(gè)時(shí)代的性能上升2.5倍仍然是個(gè)驚人的數(shù)字。這里的比較,針對(duì)的應(yīng)該是上一代的PowerVR Series 9,但Evans并沒有說是Series 9中的哪個(gè)系列或哪個(gè)產(chǎn)品。2Woesmc
2Woesmc
從Imagination后續(xù)在技術(shù)對(duì)比中的更多解讀來看,2.5倍指的的應(yīng)該是相比更早的Rogue架構(gòu)(Series 9既有采用Furian的型號(hào),也有采用Rogue架構(gòu)的型號(hào))。在更多的性能對(duì)比數(shù)字方面,Evans還提到了ALU單元數(shù)量增加4倍,AI性能提升8倍,功耗則低了60%——通常功耗的降低數(shù)字是指,在達(dá)到與前代相同性能的同時(shí),功耗降低了這么多。2Woesmc
在相對(duì)具體的產(chǎn)品層面,Evans總共列出了四款產(chǎn)品,分別是AXT 64-2048,AXT 32-1024,AXM 8-256,AXE 1-16。前面的字母是對(duì)應(yīng)上述產(chǎn)品系列的,后面的數(shù)字實(shí)際也很容易理解。2Woesmc
比如AXT 32-1024,這里的“32”指的是紋理填充率(texture fill rate)達(dá)到32 GigaPixel/s(實(shí)際上這里的Pixel應(yīng)該是指Texel,即每個(gè)時(shí)鐘周期采樣32個(gè)雙線性過濾texel);1024則指1.0 TeraFLOPs(也就是每個(gè)時(shí)鐘周期1024次FP32 FLOPs);另外,相關(guān)的AI性能則是在這個(gè)數(shù)字的基礎(chǔ)上翻4倍,AXT 32-1024的AI性能就是4 TOPs(INT8推理)。2Woesmc
2Woesmc
這樣一來,其他幾款產(chǎn)品的性能參數(shù)以此類推也就大致很清楚了,比如上圖的AXT 64-2048。AXT 64-2048顯然是這個(gè)家族中性能最彪悍的一款,Evans表示,這款產(chǎn)品“為Imagination開啟了全新的應(yīng)用市場,包括數(shù)據(jù)中心應(yīng)用”;而AXT 32-1024定位于高性能圖形計(jì)算,“可應(yīng)用于未來幾年的高端智能手機(jī)中”。2Woesmc
AXM 8-256用Evans的原話說是一款中端定位的“sweet spot”GPU,這句話應(yīng)該是指其能效比在A-Series家族中可以達(dá)到最佳,應(yīng)用場景包括了汽車、數(shù)字電視、機(jī)頂盒、平板等;AXE 1-16是A-Series家族中最小的一款。2Woesmc
如果我們單看這些數(shù)字,實(shí)際就已經(jīng)是不錯(cuò)的成績了。但沒有量級(jí)概念的話,還是需要對(duì)比一下競品。Evans也在現(xiàn)場對(duì)比了同代競品的實(shí)際性能、功耗、面積,也就是PPA。[!--empirenews.page--]2Woesmc
2Woesmc
2Woesmc
同代比較知名的競品就屬驍龍855的Adreno 640了,另外Evans并沒有具體說對(duì)比的Arm Mali競品是哪個(gè)型號(hào),die shot也看不出來。不過PPT上標(biāo)注了MP12,亦即這是個(gè)12核GPU,市面上比較新、而且符合該特征的產(chǎn)品就是Exynos 9820了,其GPU為Mali G76MP12,所以猜測Evans對(duì)比的這款GPU正是Arm Mali G76。如果將Adreno 640的性能、占地面積視作100%,則“Arm需要額外84%的占地面積,才能達(dá)到相同的性能水平,也就是說功耗必然也更高”,“而Imagination達(dá)到和高通相當(dāng)?shù)男阅埽谛酒娣e和功耗方面都要小得多。”即便是達(dá)到175%的性能水平,占地面積和能耗依然更小。2Woesmc
這個(gè)數(shù)據(jù)當(dāng)然是非常好看的,不過實(shí)際上這種對(duì)比可能并不公平,因?yàn)橐环矫鍱xynos 9820和驍龍855在制造工藝上就有差別,而且G76也并非Arm Mali最新的GPU IP。今年年中,Arm就在Computex大會(huì)上宣布了Mali G77的問世。推測A-Series的實(shí)際GPU芯片產(chǎn)品至少也要2020年才能面市,所以A-Series首波真正要應(yīng)戰(zhàn)的應(yīng)該是Arm Mali G77,以及高通剛剛發(fā)布的Adreno 650。2Woesmc
好在Mali G77在宣傳中提到性能密度(performance density)相比G76也就提升為30%;而高通則宣稱Adreno 650性能提升25%;就Imagination公布的數(shù)字來看,A-Series即便與這兩者同場競技也完全有充沛的余力一戰(zhàn),而且基本是無壓力的狀態(tài),主體上還是要看Imagination令I(lǐng)P實(shí)體化的速度和表現(xiàn)。2Woesmc
2Woesmc
Imagination PowerVR產(chǎn)品執(zhí)行副總裁Steve Evans2Woesmc
那么達(dá)成這種性能暴漲的原因是什么?Imagination PowerVR產(chǎn)品管理和技術(shù)營銷高級(jí)總監(jiān)Kristof Beets在接受我們采訪時(shí),首先提到的就是“完全重構(gòu)的ALU(算術(shù)邏輯單元),我們對(duì)其進(jìn)行了大量精簡,現(xiàn)在其內(nèi)部就是相當(dāng)簡單、干凈的MAD管線(MAD是指乘法累加單元)”,執(zhí)行單元從過去的2個(gè)MAD單元,變?yōu)楝F(xiàn)在的1個(gè)MAD(而且還拋棄了Furian架構(gòu)中的MUL乘法單元),也就是說每個(gè)時(shí)鐘周期單條管線的執(zhí)行能力實(shí)際是下降的——這也是ALU拓寬的重要前提。2Woesmc
2Woesmc
A-Series在架構(gòu)上也因此有了“128條ALU管線同時(shí)并行”,也就是128-wide ALU。128線程寬度是什么概念呢?早前的Rogue架構(gòu)采用的是32線程寬度wavefront(wavefront是GPU代碼的最小可執(zhí)行單元,SIMD過程中數(shù)據(jù)處理的最小單元,在所有線程中同時(shí)執(zhí)行同一指令,Nvidia稱其為warp),不過單個(gè)SIMD僅支持16-wide;Furian架構(gòu)則真正加寬到了32-wide,即單個(gè)時(shí)鐘周期執(zhí)行32-wide wavefront。2Woesmc
作為對(duì)比,Arm Mali G77的SIMD寬度是16-wide,這還是相較G76的一倍拓寬。所以A-Series單就ALU結(jié)構(gòu)來看,顯然是獨(dú)占鰲頭的。這也表明Imagination真正開始從指令級(jí)并行徹底轉(zhuǎn)往線程級(jí)并行(TLP),實(shí)現(xiàn)ALU的更高利用率。這么做理論上能夠極大提升性能密度。Beets補(bǔ)充說由于管線精簡,“compiler也大幅簡化了,它只需要在管線中找乘法累加實(shí)現(xiàn)100%運(yùn)算即可,架構(gòu)中也更容易實(shí)現(xiàn)高利用率,是設(shè)計(jì)中實(shí)現(xiàn)性能密度和能效提升的重要組成部分。”2Woesmc
不過有這么寬的ALU,如何改進(jìn)整個(gè)架構(gòu)的前端,去喂飽這么寬的執(zhí)行單元就成為一個(gè)問題了。前端調(diào)度效率低的話,這么寬的ALU管線只會(huì)出現(xiàn)大量閑置,以及效率的下降。2Woesmc
針對(duì)這部分,Beets在演講著重介紹了data master(數(shù)據(jù)管理)——各種不同的data master將工作負(fù)載分配到GPU中去,比如有Geometry Data Master負(fù)責(zé)幾何數(shù)據(jù)管理;還有2D Data Master、3D Data Master,以及Compute Data Master(負(fù)責(zé)通用型計(jì)算數(shù)據(jù)管理)。這些不同的data master基于內(nèi)存的命令隊(duì)列中讀取數(shù)據(jù),驅(qū)動(dòng)任務(wù)負(fù)載進(jìn)入GPU。[!--empirenews.page--]2Woesmc
2Woesmc
比如3D Data Master,還執(zhí)行一些其他的固定功能預(yù)處理,包括HSR(隱面消除,是GPU的核心技術(shù)之一)、針對(duì)shader的工作負(fù)載生成。隨后進(jìn)入到“Triangle Task Merging”(三角形合并)——Beets表示這是一個(gè)關(guān)鍵模塊;PDS(Programmable Data Sequencer,可編程數(shù)據(jù)定序器)再對(duì)資源進(jìn)行分配管理,為工作負(fù)載和管理任務(wù)預(yù)留寄存器空間——這個(gè)組件能夠針對(duì)未來的線程從cache中預(yù)取數(shù)據(jù)。2Woesmc
接下來是指令scheduler(調(diào)度器)和decoder(解碼器),分發(fā)解碼后才正式進(jìn)入到執(zhí)行單元。然后就是128-wide的ALU了,這里值得一提的是,在主ALU管線之外還有一個(gè)副ALU線路方案(Secondary ALU),如上圖所示。這部分管線僅有主ALU管線1/4的寬度,每周期并行執(zhí)行32個(gè)線程,不過有一些更為復(fù)雜的指令,執(zhí)行任務(wù)包括各種操作與迭代、數(shù)據(jù)轉(zhuǎn)換、超越指令等。Beets表示,在更低的速率上工作,是基于對(duì)真實(shí)應(yīng)用場景各種工作負(fù)載所做的權(quán)衡。“針對(duì)ALU結(jié)構(gòu),我們分析了大量應(yīng)用,去理解其中的平衡點(diǎn),實(shí)現(xiàn)最高的效率。”2Woesmc
以上是對(duì)單個(gè)ALU簇的大致理解,也是A-Series獲得性能暴漲的主要原因。我們往更高層級(jí)看一看其架構(gòu)變化。在多年前的Rogue架構(gòu)分享中,Imagination曾有一度將每個(gè)USC(Unified Shading Cluster)算作一個(gè)核心。到A-Series看來,大概已經(jīng)不能這么算了,因?yàn)槠湫阅軘U(kuò)展方式比較“模塊化”。2Woesmc
前文談到的這樣一個(gè)主體128-wide ALU管線實(shí)際就是一個(gè)USC。這樣一個(gè)USC,加上周邊的固定功能單元,比如TPU(紋理處理單元)、HSR(隱面消除)、各種針對(duì)不同數(shù)據(jù)的管線(如針對(duì)幾何數(shù)據(jù)處理、光柵處理、混合處理等),以及可實(shí)現(xiàn)更高層級(jí)共享的cache,也就共同組成了一個(gè)真正意義上的“核心”,只不過這個(gè)核心比較大型。下面這張圖就是一個(gè)完整的核心,在A-Series的彈性架構(gòu)中構(gòu)成真正的、完整的一個(gè)IP方案。2Woesmc
2Woesmc
在AXM 8-256方案中,這樣的一個(gè)GPU“核心”內(nèi)部有一個(gè)ALU簇(即一個(gè)USC),一個(gè)TPU紋理處理單元,以及其他專用單元。而在更高配置的AXT 16-512產(chǎn)品中,一個(gè)“核心”則包含了兩個(gè)128-wide的ALU簇(達(dá)成每個(gè)時(shí)鐘周期512次浮點(diǎn)運(yùn)算),兩個(gè)TPU(達(dá)成每個(gè)時(shí)鐘周期采樣16個(gè)雙線性過濾texel)。2Woesmc
作為對(duì)比,Mali G77標(biāo)稱每個(gè)時(shí)鐘周期 64 FLOPs、2 texels,也就是說一個(gè)AXM 8-256核心就相當(dāng)于8個(gè)Mali G77核心的性能水平。這其實(shí)也表明了Mali仍在走GPU的小核心、多核心路線,而Imagination在走寬核心路線。2Woesmc
2Woesmc
而如果是性能更高的AXT 32-1024,就是將這樣一個(gè)GPU核心“復(fù)制”一份,實(shí)現(xiàn)性能翻番;那么達(dá)到最高配的AXT 64-2048實(shí)際上就是四個(gè)這樣的核心。與此同時(shí),針對(duì)各種單元的調(diào)度和監(jiān)控,有一個(gè)小型的固件處理器(firmware processor),這一點(diǎn)將在后文中進(jìn)一步提及。2Woesmc
Beets說這樣的彈性架構(gòu),可以方便地選擇性能提升,或者通過減少并行管線、紋理單元的方式,實(shí)現(xiàn)符合自身應(yīng)用所需的配置。2Woesmc
2Woesmc
尤為值得一提的是,他特別列舉了各種操作類型在流經(jīng)GPU時(shí)的全套邏輯。比如上面這張圖就是幾何圖形處理過程(geometry processing flow)的例子,綠色模塊表示的是需要處理這些數(shù)據(jù)和操作所涉及的模塊,箭頭則表示整個(gè)流程方向:GPU獲取到內(nèi)存中的命令結(jié)構(gòu),Geometry Data Master首先檢查內(nèi)存中的命令隊(duì)列,獲取命令并將工作負(fù)載推到GPU內(nèi)部;隨后讀取幾何圖形,各種各樣的三角形就會(huì)填充到cache中,再進(jìn)入幾何圖形管線(geometry pipeline),之后流經(jīng)ALU,返回的結(jié)果還需要進(jìn)入到Tiling Engine(因?yàn)镮magination的GPU IP是典型的Tile-based Rendering基于塊渲染的架構(gòu)),將這些三角形轉(zhuǎn)換至應(yīng)用于屏幕不同的tile區(qū)域,最終輸出到內(nèi)存。[!--empirenews.page--]2Woesmc
2Woesmc
不同類型的操作,整個(gè)流程及涉及的模塊會(huì)有差別,比如像素處理對(duì)應(yīng)3D Data Master,后續(xù)要做隱面消除、計(jì)算像素渲染等;還有比如一些內(nèi)部操作(housekeeping operations)、2D操作等等。上圖是像素處理流程(Pixel Processing Flow),以紫色示意。2Woesmc
以上提到的這些各類別操作,可以通過一種名為“HyperLane”的技術(shù)做硬件級(jí)并行,這也是Imagination這次隨同A-Series GPU IP發(fā)布的一種技術(shù)。這種技術(shù)對(duì)內(nèi)存做完全隔離,多任務(wù)同時(shí)提交給GPU,實(shí)現(xiàn)GPU的多任務(wù)執(zhí)行,或者說GPU硬件的“全棧并發(fā)”。典型的比如說圖形計(jì)算和AI計(jì)算同時(shí)進(jìn)行。2Woesmc
2Woesmc
實(shí)際針對(duì)前文提到的各種不同類型的操作,HyperLane可將GPU的所有任務(wù)負(fù)載切分成(subdivide)幾份,這其中不僅包括了物理層面的隔離切分(模塊層面的并發(fā)),還包括按照時(shí)間切分做負(fù)載資源切換。不同的Data Master可以同時(shí)保持活躍狀態(tài),在整個(gè)GPU硬件資源之間進(jìn)行動(dòng)態(tài)的工作執(zhí)行,每個(gè)時(shí)鐘周期不同的模塊可以執(zhí)行不同的任務(wù),ALU可以做Compute操作、像素操作、幾何圖形操作、2D操作等。2Woesmc
2Woesmc
多種顏色表示HyperLane激活的多種操作正在同時(shí)進(jìn)行2Woesmc
另外,HyperLane還有優(yōu)先級(jí)機(jī)制,Evans說:“比如有客戶希望,在同時(shí)執(zhí)行任務(wù)的時(shí)候,確保圖形計(jì)算性能不會(huì)受到AI工作負(fù)載的影響,那么就可以調(diào)高圖形計(jì)算優(yōu)先級(jí),即便芯片正在處理復(fù)雜的AI任務(wù),圖形性能也能被保護(hù)起來。”這部分操作需要借用到這次IP架構(gòu)中的固件處理器(即前文提到的firmware processor)。2Woesmc
HyperLane技術(shù)包含了動(dòng)態(tài)的8路切分(eight way split/multi-tasking),也就是至多8條hyperlane。“所有工作同時(shí)進(jìn)行,在硬件層面完整隔離和實(shí)現(xiàn)虛擬化,硬件級(jí)別的高級(jí)調(diào)度機(jī)制實(shí)現(xiàn)靈活性。”2Woesmc
HyperLane的一個(gè)副產(chǎn)品是內(nèi)容保護(hù),每條hyperlane都是隔離的,彼此之間的內(nèi)容就能實(shí)現(xiàn)隔離。Evans說:“比如有個(gè)流視頻應(yīng)用,帶DRM,那么內(nèi)容在整個(gè)GPU中都是完全隔離起來的,在多任務(wù)環(huán)境中受到保護(hù)。”這也算是種安全防護(hù)方案了。2Woesmc
2Woesmc
Imagination PowerVR產(chǎn)品管理和技術(shù)營銷高級(jí)總監(jiān)Kristof Beets2Woesmc
我們認(rèn)為,這次GPU IP改進(jìn)中的一個(gè)亮點(diǎn)應(yīng)該就是前文多次提到的固件處理器(firmware processor)了(似乎還是RISC-V架構(gòu))。即GPU內(nèi)部有個(gè)小型的微控制器,它位于全局最高層級(jí),完全可編程,以實(shí)現(xiàn)GPU整體任務(wù)執(zhí)行的靈活性。“相關(guān)數(shù)據(jù)流、執(zhí)行、優(yōu)先級(jí)等各種GPU內(nèi)部的活動(dòng),任何事件、任何決策,都通過固件處理器來控制和決定。這樣一來就大大減輕了CPU的工作,而且還更有彈性。”2Woesmc
2Woesmc
一般來說,GPU的這部分工作是由CPU驅(qū)動(dòng)執(zhí)行的,而Imagination則把這個(gè)活兒攬到了自己手里。這項(xiàng)改進(jìn)似乎在Imagination的宣傳中成效還挺大。典型的就是它能夠應(yīng)用于GPU更好的DVFS調(diào)節(jié)(動(dòng)態(tài)電壓平率調(diào)整)——這項(xiàng)工作原本是由內(nèi)核GPU驅(qū)動(dòng)負(fù)責(zé)的(所以以后驅(qū)動(dòng)更新都是寫入到這枚處理器固件中?)。Beets提到:“固件處理器能夠全面感知GPU核心中發(fā)生的一切,這對(duì)于調(diào)度機(jī)制很有幫助,它甚至可以用來幫助開發(fā)者理解,如何獲得GPU的更多性能。”2Woesmc
“如果我們能夠了解GPU的工作調(diào)度、優(yōu)先級(jí),查看所有的參數(shù),那么就能夠知道何時(shí)需要更高的頻率,或者可以在某個(gè)時(shí)間點(diǎn)降低頻率。為此,我們的固件中有大量直接的GPIO信號(hào)回寫,針對(duì)功耗控制做同步。GPU直接寫回給系統(tǒng)到底發(fā)生了什么,這比CPU快多了。這樣一來就能實(shí)現(xiàn)更出色的DVFS算法,可了解工作負(fù)載甚至預(yù)測所需的頻率。”[!--empirenews.page--]2Woesmc
這枚小型處理器,還有一些特別的工作場景,比如說“如果GPU執(zhí)行出現(xiàn)問題,我們可以通過固件記錄有關(guān)GPU的信息,快速發(fā)現(xiàn)問題在哪里??刂偏@取信息,寫回到內(nèi)存,給予我們在GPU真實(shí)應(yīng)用中debug的能力,而不是通過仿真去進(jìn)行。這是分析問題非常出色的工具,如果應(yīng)用在汽車系統(tǒng)中,還能進(jìn)行錯(cuò)誤分析。”2Woesmc
2Woesmc
除此之外,A-Series在架構(gòu)層面還有一些比較重要的變化,體現(xiàn)在紋理單元上(Texturing Unit),相關(guān)于將圖像放到屏幕上的。比如說L0 cache的位置發(fā)生了變化,新架構(gòu)的位置是在處理與線性過濾階段之間。原本Rogue架構(gòu)中,包括紋理解壓(texture decompression)、gamma、YUV轉(zhuǎn)換等操作都是在L0 cache之后進(jìn)行的,這樣一來某些相同的任務(wù)會(huì)被多次重復(fù)執(zhí)行處理。而L0 cache位置調(diào)整后,可儲(chǔ)存處理階段時(shí)候的輸出,數(shù)據(jù)可復(fù)用——多項(xiàng)異性過濾的時(shí)候,texel不需要再重復(fù)采樣。2Woesmc
還有針對(duì)一些陳年舊算法的改進(jìn),比如說各項(xiàng)異性過濾(anisotropic filtering)以前一直是基于DirectX的——早年Imagination有參與過桌面GPU市場混戰(zhàn),當(dāng)時(shí)這項(xiàng)特性自然是緊跟微軟的參考算法的。所以這次“我們徹底重構(gòu)了紋理采樣方式”,“現(xiàn)在更加不依賴于角度(more angel-independent),采樣更少但實(shí)際(各項(xiàng)異性過濾)質(zhì)量更高。”這種算法的提升,實(shí)質(zhì)也是減少帶寬、增加能效的重要方案。”2Woesmc
此外,Rogue架構(gòu)在合并(blending)操作上用的是shader。更早之前這種操作會(huì)有個(gè)專用單元去執(zhí)行,Beets說Rogue采用軟件的方式來執(zhí)行合并操作雖然具備了很大彈性,而且節(jié)省空間,但這樣一來系統(tǒng)會(huì)復(fù)雜化。“由于合并操作(shading a blending)越來越復(fù)雜,我們還是需要額外的指令來更高效地執(zhí)行合并操作,所以A-Series又回歸了專用合并單元。這樣可以釋放shader周期,減少數(shù)據(jù)搬運(yùn)量。”2Woesmc
2Woesmc
最后值得一提的是AI Synergy,實(shí)際也是本次Imagination技術(shù)發(fā)布的重點(diǎn),不過它的實(shí)質(zhì)是讓A-Series GPU與Imagination的神經(jīng)網(wǎng)絡(luò)專核NX NNA產(chǎn)品做協(xié)同的,在GPU和AI專核之間實(shí)現(xiàn)AI負(fù)載的共享——GPU可以負(fù)責(zé)模型更多可編程層面的工作,NNA則針對(duì)全連接層處理的固定單元做任務(wù)處理。這部分不是我們針對(duì)圖形計(jì)算要探討的重點(diǎn)。2Woesmc
實(shí)際上,還有一些特性是Imagination并沒有著墨于A-Series的,比如當(dāng)代GPU比較常見提升帶寬效率的framebuffer圖像壓縮技術(shù)。Imagination的壓縮方案名為PVRICv4,不過這套方案的最新版本實(shí)際已經(jīng)在Series 9產(chǎn)品中得以應(yīng)用。針對(duì)有損與無損壓縮有單獨(dú)的管線。Beets這次說Imagination持續(xù)加強(qiáng)了其HDR壓縮率。2Woesmc
就這些技術(shù)來看,的確可以認(rèn)為是Imagination近15年來“最重要的發(fā)布”,它已經(jīng)充分凸顯了Imagination做策略轉(zhuǎn)變的決心,而且至少就Imagination自己的紙面數(shù)據(jù)來看,在能力上是優(yōu)于競爭對(duì)手的。不過這并不能表明Imagination未來就可以在GPU市場上輕易獲勝。2Woesmc
開發(fā)者生態(tài)此時(shí)變得極其重要,究竟有多少客戶會(huì)采用A-Series GPU IP?這和生態(tài)的成熟度、市場價(jià)值有很大關(guān)聯(lián)。2Woesmc
針對(duì)開發(fā)者軟件部分,Imagination也下了一番功夫,包括跨操作系統(tǒng),對(duì)各種行業(yè)標(biāo)準(zhǔn)API的支持,對(duì)各種游戲引擎的完整支持。2Woesmc
2Woesmc
面向開發(fā)者的有一項(xiàng)特性值得一提,即如上圖所示,Imagination為開發(fā)者構(gòu)建了“heatmap”:“很多開發(fā)者都在苦苦進(jìn)行性能優(yōu)化,尤其是圖形計(jì)算方面?;蛟S性能計(jì)數(shù)器(performance counter)會(huì)告訴你ALU限制、紋理限制,但對(duì)你的幫助其實(shí)真的不大,所以我們增加了一個(gè)新特性,生成圖形計(jì)算畫面的熱圖(heatmap),它會(huì)告訴你GPU在屏幕上的某個(gè)tile上面花了多長時(shí)間做渲染。我們的工具要做到這一點(diǎn)很容易。開發(fā)者能夠很方便地搞清楚某些tile的渲染開銷很大,花了最多的shader周期、最多的帶寬等等,這樣一來就能真正幫助開發(fā)者獲得性能上的優(yōu)化。”這其中的實(shí)現(xiàn)似乎與硬件上的固件處理器也有關(guān)系。[!--empirenews.page--]2Woesmc
2Woesmc
Evans勾勒了來年的產(chǎn)品路線圖,2020年是B-Series,2021年C-Series,包括2022年的D-Series,要比今年的A-Series性能提升90%。光線追蹤架構(gòu)也即將到來,“我們也在開發(fā)新領(lǐng)域的圖形計(jì)算方案,圍繞光線追蹤(ray tracing),移動(dòng)領(lǐng)域的光線追蹤架構(gòu),作為技術(shù)做授權(quán)方案,未來我們很快在GPU中引入光線追蹤。”2Woesmc
Imagination當(dāng)前面臨的局勢并不算很好,尤其是在主流手機(jī)SoC制造商普遍傾向于采用自研GPU IP的情況下。Furian架構(gòu)在推出后就沒有在市場上激起火花,這可能是A-Series在較快的時(shí)間內(nèi)出現(xiàn)的原因。至少A-Series的確比過去更理想,也是Imagination很重要的轉(zhuǎn)型之作。2Woesmc
我們在活動(dòng)現(xiàn)場看到了Imagination的一些合作伙伴前來站臺(tái),包括全志科技、睿悅信息、紫光展銳等,看起來Imagination現(xiàn)如今的重要市場已經(jīng)放到了中國。尤其在獲得中資背景以后,其中的合作自然水到渠成,也是在當(dāng)前國際環(huán)境下一個(gè)雙贏的局面。即便如今的手機(jī)市場已經(jīng)不是當(dāng)年Imagination叱咤風(fēng)云的時(shí)代了,行業(yè)如今的發(fā)展重心本來就在偏移,面向更多應(yīng)用領(lǐng)域的GPU、AI產(chǎn)品卻也充滿機(jī)遇。2Woesmc
點(diǎn)擊欣賞更多現(xiàn)場及展品圖集2Woesmc
微信掃一掃,一鍵轉(zhuǎn)發(fā)
關(guān)注“國際電子商情” 微信公眾號(hào)
國際電子商情24日訊 被看作“晴雨表”的模擬芯片巨頭德州儀器 (Texas Instruments Inc.) 周二公布的第二季度利潤超過了分析師的預(yù)期,這表明庫存過剩的局面即將結(jié)束,也讓投資者確信模擬芯片市場需求正在復(fù)蘇,這對(duì)整個(gè)行業(yè)來說是個(gè)好兆頭。
個(gè)人電腦市場連續(xù)三個(gè)季度實(shí)現(xiàn)同比增長。
國際電子商情18日訊 據(jù)SEMI旗下電子系統(tǒng)設(shè)計(jì)(ESD)聯(lián)盟在其最新的電子設(shè)計(jì)市場數(shù)據(jù) (EDMD)報(bào)告指出,2024年一季度電子系統(tǒng)設(shè)計(jì)(主要包括EDA及半導(dǎo)體IP)市場營收45.216 億美元,相比去年同期的39.511 億美元增長了 14.4%。
國際電子商情18日訊 美國商務(wù)部日前與全球第三大半導(dǎo)體硅晶圓供應(yīng)商環(huán)球晶圓公司達(dá)成初步協(xié)議,將根據(jù)《芯片法案》提供高達(dá)4億美元的直接資助,以幫助關(guān)鍵半導(dǎo)體晶圓的生產(chǎn)。
IT桔子最新數(shù)據(jù)顯示,2024年上半年,中國集成電路領(lǐng)域的投資事件為288起,融資規(guī)模為534.56億人民幣。與最近幾年的數(shù)據(jù)相比,中國半導(dǎo)體領(lǐng)域的投融資的又有怎樣的變化?本文從全球視角出發(fā),分析了中國半導(dǎo)體領(lǐng)域的投融資情況。
存儲(chǔ)器投資預(yù)計(jì)將從本財(cái)年下半年開始復(fù)蘇。
國際電子商情16日訊 韓國科學(xué)技術(shù)信息通信部日前宣布,2025年國家研發(fā)項(xiàng)目預(yù)算案在第九次國家科學(xué)技術(shù)咨詢會(huì)議上獲得通過,總額為24.8萬億韓元(約179.5億美元),比2024年的21.9萬億韓元增加了13.2%。
2020年10月,英偉達(dá)將基于Mellanox的智能網(wǎng)卡(SmartNIC)方案命名為數(shù)據(jù)處理單元(Data?Processing?Units,?DPU),并將CPU、GPU、DPU稱之為組成“未來計(jì)算的三大支柱”。
國際電子商情15日訊 AI 等新應(yīng)用爆發(fā),讓先進(jìn)封裝再度成為熱門話題。
國際電子商情15日訊 數(shù)據(jù)顯示,今年上半年韓國信息及通信技術(shù)(ICT)領(lǐng)域的出口額創(chuàng)下歷年同期第二高紀(jì)錄。其中,存儲(chǔ)芯片成為韓國半導(dǎo)體出口增長的主要驅(qū)動(dòng)力。
泰國正面臨著工廠倒閉潮的嚴(yán)峻挑戰(zhàn)。
這一戰(zhàn)略舉措不僅有助于AMD在AI技術(shù)領(lǐng)域追趕英偉達(dá),也為中國市場帶來了更多的機(jī)遇和挑戰(zhàn)。
在各大半導(dǎo)體廠商搶攻AI商機(jī)之際,芯片產(chǎn)能卻趕不上需求。
TrendForce集邦咨詢預(yù)估AI服務(wù)器第2季出貨量將季增近20%,全年出貨量上修至167萬臺(tái),年增率達(dá)41.5%。
根據(jù)TrendForce集邦咨詢最新存儲(chǔ)器產(chǎn)業(yè)分析報(bào)告,受惠于位元需求成長、供需結(jié)構(gòu)改善拉升價(jià)格,加上HBM(高帶寬內(nèi)
根據(jù)TrendForce集邦咨詢最新存儲(chǔ)器產(chǎn)業(yè)分析報(bào)告,受惠于位元需求成長、供需結(jié)構(gòu)改善拉升價(jià)格,加上HBM(高帶寬內(nèi)
近日,中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所宋志棠、雷宇研究團(tuán)隊(duì),在三維相變存儲(chǔ)器(3D PCM)亞閾值讀取電路、高
7月21日,TCL電子公布2024年上半年全球出貨量數(shù)據(jù),TCL電子表示,得益于公司在全球市場的積極開拓和品牌影響力的
據(jù)美國趣味科學(xué)網(wǎng)站16日?qǐng)?bào)道,來自美國麻省理工學(xué)院、美國陸軍作戰(zhàn)能力發(fā)展司令部(DEVCOM)陸軍研究實(shí)驗(yàn)室和加拿
全球LED市場復(fù)蘇,車用照明與顯示、照明、LED顯示屏及不可見光LED等市場需求有機(jī)會(huì)逐步回溫,億光下半年車用及
三星最新推出的Galaxy Watch 7,繼續(xù)重新定義可穿戴技術(shù)的極限。這款最新型號(hào)承襲了其前身產(chǎn)品的成功之處,同時(shí)
2024年第二季度,在印度大選、季節(jié)性需求低迷以及部分地區(qū)極端天氣等各種因素的影響下,印度智能手機(jī)市場微增1%
根據(jù)TechInsights無線智能手機(jī)戰(zhàn)略(WSS)的最新研究,2024年Q1,拉丁美洲智能手機(jī)出貨量強(qiáng)勁增長,同比增長21%。
Chiplet的出現(xiàn)標(biāo)志著半導(dǎo)體設(shè)計(jì)和生產(chǎn)領(lǐng)域正在經(jīng)歷一場深刻的變革,尤其在設(shè)計(jì)成本持續(xù)攀升的背景下。
7月25日,由全球領(lǐng)先的專業(yè)電子機(jī)構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
“芯”聚正當(dāng)時(shí)!第二十一屆中國國際半導(dǎo)體博覽會(huì)(IC?CHINA?2024)正式定檔,將于2024年11月18-20日在北京·國家
7月25日,由全球領(lǐng)先的專業(yè)電子機(jī)構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
2024年7月17日-19日,國內(nèi)專業(yè)的電子元器件混合分銷商凱新達(dá)科技(Kaxindakeji)應(yīng)邀參加2024年中國(西部)電子信息
在7月12日下午的“芯片分銷及供應(yīng)鏈管理研討會(huì)”分論壇上,芯片分銷及供應(yīng)鏈專家共聚一堂,共謀行業(yè)發(fā)展大計(jì)。
7月8日-10日,2024慕尼黑上海電子展(elec-tronica China)于上海新國際博覽中心盛大開展,凱新達(dá)科技被邀重磅亮
2024年7月8日到10日 ,浙豪半導(dǎo)體(杭州)有限公司作為小華半導(dǎo)體的優(yōu)秀合作伙伴,在2024慕尼黑上海電子展上展出了
7月25日,由全球領(lǐng)先的專業(yè)電子機(jī)構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
近日,2024?Matter?中國區(qū)開發(fā)者大會(huì)在廣州隆重召開。
7月25日,由全球領(lǐng)先的專業(yè)電子機(jī)構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
7月13日,以“共筑先進(jìn)封裝新生態(tài),引領(lǐng)路徑創(chuàng)新大發(fā)展”為主題的第十六屆集成電路封測產(chǎn)業(yè)鏈創(chuàng)新發(fā)展論壇(CIPA
新任副總裁將推動(dòng)亞太地區(qū)的增長和創(chuàng)新。
點(diǎn)擊查看更多
北京科能廣告有限公司深圳分公司 版權(quán)所有
分享到微信
分享到微博
分享到QQ空間
推薦使用瀏覽器內(nèi)置分享
分享至朋友圈