看好深度學(xué)習(xí)加速器市場(chǎng)預(yù)計(jì)將達(dá)到250億美元的龐大商機(jī),資料中心正積極為多款晶片展開(kāi)實(shí)驗(yàn)室測(cè)試,預(yù)計(jì)將在明年部署其中的一些晶片,并可能針對(duì)不同的工作負(fù)載挑選多款加速器。6zUesmc
目前為止,包括Graphcore、Habana、ThinCI和Wave Computing等50家供應(yīng)商的AI晶片都在其客戶實(shí)驗(yàn)室中進(jìn)行測(cè)試。在日前于美國(guó)加州舉行的人工智慧硬體高峰會(huì)(AI Hardware Summit)上,來(lái)自這兩大陣營(yíng)——晶片供應(yīng)商及其資料中心客戶的代表們均表達(dá)了各自的立場(chǎng)。6zUesmc
微軟(Microsoft) Azure部門(mén)的杰出晶片工程師Marc Tremblay指出,一個(gè)逐漸明朗的問(wèn)題是「沒(méi)有所謂的通用編譯器——這些晶片架構(gòu)各不相同」。Marc Tremblay的部門(mén)負(fù)責(zé)管理超過(guò)1百萬(wàn)臺(tái)的伺服器。6zUesmc
微軟勾勒資料中心AI晶片版圖
該資料中心巨擘正在開(kāi)發(fā)稱為L(zhǎng)otus的自家執(zhí)行環(huán)境,可將人工智慧(AI)圖形映射至硬體語(yǔ)言。Facebook上周也推出一款通用的深度學(xué)習(xí)編譯器Glow,以支援其生態(tài)伙伴策略。6zUesmc
資料中心渴望能在AI性能方面實(shí)現(xiàn)重大飛躍進(jìn)展,超越被譽(yù)為當(dāng)今「訓(xùn)練加速器之王」(the king of training accelerators)的輝達(dá)(Nvidia)運(yùn)算架構(gòu)Volta。Tremblay在發(fā)表專(zhuān)題演說(shuō)時(shí)提到,「有些訓(xùn)練任務(wù)在GPU上執(zhí)行需要22天的時(shí)間,甚至還有超過(guò)2個(gè)月時(shí)間的,但我們希望盡快就會(huì)有答案?!?span style="display:none">6zUesmc
語(yǔ)音辨識(shí)應(yīng)用程式(App)大約使用4,800萬(wàn)個(gè)參數(shù)。研究人員正致力于研究神經(jīng)網(wǎng)路;這些神經(jīng)網(wǎng)路使用非對(duì)稱連接產(chǎn)生自己的模型,進(jìn)一步將運(yùn)算需求提升到新的層次。6zUesmc
Tremblay說(shuō):「我們需要10-50倍的頻寬,才足以支援更多深?yuàn)W的神經(jīng)網(wǎng)路出現(xiàn)?!?。6zUesmc
針對(duì)16晶片的系統(tǒng),當(dāng)今的GPU價(jià)格高達(dá)40萬(wàn)美元且功耗相當(dāng)高,即使是交換器晶片也需要散熱片。他說(shuō),在晶片叢集上進(jìn)行線性擴(kuò)展「有時(shí)需要進(jìn)行一些工程師不想做的任務(wù)?!?span style="display:none">6zUesmc
目前,微軟采用V100和上一代GPU,并密切「關(guān)注」Nvidia上周發(fā)布的T4晶片。Tremblay指出,它看起來(lái)可望用于同時(shí)執(zhí)行多個(gè)神經(jīng)網(wǎng)路。6zUesmc
此外,微軟以及其他資料中心巨擘都在其x86 CPU上執(zhí)行多種深度學(xué)習(xí)任務(wù)?!笇?duì)我們來(lái)說(shuō),它通常是免費(fèi)的,因?yàn)閤86晶片并非一直在執(zhí)行中?!顾赋?,軟體最佳化——例如英特爾(Intel) Cascade Lake中的新AI指令,將有助于推動(dòng)多年的進(jìn)展。6zUesmc
未來(lái),資料中心可能會(huì)采用多個(gè)加速器,讓每個(gè)加速器分別映射到最適合的特定工作負(fù)載。Tremblay簡(jiǎn)介了各種不同的語(yǔ)音、視覺(jué)、語(yǔ)言、搜尋和其他AI App,每一個(gè)App都各自具有延遲和吞吐量要求。6zUesmc
6zUesmc
微軟杰出晶片工程師Marc Tremblay介紹AI晶片發(fā)展現(xiàn)況(來(lái)源:Microsoft)6zUesmc
有些App使用多達(dá)20種類(lèi)型的神經(jīng)網(wǎng)路,使得跨不同神經(jīng)網(wǎng)路模型的靈活性成為必備要求。范圍甚至包括對(duì)延遲敏感的Bing搜尋采用單個(gè)批次處理,而為其他App采用超過(guò)100個(gè)批次處理。因此,Tremblay為其測(cè)試的晶片分配了一個(gè)穩(wěn)定的數(shù)字作為其靈活性的衡量標(biāo)準(zhǔn)。6zUesmc
他說(shuō):「新創(chuàng)公司先忽略安全和虛擬化等問(wèn)題。他們并不需要從一開(kāi)始就準(zhǔn)備齊全,但最終我們都必須著手以成熟的CPU和GPU實(shí)現(xiàn)各種功能?!?span style="display:none">6zUesmc
他總結(jié)道,關(guān)于資料中心AI的好消息是「我們還有很長(zhǎng)的路要走,但如今的進(jìn)展令人難以置信......許多創(chuàng)新不斷涌現(xiàn),AI的未來(lái)前景光明?!?。6zUesmc
Wave Computing瞄準(zhǔn)資料流系統(tǒng)
新創(chuàng)公司W(wǎng)ave Computing在會(huì)中介紹其資料流(dataflow)架構(gòu)細(xì)節(jié)。如同其競(jìng)爭(zhēng)對(duì)手Cerebras一樣,Wave將會(huì)銷(xiāo)售完整系統(tǒng),因?yàn)橐_(dá)到性能提升的目標(biāo)需要的進(jìn)展并不只是來(lái)自處理器。6zUesmc
具體來(lái)說(shuō),Wave目前的16nm處理器使用HMC記憶體上的15GByte/s埠,連接板上的4個(gè)晶片和系統(tǒng)上的4塊板子。記憶體及其互連是透過(guò)其處理器叢集串流圖形的關(guān)鍵,有助于避免處理器透過(guò)相對(duì)較窄的PCI Express匯流排饋入延遲。6zUesmc
Wave選擇HMC的部份原因出于權(quán)宜之計(jì)。該新創(chuàng)公司與HMC供應(yīng)商美光(Micron)建立了策略聯(lián)盟,但對(duì)于一家規(guī)模相對(duì)較小的新創(chuàng)公司而言,競(jìng)爭(zhēng)的HBM記憶體似乎過(guò)于復(fù)雜且風(fēng)險(xiǎn)高。6zUesmc
目前在金融、隨選視訊和制造業(yè)等市場(chǎng)約有6家公司正在測(cè)試用于其IT部門(mén)的部份機(jī)架。為了服務(wù)像微軟等大型資料中心,Wave需要一個(gè)全機(jī)架的系統(tǒng),該系統(tǒng)將會(huì)采用基于HBM的下一代7nm處理器。6zUesmc
6zUesmc
Wave的首款系統(tǒng)使用HMC連接4個(gè)四路處理器板(來(lái)源:Wave Computing)6zUesmc
針對(duì)其關(guān)鍵的互連技術(shù),該新創(chuàng)公司仍在研究如何從序列HMC轉(zhuǎn)換至平行的HBM記憶體。雖然HMC支援多個(gè)埠,但HBM通常配置一個(gè)執(zhí)行高達(dá)307Gbytes/s的快速埠——1,024I/O中的每一接腳都支援2.4 Gbits/s的速度。6zUesmc
Wave最初關(guān)注的是企業(yè)用戶,因而發(fā)展成為其服務(wù)業(yè)務(wù)。該公司在菲律賓建立了一支20人的團(tuán)隊(duì),協(xié)助IT部門(mén)學(xué)習(xí)如何開(kāi)發(fā)自家深度學(xué)習(xí)模型。有些大型資料中心的資料科學(xué)家經(jīng)常自行處理數(shù)據(jù)。6zUesmc
有趣的是,Wave原本是在Tallwood Venture Capital育成中心的一支團(tuán)隊(duì),到了2009年才獨(dú)立出來(lái),這時(shí)間大約是深度學(xué)習(xí)開(kāi)始蓬勃發(fā)展的三年前。當(dāng)時(shí),該公司的目標(biāo)在于打造能以高階語(yǔ)言編程的更高效率FPGA競(jìng)爭(zhēng)方案,希望挑戰(zhàn)Tabula和Achronix。6zUesmc
Wave的深度學(xué)習(xí)處理器右途徑是讓圖形元素流經(jīng)電路,并加以執(zhí)行。Wave共同創(chuàng)辦人兼技術(shù)長(zhǎng)Chris Nichol在主題演講中表示,它可以為任務(wù)設(shè)置最佳精確規(guī)格的指令,而電路在完成執(zhí)行后會(huì)回到睡眠狀態(tài)。一位市場(chǎng)觀察家曾經(jīng)發(fā)布一份關(guān)于此系統(tǒng)架構(gòu)的白皮書(shū)。 https://www.eetimes.com/document.asp?doc_id=13335386zUesmc
6zUesmc
Wave的處理器叢集,可讓圖形資料流經(jīng)電路6zUesmc
Graphcore聚焦完整系統(tǒng)
Graphcore發(fā)表其采用236億個(gè)電晶體的Colossus,該晶片目標(biāo)在于將整個(gè)神經(jīng)網(wǎng)路模型保留于其300 Mbytes的晶片上記憶體。該新創(chuàng)公司聲稱可以在其1,216個(gè)核心上平行處理7,000個(gè)程式,每個(gè)核心都有100 GFlops的效能。6zUesmc
Colossus支援高達(dá)30 TBytes/s的內(nèi)部記憶體頻寬,外部支援在80個(gè)通道上的2.5 TBits/s晶片到晶片間互連。在單個(gè)PCIe Gen4 x16板卡中封裝2個(gè)晶片,提供31.5 GByte/s的I/O性能。6zUesmc
針對(duì)該新創(chuàng)公司的架構(gòu)或時(shí)間表,Cerebras執(zhí)行長(zhǎng)Andrew Feldman并未詳談,但他表示必須打造完整的系統(tǒng)。他在會(huì)中的一場(chǎng)專(zhuān)題討論中指出,「如果你做好了PCI介面卡,就可能受限于功率、散熱和I/O?!刮ㄓ刑峁┩暾南到y(tǒng)才不至于造成系統(tǒng)擴(kuò)展的阻礙。6zUesmc
新的硬體將為新的AI工作負(fù)載鋪路,從而帶動(dòng)更多需求。他說(shuō),深度學(xué)習(xí)「研究人員最擔(dān)心受限。他們有一連串的問(wèn)題和想法,而且[今天發(fā)展相對(duì)較慢]的電腦也造成阻礙?!?span style="display:none">6zUesmc
至于產(chǎn)品,他說(shuō)將會(huì)透過(guò)管理神經(jīng)網(wǎng)路稀疏性,以提供1,000倍的性能提升。他說(shuō),該公司并不會(huì)使用任何奇特的技術(shù),但確實(shí)需要新穎的核心、記憶體架構(gòu)、編譯器、結(jié)構(gòu)和技術(shù),從而為資料中心冷卻系統(tǒng)以及降低功耗。6zUesmc
SambaNova Systems是另一家在會(huì)中首度亮相的新創(chuàng)公司。如同Cerebras、Graphcore和Wave一樣,SambaNova Systems擁有一支經(jīng)驗(yàn)豐富的架構(gòu)師團(tuán)隊(duì),將基于史丹佛大學(xué)(Stanford University) Spatial的編譯器整合于其資料流晶片中。6zUesmc
編譯:Susan Hong6zUesmc
(參考原文:AI Chips Put to Data Center Tests,by Rick Merritt)6zUesmc