欧美性受XXXX黑人XYX性爽,国产在线拍揄自揄拍无码,伊人久久大香线焦AV综合影院

英特爾將新的Gaudi2AI訓(xùn)練引擎與英偉達(dá)GPU對(duì)立起來(lái)。 Gaudi2芯片具有48 MB的SRAM，如果它與TPC數(shù)量線性擴(kuò)展，將能達(dá)到2.4倍而不是2倍的SRAM，或57.6 MB。?

綜合：半導(dǎo)體產(chǎn)業(yè)縱橫編輯部

英偉達(dá)并不是唯一一家創(chuàng)建專業(yè)計(jì)算單元的公司，這些計(jì)算單元擅長(zhǎng)矩陣數(shù)學(xué)和張量處理，這些計(jì)算單元支持AI訓(xùn)練，并且可以重新用于運(yùn)行AI推理。英特爾已經(jīng)收購(gòu)了兩家這樣的公司—Nervana Systems，并緊隨其后的是Habana Labs，后者已被英特爾產(chǎn)品化，并緊隨英偉達(dá)的GPU加速器之后。 kkWesmc

英特爾是一家優(yōu)秀的公司，該公司認(rèn)為將在未來(lái)五年內(nèi)獲得500億美元的人工智能計(jì)算機(jī)會(huì)（用于訓(xùn)練和推理），從現(xiàn)在到2027年，英特爾將以25%的復(fù)合年增長(zhǎng)率增長(zhǎng)，達(dá)到這一水平。鑒于“Ponte Vecchio”Xe HPC GPU加速器即將推出的相當(dāng)大的矩陣和矢量數(shù)學(xué)，以及即將到來(lái)的“Sapphire Rapids”Xeon SP CPU中AMX矩陣數(shù)學(xué)單元中很可能有足夠的推理容量，因此有理由想知道英特爾預(yù)計(jì)會(huì)銷(xiāo)售多少Gaudi訓(xùn)練和Goya推理芯片。kkWesmc

我們了解到，當(dāng)英特爾在2016年8月以3.5億美元與Nervana Systems達(dá)成交易并在2019年12月以20億美元收購(gòu)Habana Labs時(shí)，它追求的是知識(shí)產(chǎn)權(quán)和人，當(dāng)然，因?yàn)檫@就是這場(chǎng)IT戰(zhàn)爭(zhēng)的玩法，但我們一直想知道這些設(shè)備，以及來(lái)自競(jìng)爭(zhēng)對(duì)手GraphCore的設(shè)計(jì)， Cerebras，SambaNova Systems和Groq將部署在類似于主流的東西中。上述四家公司迄今為止共籌集了28.7億美元。 kkWesmc

所有這些產(chǎn)品都剛剛開(kāi)始滾動(dòng)，這就是為什么英特爾將其賭注對(duì)沖到Nervana和Habana，就像它對(duì)數(shù)據(jù)中心的FPGA感到恐懼一樣（主要?dú)w功于Microsoft Azure），并在2015年6月斥資167億美元收購(gòu)了Altera。在2015年至2020年器件，在數(shù)據(jù)中心計(jì)算方面英特爾的Xeon CPU占據(jù)主導(dǎo)地位，并且通過(guò)收購(gòu)方式，減少了一些競(jìng)爭(zhēng)對(duì)手。kkWesmc

在本周舉行的Intel Vision 2022大會(huì)上，Gaudi2 AI訓(xùn)練芯片是芯片制造商推出的大型新計(jì)算引擎，順便說(shuō)一句，它不是英特爾實(shí)際制造的芯片，而是像其前身Gaudi1一樣，由競(jìng)爭(zhēng)對(duì)手臺(tái)積電代工蝕刻而成。英特爾尚未透露對(duì)Gaudi2架構(gòu)的深入研究，但這是我們所知道的。 kkWesmc

通過(guò)Gaudi2，英特爾正在轉(zhuǎn)向臺(tái)積電的7納米工藝，隨著這種收縮，它能夠?qū)⑿酒系腡PC數(shù)量從10個(gè)增加到24個(gè)，并增加了對(duì)新的8位FP8數(shù)據(jù)格式的支持，英偉達(dá)還將其添加到其“Hopper”GH100 GPU計(jì)算引擎中，該引擎于3月份推出，并在第三季度發(fā)貨。使用FP8格式，現(xiàn)在可以以相同的格式獲得低分辨率推理數(shù)據(jù)和高分辨率訓(xùn)練數(shù)據(jù)，并且在從訓(xùn)練移動(dòng)到推理時(shí)不必在浮點(diǎn)和整數(shù)之間轉(zhuǎn)換模型。這對(duì)AI來(lái)說(shuō)是一個(gè)真正的福音，盡管較低精度的整數(shù)格式可能會(huì)在未來(lái)許多年內(nèi)保留在矩陣和矢量計(jì)算引擎中，以支持遺留代碼和其他類型的應(yīng)用程序。Gaudi2芯片具有48 MB的SRAM，如果它與TPC數(shù)量線性擴(kuò)展，將能達(dá)到2.4倍而不是2倍的SRAM，或57.6 MB。 kkWesmc

Gaudi2芯片上有HBM2e內(nèi)存組，可提供2.45 TB /秒的帶寬，比Gaudi1芯片增加了2.45倍。HBM2e內(nèi)存庫(kù)的數(shù)量沒(méi)有透露，但六個(gè)16 GB HBM2e的存儲(chǔ)體為Gaudi2提供了訣竅，而Gaudi 1的四個(gè)存儲(chǔ)體為8 GB HBM2。僅兩個(gè) HBM2e 內(nèi)存控制器的增加就可將帶寬提高 1.33 倍，而帶寬的剩余增加來(lái)自提高內(nèi)存速度。 kkWesmc

Gaudi1芯片有十個(gè)100Gb/秒以太網(wǎng)端口，支持RoCE直接內(nèi)存訪問(wèn)協(xié)議，事實(shí)證明，每個(gè)TPC一個(gè)，但我們當(dāng)時(shí)并不知道，因?yàn)橹伙@示了八個(gè)。但是Gaudi2有24個(gè)以太網(wǎng)端口以100 Gb / sec的速度運(yùn)行，每個(gè)TPC一個(gè)。它的功率為650瓦。我們假設(shè)此設(shè)備插入PCI-Express 5.0插槽，但英特爾尚未確認(rèn)這一點(diǎn)。kkWesmc

假設(shè)沒(méi)有重大的架構(gòu)變化，并且該過(guò)程產(chǎn)生的時(shí)鐘速度從16納米縮小到7納米，我們預(yù)計(jì)Gaudi2芯片的性能將是Gaudi2的2.5倍。（還假設(shè)在任何給定應(yīng)用程序中處理的精度水平相同。）但英特爾實(shí)際上并沒(méi)有說(shuō)是否有任何架構(gòu)變化（除了它增加了一些媒體處理功能）以及時(shí)鐘速度是如何變化的，所以我們必須推斷出來(lái)。 kkWesmc

我們通過(guò)查看ResNet-50機(jī)器視覺(jué)訓(xùn)練操作的圖表來(lái)做到這一點(diǎn)，該圖表使Gaudi1和Gaudi2與過(guò)去兩代英偉達(dá)GPU加速器競(jìng)爭(zhēng)：kkWesmc

kkWesmc

與Nervana Systems一樣，Habana Labs非常認(rèn)真地致力于創(chuàng)建一套芯片，為AI工作負(fù)載提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布，Gaudi1 AI訓(xùn)練芯片（也稱為HL-2000）于當(dāng)年夏天晚些時(shí)候首次亮相。Gaudi1架構(gòu)有一個(gè)通用矩陣乘法（GEMM）前端，后端由十個(gè)張量處理器內(nèi)核或TPC組成，芯片只向用戶公開(kāi)其中的八個(gè)，以幫助提高封裝的良率。 kkWesmc

Gaudi1使用了第二代TPC，而Goya HL-1000 AI推理芯片則使用了不那么強(qiáng)大和不那么復(fù)雜的原始TPC設(shè)計(jì)。Gadui1芯片中的TPC可以使用C編程語(yǔ)言直接尋址，并具有張量尋址以及BF16和FP32浮點(diǎn)以及INT8，INT16和INT32整數(shù)格式的支持。TPC指令集具有加速Sigmoid，GeLU，Tanh和其他特殊功能的電路。Gaudi 1采用臺(tái)積電的16納米工藝，具有24 MB片上SRAM，四組HBM2存儲(chǔ)器，容量為32 GB，帶寬為1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽，消耗了350瓦的果汁，并將幾乎所有的果汁轉(zhuǎn)換為熱量，就像芯片一樣。kkWesmc

kkWesmc

英特爾尚未透露對(duì)Gaudi2架構(gòu)的深入研究。kkWesmc

kkWesmc

根據(jù)ResNet-50的比較，Gaudi2的性能是Gaudi1的3.2倍，但很難估計(jì)有多少性能是由于整個(gè)芯片的容量增加。這個(gè)特定的測(cè)試正在運(yùn)行TensorFlow框架來(lái)執(zhí)行圖像識(shí)別訓(xùn)練，顯示的數(shù)據(jù)是每秒處理的圖像數(shù)量。kkWesmc

有一件事沒(méi)有顯示，而且很重要，那就是Gaudi2加速器將如何與Hopper GPU堆疊，但英偉達(dá)尚未透露任何特定測(cè)試的性能結(jié)果。但是，由于 H100 中的 HBM3 內(nèi)存運(yùn)行速度比 A100 加速器中使用的 HBM2e 內(nèi)存快 1.5 倍，而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍，因此可以合理地預(yù)期 H100 的性能將是 ResNet-50 視覺(jué)訓(xùn)練工作負(fù)載的 1.5 倍到 3 倍。因此，H100將在ResNet-50測(cè)試中每秒提供4，395至8，790張圖像的性能。我們的猜測(cè)是，它將比前者更接近后者，并且比英特爾通過(guò)Gaudi2可以提供的更大幅度更大。kkWesmc

kkWesmc

與使用BERT模型的自然語(yǔ)言處理相比，圖像識(shí)別和視頻處理相對(duì)容易。以下是Gaudi2與英偉達(dá)V100和A100的對(duì)比，請(qǐng)注意Gaudi1丟失了：kkWesmc

kkWesmc

BERT 模型也在TensorFlow 框架上運(yùn)行，此數(shù)據(jù)顯示了兩個(gè)不同訓(xùn)練階段中每秒吞吐量的序列數(shù)。在一次預(yù)審中，哈瓦那實(shí)驗(yàn)室部門(mén)首席商務(wù)官Eitan Medina表示，Gaudi2的性能不到A100的2倍。但是，H100擁有自己的FP8格式及其Transformer Engine，可以動(dòng)態(tài)地改變AI訓(xùn)練工作流程不同部分的數(shù)據(jù)精度和處理，可以做得更好。我們不知道具體到什么，但我們強(qiáng)烈懷疑英偉達(dá)至少可以縮小與Gaudi2的差距，并且很可能超越它。kkWesmc

kkWesmc

有趣的是，英特爾在亞馬遜網(wǎng)絡(luò)服務(wù)上啟動(dòng)了DL1Gaudi1實(shí)例，然后分別基于A100和V100 GPU的p4d和p3實(shí)例，并進(jìn)行了一些價(jià)格/性能分析，以計(jì)算ResNet-50基準(zhǔn)測(cè)試中認(rèn)可的每張圖像的成本。請(qǐng)看一下：kkWesmc

kkWesmc

這張圖表的意思是，Gaudi1的性能略好于V100，使用上圖中ResNet-50中英特爾的性能數(shù)據(jù)為27.3% ，并且價(jià)格提高了約60%，這意味著DL1實(shí)例的成本比使用V100的p3實(shí)例低得多。隨著遷移到基于A100的p4d實(shí)例，該實(shí)例具有40GB的HBM2e內(nèi)存，英偉達(dá)設(shè)備在ResNet-50上的吞吐量比Gaudi1高出58.6%，但Gaudi1處理的每個(gè)圖像的成本降低了46%。這意味著A100實(shí)例確實(shí)要貴得多。如果我們對(duì)Hopper GPU加速器定價(jià)的猜測(cè)是正確的，并且英偉達(dá)收取大約2倍的費(fèi)用，大約3倍的性能，英特爾將不得不保持出售給AWS的Gaudi2芯片的價(jià)格，因?yàn)锳WS仍然可以顯示出比運(yùn)行AI訓(xùn)練的H100實(shí)例更好的性價(jià)比。kkWesmc

kkWesmc

無(wú)論如何，英特爾在其實(shí)驗(yàn)室中運(yùn)行了超過(guò)1000個(gè)Gaudi2，因此它可以調(diào)整SynapseAI軟件堆棧，其中包括在Habana的圖形編譯器，內(nèi)核庫(kù)和通信庫(kù)上運(yùn)行的PyTorch和TensorFlow框架。Gaudi2芯片現(xiàn)在正在發(fā)貨。kkWesmc

kkWesmc

除了Gaudi2芯片外，英特爾還在預(yù)覽其Greco后續(xù)Goya推理引擎，該引擎也在臺(tái)積電躍升至7納米至16納米工藝。kkWesmc

Greco 推理卡具有 16GB 的 LPDDR5 主內(nèi)存，可提供 204 GB/秒的內(nèi)存帶寬，而使用先前的 Goya 推理引擎的 DDR4 內(nèi)存塊為 40 GB/秒。哈瓦那架構(gòu)的Greco變體支持INT4，BF16和FP16格式，功耗為75瓦，大大低于2019年初宣布的HL-1000設(shè)備的200瓦。如上圖所示，它被壓縮成一個(gè)更緊湊的半高，半長(zhǎng)的PCI-Express卡。目前還沒(méi)有關(guān)于這個(gè)的性能或定價(jià)的消息。kkWesmc

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。kkWesmc

kkWesmc

責(zé)編：Echo

文章來(lái)源及版權(quán)屬于半導(dǎo)體產(chǎn)業(yè)縱橫，國(guó)際電子商情僅作轉(zhuǎn)載分享，對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。如有疑問(wèn)，請(qǐng)聯(lián)系Elaine.lin@aspencore.com

閱讀全文，請(qǐng)先

半導(dǎo)體產(chǎn)業(yè)縱橫

立足產(chǎn)業(yè)視角，提供及時(shí)、專業(yè)、深度的前沿洞見(jiàn)、技術(shù)速遞、趨勢(shì)解析，賦能中國(guó)半導(dǎo)體產(chǎn)業(yè)，我們一直在路上。

進(jìn)入專欄

微信掃一掃，一鍵轉(zhuǎn)發(fā)
關(guān)注“國(guó)際電子商情” 微信公眾號(hào)

英特爾最新GPU Gaudi2 強(qiáng)懟英偉達(dá)

雜志聲明