英偉達(dá)新一代 AI GPU面臨芯片過(guò)熱問(wèn)題
根據(jù)知情人士的爆料,Blackwell AI GPU裝入可容納多達(dá)72顆芯片的服務(wù)器機(jī)架時(shí)會(huì)出現(xiàn)過(guò)熱的問(wèn)題,這些機(jī)器預(yù)計(jì)每個(gè)機(jī)架的功耗高達(dá)120kW。而過(guò)熱會(huì)限制GPU性能并有損壞組件的風(fēng)險(xiǎn)。P5Kesmc
目前,包括英偉達(dá)員工、客戶和供應(yīng)商在內(nèi)的多方面消息稱,英偉達(dá)已多次要求供應(yīng)商調(diào)整機(jī)架設(shè)計(jì),但這種過(guò)熱的問(wèn)題依然存在。P5Kesmc
外媒的報(bào)道稱,一些英偉達(dá)客戶擔(dān)心沒(méi)有足夠的時(shí)間推進(jìn)新數(shù)據(jù)中心的建設(shè)運(yùn)行,包括元宇宙、谷歌和微軟等在內(nèi)的科技巨頭均受到影響。P5Kesmc
對(duì)此,有多家媒體致電英偉達(dá)。英偉達(dá)方面對(duì)媒體回應(yīng)表示:“我們正在與領(lǐng)先的云服務(wù)提供商合作,將其作為我們工程團(tuán)隊(duì)和流程中不可或缺的一部分。工程迭代是正常且符合預(yù)期的。將GB200這一迄今為止最先進(jìn)的系統(tǒng)集成到各種數(shù)據(jù)中心環(huán)境中,需要與我們的客戶共同設(shè)計(jì)。”P5Kesmc
據(jù)悉,Blackwell用作培訓(xùn)大語(yǔ)言AI模型,其速度比英偉達(dá)上一代芯片H100的速度快2.5倍。該芯片此前預(yù)計(jì)發(fā)貨時(shí)間為今年第二季度。P5Kesmc
英偉達(dá)Blackwell在今年3月推出
據(jù)悉,Blackwell是英偉達(dá)在2024年3月推出的新一代AI芯片與超級(jí)計(jì)算平臺(tái)。Blackwell的強(qiáng)悍性能一直為大家津津樂(lè)道,它由多個(gè)英偉達(dá)芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī),涵蓋了從CPU和GPU計(jì)算到用于互連的不同類型的網(wǎng)絡(luò),可支持多達(dá)10萬(wàn)億參數(shù)的模型進(jìn)行AI訓(xùn)練和實(shí)時(shí)大語(yǔ)言模型(LLM)推理。P5Kesmc
Blackwell的具體性能還包括以下:P5Kesmc
- NVIDIA的Blackwell架構(gòu)GPU搭載了2080億個(gè)晶體管,采用專屬定制的臺(tái)積電4NP工藝精心打造。該設(shè)計(jì)突破傳統(tǒng),實(shí)現(xiàn)了裸片尺寸翻倍,并通過(guò)10 TB/s的高速片間互聯(lián)技術(shù),將多個(gè)GPU裸片整合為單一的高效能單元。
- 在Blackwell架構(gòu)中,升級(jí)版的第二代Transformer引擎融合了創(chuàng)新的微張量縮放技術(shù),并結(jié)合NVIDIA先進(jìn)的動(dòng)態(tài)范圍管理算法,使得在4位浮點(diǎn)AI推理方面,算力和模型尺寸均實(shí)現(xiàn)了顯著提升。
- 第五代NVLink技術(shù)進(jìn)一步優(yōu)化了處理萬(wàn)億級(jí)參數(shù)模型和混合專家AI模型的能力,每塊GPU的雙向吞吐量高達(dá)1.8TB/s,確保了多達(dá)576塊GPU之間的高效、無(wú)間斷通信,完美應(yīng)對(duì)當(dāng)今最為復(fù)雜的LLM挑戰(zhàn)。
- 此外,Blackwell架構(gòu)的GPU內(nèi)置了RAS引擎,專注于提升系統(tǒng)的可靠性、可用性和可維護(hù)性。Blackwell還增添了多項(xiàng)先進(jìn)的芯片級(jí)功能,通過(guò)AI驅(qū)動(dòng)的預(yù)防性維護(hù)策略,進(jìn)行故障診斷和可靠性問(wèn)題的預(yù)測(cè),從而確保了系統(tǒng)的穩(wěn)定運(yùn)行。
責(zé)編:Clover.li