英偉達新一代 AI GPU面臨芯片過熱問題
根據(jù)知情人士的爆料,Blackwell AI GPU裝入可容納多達72顆芯片的服務器機架時會出現(xiàn)過熱的問題,這些機器預計每個機架的功耗高達120kW。而過熱會限制GPU性能并有損壞組件的風險。05Oesmc
目前,包括英偉達員工、客戶和供應商在內(nèi)的多方面消息稱,英偉達已多次要求供應商調(diào)整機架設計,但這種過熱的問題依然存在。05Oesmc
外媒的報道稱,一些英偉達客戶擔心沒有足夠的時間推進新數(shù)據(jù)中心的建設運行,包括元宇宙、谷歌和微軟等在內(nèi)的科技巨頭均受到影響。05Oesmc
對此,有多家媒體致電英偉達。英偉達方面對媒體回應表示:“我們正在與領先的云服務提供商合作,將其作為我們工程團隊和流程中不可或缺的一部分。工程迭代是正常且符合預期的。將GB200這一迄今為止最先進的系統(tǒng)集成到各種數(shù)據(jù)中心環(huán)境中,需要與我們的客戶共同設計。”05Oesmc
據(jù)悉,Blackwell用作培訓大語言AI模型,其速度比英偉達上一代芯片H100的速度快2.5倍。該芯片此前預計發(fā)貨時間為今年第二季度。05Oesmc
英偉達Blackwell在今年3月推出
據(jù)悉,Blackwell是英偉達在2024年3月推出的新一代AI芯片與超級計算平臺。Blackwell的強悍性能一直為大家津津樂道,它由多個英偉達芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡接口卡、NVLink交換機、Spectrum以太網(wǎng)交換機和Quantum InfiniBand交換機,涵蓋了從CPU和GPU計算到用于互連的不同類型的網(wǎng)絡,可支持多達10萬億參數(shù)的模型進行AI訓練和實時大語言模型(LLM)推理。05Oesmc
Blackwell的具體性能還包括以下:05Oesmc
- NVIDIA的Blackwell架構GPU搭載了2080億個晶體管,采用專屬定制的臺積電4NP工藝精心打造。該設計突破傳統(tǒng),實現(xiàn)了裸片尺寸翻倍,并通過10 TB/s的高速片間互聯(lián)技術,將多個GPU裸片整合為單一的高效能單元。
- 在Blackwell架構中,升級版的第二代Transformer引擎融合了創(chuàng)新的微張量縮放技術,并結合NVIDIA先進的動態(tài)范圍管理算法,使得在4位浮點AI推理方面,算力和模型尺寸均實現(xiàn)了顯著提升。
- 第五代NVLink技術進一步優(yōu)化了處理萬億級參數(shù)模型和混合專家AI模型的能力,每塊GPU的雙向吞吐量高達1.8TB/s,確保了多達576塊GPU之間的高效、無間斷通信,完美應對當今最為復雜的LLM挑戰(zhàn)。
- 此外,Blackwell架構的GPU內(nèi)置了RAS引擎,專注于提升系統(tǒng)的可靠性、可用性和可維護性。Blackwell還增添了多項先進的芯片級功能,通過AI驅(qū)動的預防性維護策略,進行故障診斷和可靠性問題的預測,從而確保了系統(tǒng)的穩(wěn)定運行。
責編:Clover.li