生成式人工智能(AI)的大規(guī)模落地取決于提高處理效率和降低總擁有成本。與互聯(lián)網及其萬維網應用程序的發(fā)明類似,生成式人工智能已經抓住了公眾的想象力。ChatGPT技術一經發(fā)布就受到了各界的廣泛關注,它是迄今為止用戶增長最快的應用程序,僅在問世的前兩個月內,注冊用戶數就突破了1億人。hFvesmc
生成式AI正取得所有行業(yè)的關注,并有望釋放出無與倫比的生產力浪潮。具體來看,生成式AI的市場潛力巨大,它可助力多個領域的發(fā)展,比如,輔助藥物研發(fā),提高醫(yī)生診斷準確率,提高訂單預測準確率,以及幫助程序員編寫高質量軟件代碼。預計每年將能為全球經濟增加4萬億美元以上的價值。hFvesmc
生成式AI大語言模型面臨的硬件挑戰(zhàn)
與大多數應用程序不同,雖然ChatGPT軟件正在步入正軌,但是支持運行該應用程序的硬件卻并非如此。hFvesmc
生成式AI大語言模型所面臨的硬件挑戰(zhàn)來源于——算法使用了大量的參數來生成結果。例如,ChatGPT的前一代模型GPT-3.5需要1,750億個參數,雖然官方暫未公布GPT-4版的參數量,但是機構預估其參數量約有1.7萬億個。對此,支持生成式AI大語言模型的AI硬件加速器必須擴展到能夠處理1,750億到近2萬億個參數的標準,才能滿足每個用戶的查詢操作。hFvesmc
在當前的計算架構上,處理器核心和存儲器之間的大量數據流,通常在計算核心外部來進行處理。這種設置會導致內存瓶頸的出現,通常它也被稱為“內存墻”,會帶來嚴重的帶寬限制。hFvesmc
以上因素不僅排除了CPU計算架構,而且還排除了GPU等其他AI計算架構。以GPT-4為例,其中高端的GPU約有97%的時間處于空閑狀態(tài),這相當于大約只有3%的效率。在這樣的低效率下,一個標稱計算能力為1 PetaOPS(每秒一千兆/一千萬億次運算)的處理器,只能產生大約30 teraOPS(每秒一兆/一萬億次運算)的處理速度。hFvesmc
如今,這些算法在高性能計算集群上執(zhí)行,每個集群需要消耗大量的能源。隨之而來的問題是,執(zhí)行ChatGPT-4用戶查詢所需的功耗已經超出極限,這導致發(fā)電廠超載和能源分配網絡壓力過大。hFvesmc
ChatGPT的運行成本極其高昂
ChatGPT的功耗并非阻礙其商用落地的全部因素。ChatGPT技術的快速推出,進一步拉高了其配套硬件的投資成本。ChatGPT需要大量的計算資源和能源,它需要高端的硬件設備來支持運行,而高端設備的采購成本非常高昂,給企業(yè)和組織帶來了巨大的財務壓力。根據目前市場上先進處理器的采購選擇,支持每秒運行10萬次查詢的GPT-4處理系統(tǒng)的采購成本高達數千億美元,而運行該系統(tǒng)的能源年成本將在數億美元左右。hFvesmc
顯然,高昂的成本是大規(guī)模部署ChatGPT創(chuàng)新技術的障礙。hFvesmc
生成式AI大規(guī)模落地需滿足三大要求
不過,這也為半導體行業(yè)的發(fā)展提供了機遇,通過提供支持性的硬件,可推動生成式AI大語言模型的發(fā)展。這需要一個可行的解決方案來解決可用基礎設施架構不足的問題:hFvesmc
- 將處理效率從2%至4%提高到至少50%。標稱計算能力為1 PetaOPS的AI處理器,必須在現實工作負載下提供至少500 TeraOPS的處理速度。
- 降低硬件成本。一個“有效的”而非“理論上的”計算能力為1 PetaOPS的AI處理器的成本不得超過1萬美元。
- 更低的功耗。一個“有效的”而非“理論上的”計算能力為1 PetaOPS的AI處理器的功耗必須不超過100W。
總體而言,為了實現經濟可持續(xù)性和節(jié)能,ChatGPT處理系統(tǒng)的成本效益必須提高兩個數量級以上。只有把GPT-4系統(tǒng)上每秒運行10萬次查詢的年總成本從數千億美元降低到100億美元以下,才能實現生成式AI的承諾。hFvesmc
本文翻譯自國際電子商情姊妹平臺EETimes Europa,原文標題:The Promise and Reality of Generative AIhFvesmc
責編:Clover.li