掌握AI技術對經(jīng)濟、社會、能源、軍事和地緣政治格局的影響日益突出。在企業(yè)、政府和個人機構中廣泛應用先進的AI技術不僅具有戰(zhàn)略意義,而且勢在必行。n5Yesmc
盡管在過去七十年里,許多關于AI的研究大多未能取得預期的成功,但是AI技術在近十年來取得了顯著進步,其發(fā)展速度呈指數(shù)級增長。AI的快速發(fā)展得益于向高度并行計算架構的轉變,這與傳統(tǒng)的基于中央處理器(CPU)的系統(tǒng)不同。由于順序處理特性,傳統(tǒng)CPU一次只能處理一條指令,越來越無法滿足高級、高度并行的AI算法需求,例如大型語言模型(LLM)。這一挑戰(zhàn)推動了AI加速器的廣泛發(fā)展,AI加速器可顯著提高AI應用的性能。n5Yesmc
AI應用涉及數(shù)十億到數(shù)萬億參數(shù)的復雜算法,并需要進行從4位到64位不等的混合精度的整數(shù)和浮點數(shù)多維矩陣數(shù)學運算。盡管底層數(shù)學運算由簡單的乘法器和加法器組成,但在AI應用中它們會被復制數(shù)百萬次,給計算引擎帶來了巨大的挑戰(zhàn)。n5Yesmc
AI加速器包括GPU、FPGA和定制ASIC幾種形式。與CPU相比,這些AI加速器的性能大幅提升,執(zhí)行速度更快,模型部署更高效,具備更強的可擴展性,能處理日益復雜的AI應用。n5Yesmc
AI技術在各行各業(yè)的廣泛應用,推動了AI加速器市場的蓬勃發(fā)展。從面部/圖像識別、自然語言處理,到自動駕駛汽車和生成式AI,AI正在改變我們的生活及工作方式。這場革命激發(fā)了對更快、更高效AI處理的巨大需求,促使AI加速器成為人工智能基礎設施的重要組成部分。n5Yesmc
盡管市場增長迅猛,但現(xiàn)有的商業(yè)AI處理產品存在一定的局限性。n5Yesmc
最終,我們可以期待一個能夠最優(yōu)地完成預期任務的解決方案,這并不一定是功耗最低、成本最低或效率最高的解決方案。n5Yesmc
目前的限制與需求
人工智能處理主要發(fā)生在兩個地方:云端(數(shù)據(jù)中心)和邊緣端。目前,這兩個地方都有獨特的要求和挑戰(zhàn)。n5Yesmc
·云端人工智能處理
在數(shù)據(jù)中心應用領域,AI加速器市場兩極分化嚴重,一家主導企業(yè)控制著約95%的市場份額。為了促進更大的多樣化,必須解決以下幾個關鍵問題:n5Yesmc
- 強大的處理能力:處理能力必須達到每秒能執(zhí)行1千萬億次的浮點運算(petaFLOPs),并能在實際工作負載下穩(wěn)定運行。
- AI硬件成本高昂:AI硬件的價格昂貴,限制了小型企業(yè)的使用,只有大型企業(yè)才能負擔得起。
- 耗電量大:為了支持AI加速器的高能耗,需要特殊的電力供應和冷卻系統(tǒng),這些設施的建設和維護成本很高,使得企業(yè)擴展AI應用變得相當困難。
- 市場壟斷:市場主導者可能通過控制市場,抑制市場競爭并阻礙創(chuàng)新,我們需要比現(xiàn)有產品更節(jié)能、更具成本效益的解決方案來打破這種壟斷。
值得一提的是,最近數(shù)據(jù)中心的重點已從訓練轉向推理,這種轉變降低了處理單個AI查詢或請求所需的成本,并減少了在采購新硬件和維持日常運營方面的財務負擔。這些轉變不僅更易獲得先進的AI能力,還推動了AI技術的可持續(xù)發(fā)展,從而實現(xiàn)跨行業(yè)的廣泛應用。n5Yesmc
·邊緣AI處理
與數(shù)據(jù)中心的AI處理市場相比,邊緣AI處理市場得特點是高度分散。許多初創(chuàng)公司針對不同行業(yè)的特定需求推出了多樣化的商業(yè)產品,這種現(xiàn)象在促進市場競爭和創(chuàng)新方面是積極的。盡管如此,行業(yè)仍然需要開發(fā)更全面的解決方案,以滿足廣泛的應用需求。n5Yesmc
邊緣AI處理面臨著一系列挑戰(zhàn),其中低功耗和低成本是關鍵標準,而計算能力則相對次要。n5Yesmc
·處理效率和延遲:AI屬性中常被忽視的部分
雖然最先進的AI處理器以令人印象深刻的處理能力為賣點,有時甚至達到每秒數(shù)千萬億次浮點運算,但它們的實際性能卻常常不盡如人意。這些規(guī)格通常強調理論上的最大值,而忽略了關鍵的處理效率因素——即在實際應用中可達到的理論功率百分比。在執(zhí)行最先進的大型語言模型時,大多數(shù)AI加速器的效率都會大幅下降,有時甚至低至1%-5%。n5Yesmc
延遲是衡量AI處理器性能的另一個重要指標,但它往往不被包括在規(guī)格說明中。這種疏忽可能是由于延遲高度依賴于算法,以及大多數(shù)處理器在實際操作中的效率并不理想。n5Yesmc
考慮兩個實際應用場景中對延遲的嚴格要求:n5Yesmc
- 自動駕駛汽車:這些系統(tǒng)必須迅速響應,以便在20毫秒內處理來自各類傳感器的環(huán)境數(shù)據(jù),并在30毫秒內做出并執(zhí)行決策。實現(xiàn)這些嚴格的時間目標是技術面臨的重大挑戰(zhàn)。
- 生成式AI:為了維持用戶的持續(xù)參與,生成式AI需要在數(shù)秒內提供首次響應。目前,這一需求通過增加并行工作的處理器加速器數(shù)量來滿足。但這種方法帶來了高昂的初期投資和運營成本,同時顯著增加了能耗問題。
這些情況突顯了商用處理器面臨的主要局限,即內存瓶頸問題。內存瓶頸意味著數(shù)據(jù)傳輸?shù)教幚韱卧乃俣仁芟?,這導致處理器無法持續(xù)高效地工作,影響了整體性能。n5Yesmc
一個可行的解決方案
為了應對挑戰(zhàn)并保持市場領先地位,公司應該致力于開發(fā)新一代的AI加速器,聚焦于以下三個關鍵領域:n5Yesmc
- 技術創(chuàng)新:開發(fā)基于創(chuàng)新型AI專用架構的解決方案,該架構能夠突破內存瓶頸,即使在內存數(shù)據(jù)傳輸速度不足時也能保持高效運行。這種架構將提供更高的吞吐量、更低的延遲和能耗,同時降低成本,顯著提升整體性能和市場競爭力。
- 可擴展性和靈活性:設計可擴展、模塊化、可編程的AI加速器,使其能夠適應不同的AI工作負載,并能輕松集成到多樣化的平臺和系統(tǒng)中。這種靈活性將擴大市場覆蓋范圍,滿足從小型初創(chuàng)公司到大型企業(yè)的多樣化需求。
- 易于部署:構建一個易于使用的軟件堆棧,使算法開發(fā)者能夠輕松地將算法映射到AI加速器上,無需深入了解硬件加速器的復雜性,包括RTL(寄存器傳輸級)設計和調試過程。這將促進開發(fā)者對解決方案的快速采納和應用。
為了制定一個成功的戰(zhàn)略,公司應該積極構建與軟件開發(fā)商、教育機構以及其他硬件制造商之間的戰(zhàn)略合作伙伴關系。這樣的聯(lián)盟將促進技術的無縫集成,并推動解決方案的廣泛采納。n5Yesmc
AI加速器市場的未來
未來幾年,預計AI加速器市場將保持快速增長的勢頭,這一增長主要得益于對處理更復雜AI應用需求的日益增長。這種趨勢預示著市場對高性能、高效率加速器的需求將變得更加迫切。n5Yesmc
我們預期將見證AI加速架構的創(chuàng)新浪潮,供應商們將致力于開發(fā)更靈活、更節(jié)能的產品。在競爭日益激烈的AI加速器市場中,那些能夠在效率、可擴展性、易用性和可持續(xù)性方面提供創(chuàng)新解決方案的廠商將脫穎而出。n5Yesmc
最終,市場將傾向于選擇那些能夠以最優(yōu)化的方式執(zhí)行任務的AI加速器——它們應具備節(jié)能、成本效益和高效率的特點。理想解決方案不一定是在功耗、成本或效率上達到極端最低或最高的產品,而是在這些因素間找到最佳平衡點的方案。n5Yesmc
本文翻譯自《國際電子商情》姊妹平臺EETimes Europe,原文標題:Competing for Supremacy: Strategies to Dominate the AI Accelerator Marketn5Yesmc
責編:Clover.li