亚洲韩精品欧美一区二区三区,亚洲男同帅GAY片在线观看

從很多方面來看，AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似......與DSP協(xié)同處理器一樣，AI加速器的目標是找到最快速、最節(jié)能的方法來執(zhí)行所需的運算任務...

從云端的大數(shù)據(jù)(big data)處理到邊緣端的關鍵字識別和影像分析，人工智慧(AI)應用的爆炸式成長促使專家們前仆后繼地開發(fā)最佳架構，以加速機器學習(ML)演算法的處理。各式各樣的新興解決方案都凸顯了設計人員在選擇硬體平臺之前，明確定義應用及其需求的重要性。g5zesmc

從很多方面來看，AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似；在那個時候，隨著有線和無線通訊起飛，市場上紛紛推出高性能DSP協(xié)同處理器(co-processor )以因應基頻處理的挑戰(zhàn)。與DSP協(xié)同處理器一樣，AI加速器的目標是找到最快速、最節(jié)能的方法來執(zhí)行所需的運算任務。g5zesmc

神經(jīng)網(wǎng)路處理背后的數(shù)學，涉及統(tǒng)計學、多元微積分(multivariable calculus)、線性代數(shù)、數(shù)值最佳化(numerical optimization)和機率等；雖然很復雜，也是高度可平行化的(parallelizable)。但事實上這是令人尷尬的可平行化──與分散式運算不同，在路徑的輸出被重組并產(chǎn)生輸出結果之前，很容易被分解為沒有分支(branches)或從屬關系(dependencies)的平行路徑。g5zesmc

在各種神經(jīng)網(wǎng)路演算法中，卷積神經(jīng)網(wǎng)路(CNN)特別擅長物件識別類任務——也就是從影像中過濾篩選出感興趣的物件。CNN以多維矩陣(multidimensional matrices)──即張量(tensor)──架構來理解資料，將超出第三個維度的每個維度都嵌入到子陣列中(如圖1)，每個添加的維度稱為「階」(order)，因此，五階張量會有五個維度。g5zesmc

EDNT181005_AIhardware_NT31P1 g5zesmc

圖1：CNN以張量架構攝取資料，也就是可被視覺化為3D立方體的數(shù)字矩陣(資料集)；每個陣列中還有一個子陣列，該數(shù)字定義了CNN的深度。
（圖片來源：Skymind）g5zesmc

與數(shù)學相關度不高AI重點在于快速反覆運算

這種多維分層對于理解CNN所需之加速的本質很重要，卷積過程使用乘法在數(shù)學上將兩個函數(shù)「卷繞」(roll)在一起，因此廣泛使用乘加(multiply-accumulate，MAC )數(shù)學運算；舉例來說，在物件識別中，一個函數(shù)是源影像，另一個函數(shù)是用來識別特征然后將其映射到特征空間的篩檢程式(filter)。每個篩檢程式都要多次執(zhí)行這種「卷繞」，以識別影像中的不同特征，因此數(shù)學運算變得非常重復，且是令人尷尬(或令人愉悅)的可平行化。g5zesmc

為此，某些AI加速器的設計采用多個獨立的處理器核心(高達數(shù)百或上千個)，與記憶體子系統(tǒng)一起整合在單晶片中，以減輕資料存取延遲并降低功耗。然而，由于業(yè)界已設計了繪圖處理器(GPU)來對影像處理功能進行高度平行處理，因此它們對于AI所需的這種神經(jīng)網(wǎng)路處理也可以實現(xiàn)很好的加速。AI應用的多樣性和深度，特別是在語音控制、機器人、自動駕駛和大數(shù)據(jù)分析等方面，已經(jīng)吸引了GPU供應商將重點轉移到AI處理硬體加速的開發(fā)。g5zesmc

然而AI硬體加速的問題，在于有如此多的資料，所需的準確性和回應時間又有如此大的差別，設計人員必須對于架構的選擇非常講究。例如資料中心是資料密集型的，其重點是盡可能快速處理資料，因此功耗并非特別敏感的因素——盡管能源效率有利于延長設備使用壽命，降低設施的整體能耗和冷卻成本，這是合理的考量。百度的昆侖(Kunlun)處理器耗電量為100W，但運算性能達到260 TOPS，就是一款特別適合資料中心應用的處理器。g5zesmc

接下來看另一個極端的案例。如關鍵字語音辨識這樣的任務需要與云端連結，以使用自然語言識別來執(zhí)行進一步的命令。現(xiàn)在這種任務在采用法國業(yè)者GreenWaves Technologies之GAP8處理器的電池供電邊緣裝置上就可以實現(xiàn)；該處理器是專為邊緣應用設計，強調(diào)超低功耗。g5zesmc

介于中間的應用，如自動駕駛車輛中的攝影機，則需要盡可能接近即時反應，以識別交通號志、其他車輛或行人，同時仍需要最小化功耗，特別是對于電動車來說；這種情況或許需要選擇第三種方案。云端連結在此類應用中也很重要，如此才能即時更新所使用的模型和軟體，以確保持續(xù)提高準確度、反應時間和效率。g5zesmc

ASIC還不足以托付AI加速任務

正因為這是一個在軟、硬體方面都迅速發(fā)展，需要在技術上持續(xù)更新的領域，并不建議將AI神經(jīng)網(wǎng)路(NN)加速器整合到ASIC或是系統(tǒng)級封裝(SiP)中——盡管這樣的整合具有低功耗、占用空間小、成本低(大量時)和記憶體存取速度快等優(yōu)點。加速器、模型和神經(jīng)網(wǎng)路演算法的變動太大，其靈活性遠超過指令導向(instruction-driven)方法，只有像Nvidia這種擁有先進技術、資金雄厚的玩家才能夠負擔得起不斷在硬體，而在硬體上根據(jù)特定方法進行反覆運算。g5zesmc

這種硬體加速器開發(fā)工作的一個很好的例子，就是Nvidia在其Tesla V100 GPU中增加了640個Tensor核心，每個核心在一個時脈周期內(nèi)可以執(zhí)行64次浮點(FP)融合乘加(fused-multiply-add，F(xiàn)MA)運算，可為訓練和推理應用提供125 TFLOPS的運算性能。借助該架構，開發(fā)人員可以使用FP16和FP32累加的混合精度(mixed precision)進行深度學習訓練，運算速度比Nvidia自家上一代Pascal架構高3倍。g5zesmc

混合精度方法很重要，因為長期以來人們已經(jīng)認識到，雖然高性能運算(HPC)需要使用32~256位元FP的精確運算，但深度神經(jīng)網(wǎng)路(DNN)不需要這么高的精度；這是因為經(jīng)常用于訓練DNN的反向傳播演算法(back-propagation algorithm)對誤差具有很強的彈性，因此16位元半精度(FP16)對神經(jīng)網(wǎng)路訓練就足夠了。g5zesmc

此外，儲存FP16資料比儲存FP32或FP64資料的記憶體效率更高，從而可以訓練和部署更多的網(wǎng)路，而且對許多網(wǎng)路來說，8位元整數(shù)運算(integer computation)就足夠了，對準確性不會有太大影響。g5zesmc

這種使用混合精度運算的能力在邊緣甚至會更實用，當資料登錄的來源是低精度、低動態(tài)范圍的感測器——例如溫度感測器、MEMS慣性感測器(IMU)和壓力感測器等——還有低解析度視訊時，開發(fā)人員可以折衷精度以取得低功耗。g5zesmc

AI架構的選擇利用霧運算從邊緣擴展至云端

可擴充處理(scalable processing)的概念已經(jīng)擴展到更廣泛的網(wǎng)路——利用霧運算(fog computing)概念，透過在網(wǎng)路上的最佳位置執(zhí)行所需的處理，來彌補邊緣和云端之間的能力差距；例如可以在本地物聯(lián)網(wǎng)(IoT)閘道器或更接近應用現(xiàn)場的本地端伺服器上進行神經(jīng)網(wǎng)路影像處理，而不必在云端進行。這樣做有三個明顯的優(yōu)勢：一是能減少由于網(wǎng)路延遲造成的時延，二來可以更安全，此外還能為必須在云端處理的資料釋出可用的網(wǎng)路頻寬；在更高的層面上，這種方法也通常更節(jié)能。g5zesmc

因此，許多設計師正在開發(fā)內(nèi)建攝影機、影像預處理和神經(jīng)網(wǎng)路AI訊號鏈(signal chains)功能的獨立產(chǎn)品，這些產(chǎn)品僅在相對較閉回路(closed-loop)的運作中呈現(xiàn)輸出，例如已識別標志(自駕車)或人臉(家用保全系統(tǒng))。在更極端的案例中，例如設置在偏遠或難以到達之處，以電池或太陽能供電的裝置，可能需要長時間地進行這種處理。g5zesmc

EDNT181005_AIhardware_NT31P2 g5zesmc

圖2：GreenWave的GAP8采用9個RISC-V處理器核心，針對網(wǎng)路邊緣智慧裝置上的低功耗AI處理進行了最佳化。
（圖片來源：GreenWaves Technologies）g5zesmc

為了幫助降低這種邊緣AI影像處理的功耗，GreenWaves Technologies的GAP8處理器整合了9個RISC-V核心；其中一個核心負責硬體和I/O控制功能，其余8個核心則圍繞共用資料和指令記憶體形成一個叢集(如圖2)。這種結構形成了CNN推理引擎加速器，具備額外的RISC-V ISA指令來強化DSP類型的運算。g5zesmc

GAP8是為網(wǎng)路邊緣的智慧裝置量身打造，在功耗僅幾十毫瓦(mW)的情況下可實現(xiàn)8GOPS運算，或者在1mW時可實現(xiàn)200 MOPS運算；它完全可以用C/C++語言來編程，最小待機電流為70nA。g5zesmc

AI處理器架構比一比：RISC-V vs. Arm

RISC-V開放性硬體架構在一開始遭到質疑，因為那需要一個忠實穩(wěn)固的使用者社群，以提供一系列豐富的支援工具和軟體；而隨著該架構透過各種測試晶片和硬體實作吸引更多開發(fā)者加入，那些質疑也逐漸消退。RISC-V吸引人之處在于它正成為Arm處理器的強勁對手，特別是在超低功耗、低成本應用上；只要談到低成本就會錙銖必較，因此免費方案總是會感覺比需要支付授權費的方案更好。g5zesmc

不過雖然RISC-V架構的GAP8可以節(jié)能并且針對邊緣神經(jīng)網(wǎng)路處理進行了高度最佳化，從系統(tǒng)開發(fā)的角度來看仍然需要考慮周邊功能，例如攝影機感測器本身和網(wǎng)路通訊介面，以及是采用有線還是無線技術等；依據(jù)系統(tǒng)通訊和處理影像的次數(shù)頻率，這些功能占用的功耗比例可能較高。根據(jù)GreenWaves的說法，GAP8若采用3.6Wh的電池供電，能以每3分鐘分類一張QVGA影像的頻率持續(xù)工作長達10年；但該數(shù)字并未考量整體系統(tǒng)中其他因素的影響。g5zesmc

GreenWaves將其GAP8處理器與采用Arm Cortex-M7核心、運作頻率216MHz的意法半導體(ST)處理器STM32 F7進行了直接比較(圖3)；兩者以CIFAR-10資料集的影像進行訓練，權重量化為8位元定點(fixed point)。g5zesmc

EDNT181005_AIhardware_NT31P3 g5zesmc

圖3：GreenWaves Technologies的GAP8與ST的STM32 F7處理器性能比較。
（圖片來源：GreenWaves Technologies）g5zesmc

雖然GAP8因為擁有八核心架構而呈現(xiàn)更高效率，并能以較低時脈速率與更少的周期實現(xiàn)推理，Arm架構也不遑多讓──Arm已經(jīng)發(fā)表了針對行動裝置和其他相鄰、網(wǎng)路邊緣應用的機器學習(ML)處理器，其應用場景包括AR/VR、醫(yī)療、消費性電子產(chǎn)品以及無人機等；該架構采用固定功能引擎(fixed-function engines)來執(zhí)行CNN層，并采用可程式化層(programmable layer)引擎來執(zhí)行非卷積層以及實現(xiàn)所選基元(primitive)和運算子(operator)，參考圖4。g5zesmc

EDNT181005_AIhardware_NT31P4 g5zesmc

圖4：Arm的ML處理器設計用于CNN類型固定功能以及可程式化層引擎的低功耗邊緣處理。
（圖片來源：Arm）g5zesmc

有趣的是，ML處理器是以高度可擴充架構為基礎，因此同一處理器和工具可用于開發(fā)從物聯(lián)網(wǎng)到、嵌入式工業(yè)和交通，到網(wǎng)路處理和伺服器等各種應用，運算性能要求從20 MOPS到70 TOPS以上不等。g5zesmc

如果開發(fā)團隊希望從云端往下擴充，或從邊緣往上擴充，那么這種可擴充性比較適合之前討論的霧運算概念。此外該處理器本身與主流神經(jīng)網(wǎng)路學習框架緊密整合，例如Google的TensorFlow和TensorFlow Lite，以及Caffe和Caffe 2；它還針對Arm Cortex CPU和Arm Mali GPU進行了最佳化。g5zesmc

在異質處理體系架構中部署AI

透過ML處理器，Arm還強調(diào)了異質(heterogenous)方法對AI應用之神經(jīng)網(wǎng)路的重要性，但僅限于其CPU和GPU的狹窄范圍內(nèi)。從更廣泛的角度來看，英特爾(Intel)的OpenVINO (Visual Inference & Neural Network Optimization，視覺推理和神經(jīng)網(wǎng)路最佳化)工具套件可以實現(xiàn)異質混合架構的開發(fā)，包括CPU、GPU與FPGA，當然還有英特爾自家的Movidius視覺處理器(VPU)和基于Atom的影像處理器(IPU)。利用通用API以及針對OpenCV和OpenVX最佳化的呼叫(call)，英特爾聲稱其深度學習性能可以提高19倍。g5zesmc

異質方法對于針對AI的神經(jīng)網(wǎng)路處理既有好處又不可或缺...g5zesmc

閱讀全文，請先

Patrick Mannion

EDN特約技術編輯。Patrick Mannion是一位自由撰稿人。他曾擔任UBM Electronics媒體的副總裁兼品牌總監(jiān)，旗下曾包括EE Times、EDN、Embedded.com、Planet Analog、EBN和TechOnline。他擁有工程學學位。

進入專欄

處理器人工智能市場分析

微信掃一掃，一鍵轉發(fā)
關注“國際電子商情” 微信公眾號

英特爾已暫停法國、意大利芯片投資計劃
國際電子商情23日訊據(jù)外媒報道，芯片制造業(yè)務面臨巨額虧損，迫使英特爾暫停在法國和意大利的芯片廠投資計劃。
大芯片病，怎么治？
2020年10月，英偉達將基于Mellanox的智能網(wǎng)卡(SmartNIC)方案命名為數(shù)據(jù)處理單元(Data?Processing?Units,?DPU)，并將CPU、GPU、DPU稱之為組成“未來計算的三大支柱”。
軟銀宣布收購英國AI芯片公司Graphcore
國際電子商情12日訊日本軟銀集團以未公開的金額收購了人工智能芯片制造商 Graphcore，結束了人們對該公司未來的長期猜測。
應對半導體制造用工荒，美國再推“勞動力伙伴聯(lián)盟”計劃
國際電子商情2日訊據(jù)外媒報道，美國拜登政府正在啟動一項培養(yǎng)美國計算機芯片勞動力的計劃。
歐盟能靠投資RISC-V實現(xiàn)芯片自主嗎？
歐盟大力投資以RISC-V開源架構實現(xiàn)芯片獨立的倡議。這項工作由巴塞羅那超級計算中心牽頭，該中心在RISC-V技術的開發(fā)方面一直走在前列。
芯片巨頭Intel遭遇集體訴訟：涉嫌隱瞞代工業(yè)務巨額虧損
國際電子商情17日訊據(jù)外媒報道，芯片巨頭英特爾公司目前正面臨一場集體訴訟。原告方指控英特爾在2023年的業(yè)績報告中未正確披露其晶圓代工部門的巨額虧損情況。
消息稱英特爾暫停以色列250億美元工廠擴建計劃
國際電子商情12日訊?美國芯片制造商英特爾公司已決定停止在以色列擴建其價值250億美元的芯片工廠，也通知供應商取消了為新工廠提供設備和材料的合同。
PC市場開始反彈：Arm攻勢猛烈，英偉達可能要造CPU...
要觀察消費電子市場的興衰，最該在意的無疑一是手機，一是PC。過去一季常聽行業(yè)談起市場要恢復，這個話題有沒有說服力，主要就看手機和PC市場有沒有恢復了。
2024，MCU的“四大變局”
隨著物聯(lián)網(wǎng)設備的快速增長和智能化水平的提高，微控制器(MCU)作為智能設備的核心部件，正面臨著前所未有的發(fā)展機遇。
借瑞薩RA8系列MCU，聊聊Arm Helium技術
我們一直都很好奇，MCU作為一種對實時性有要求的控制器，是如何實現(xiàn)邊緣AI處理工作的。所以這篇文章，我們期望借著RA8來談談Arm?Helium技術。
傳軟銀洽談收購英國AI芯片公司Graphcore
國際電子商情11日訊近日，有消息稱，日本軟銀或在洽談收購英國芯片設計公司Graphcore…
iFixit拆解華為Pura 70稱本土零部件價值高于Mate 60
國際電子商情9日訊據(jù)拆解機構調(diào)查發(fā)現(xiàn)，華為 (Huawei) 最新發(fā)布手機配備更多的中國供應商組件，包括一款新的閃存芯片和一款改進的芯片處理器，這表明中國在技術自給自足方面正在取得進展。

AI芯片供不應求，業(yè)界：半導體后端制程標準應統(tǒng)一
在各大半導體廠商搶攻AI商機之際，芯片產(chǎn)能卻趕不上需求。
2024年全球AI服務器產(chǎn)值可望達1870億美元，約占服務器市場比重65%
TrendForce集邦咨詢預估AI服務器第2季出貨量將季增近20%，全年出貨量上修至167萬臺，年增率達41.5%。
預估2024年DRAM及NANDFlash營收將分別同增75%和77%
根據(jù)TrendForce集邦咨詢最新存儲器產(chǎn)業(yè)分析報告，受惠于位元需求成長、供需結構改善拉升價格，加上HBM(高帶寬內(nèi)
預計2025年存儲器產(chǎn)業(yè)營收將創(chuàng)新高，價格上漲和HBM、QLC技術崛起為
根據(jù)TrendForce集邦咨詢最新存儲器產(chǎn)業(yè)分析報告，受惠于位元需求成長、供需結構改善拉升價格，加上HBM(高帶寬內(nèi)
中國團隊存儲器研究取得系列進展
近日，中國科學院上海微系統(tǒng)與信息技術研究所宋志棠、雷宇研究團隊，在三維相變存儲器（3D PCM）亞閾值讀取電路、高
TCL電子上半年MiniLED電視全球出貨量同比增長122.4%
7月21日，TCL電子公布2024年上半年全球出貨量數(shù)據(jù)，TCL電子表示，得益于公司在全球市場的積極開拓和品牌影響力的
厚度僅100nm！新型超薄晶體薄膜半導體被成功研制
據(jù)美國趣味科學網(wǎng)站16日報道，來自美國麻省理工學院、美國陸軍作戰(zhàn)能力發(fā)展司令部（DEVCOM）陸軍研究實驗室和加拿
車用及不可見光業(yè)務旺，億光下半年業(yè)績可望逐季成長
全球LED市場復蘇，車用照明與顯示、照明、LED顯示屏及不可見光LED等市場需求有機會逐步回溫，億光下半年車用及
拆解：三星GalaxyWatch7中的ExynosW1000處理器3nmGAA工藝
三星最新推出的Galaxy Watch 7，繼續(xù)重新定義可穿戴技術的極限。這款最新型號承襲了其前身產(chǎn)品的成功之處，同時
2024年Q2印度智能手機市場微增1%，小米重返榜首
2024年第二季度，在印度大選、季節(jié)性需求低迷以及部分地區(qū)極端天氣等各種因素的影響下，印度智能手機市場微增1%
三星連續(xù)51個季度領跑拉丁美洲智能手機市場
根據(jù)TechInsights無線智能手機戰(zhàn)略（WSS）的最新研究，2024年Q1，拉丁美洲智能手機出貨量強勁增長，同比增長21%。
2030年，Chiplet計算細分市場規(guī)模預計將達到1450億美元
Chiplet的出現(xiàn)標志著半導體設計和生產(chǎn)領域正在經(jīng)歷一場深刻的變革，尤其在設計成本持續(xù)攀升的背景下。

兆易創(chuàng)新將攜多款GD32?MCU產(chǎn)品亮相全球MCU及嵌入式生態(tài)發(fā)展大會
7月25日，由全球領先的專業(yè)電子機構媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
定檔！IC?CHINA?2024將于11月在北京舉辦??！
“芯”聚正當時！第二十一屆中國國際半導體博覽會（IC?CHINA?2024）正式定檔，將于2024年11月18-20日在北京·國家
國民技術將攜多款高能專用MCU亮相全球MCU及嵌入式生態(tài)發(fā)展大會
7月25日，由全球領先的專業(yè)電子機構媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
凱新達科技 ┃ 亮相2024中國（西部）電子信息博覽會
2024年7月17日-19日，國內(nèi)專業(yè)的電子元器件混合分銷商凱新達科技（Kaxindakeji）應邀參加2024年中國（西部）電子信息
芯片產(chǎn)業(yè)鏈大咖齊聚蘇州，共商供應鏈管理策略
在7月12日下午的“芯片分銷及供應鏈管理研討會”分論壇上，芯片分銷及供應鏈專家共聚一堂，共謀行業(yè)發(fā)展大計。
“芯”機遇 ! 凱新達科技亮相2024慕尼黑上海電子展
7月8日-10日，2024慕尼黑上海電子展(elec-tronica China)于上海新國際博覽中心盛大開展，凱新達科技被邀重磅亮
未來可期——浙豪攜手小華半導體亮相慕尼黑上海電子展
2024年7月8日到10日，浙豪半導體（杭州）有限公司作為小華半導體的優(yōu)秀合作伙伴，在2024慕尼黑上海電子展上展出了
領芯微攜LCM32F067系列MCU亮相國際AIoT生態(tài)發(fā)展大會
7月25日，由全球領先的專業(yè)電子機構媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
2024 Matter?開發(fā)者大會7大看點不容錯過！
近日，2024?Matter?中國區(qū)開發(fā)者大會在廣州隆重召開。
泰凌微將攜低功耗物聯(lián)網(wǎng)無線芯片亮相國際AIoT生態(tài)發(fā)展大會
7月25日，由全球領先的專業(yè)電子機構媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
第十六屆集成電路封測產(chǎn)業(yè)鏈創(chuàng)新發(fā)展論壇在蘇州開幕
7月13日，以“共筑先進封裝新生態(tài)，引領路徑創(chuàng)新大發(fā)展”為主題的第十六屆集成電路封測產(chǎn)業(yè)鏈創(chuàng)新發(fā)展論壇(CIPA
摩爾斯微電子任命胡文杰為副總裁兼大中華區(qū)及東南亞地區(qū)經(jīng)理
新任副總裁將推動亞太地區(qū)的增長和創(chuàng)新。

為不同應用慎選AI硬體加速方案

與數(shù)學相關度不高AI重點在于快速反覆運算

ASIC還不足以托付AI加速任務

AI架構的選擇利用霧運算從邊緣擴展至云端

AI處理器架構比一比：RISC-V vs. Arm

在異質處理體系架構中部署AI

雜志聲明