午夜性刺激在线观看免费,全免费A级毛片免费看无码,国产精品亚洲一区二区三区久久,亚洲精品无码久久久久,国产三区在线成人AV,亚洲乱码一区二区三区在线欧美,国产一区二区视频在线播放,久久亚洲精品无码观看不卡,精品九九人人做人人爱,少妇人妻无码精品视频app

廣告

為不同應用慎選AI硬體加速方案

從很多方面來看,AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似......與DSP協(xié)同處理器一樣,AI加速器的目標是找到最快速、最節(jié)能的方法來執(zhí)行所需的運算任務...

從云端的大數(shù)據(jù)(big data)處理到邊緣端的關鍵字識別和影像分析,人工智慧(AI)應用的爆炸式成長促使專家們前仆后繼地開發(fā)最佳架構,以加速機器學習(ML)演算法的處理。各式各樣的新興解決方案都凸顯了設計人員在選擇硬體平臺之前,明確定義應用及其需求的重要性。g5zesmc

從很多方面來看,AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似;在那個時候,隨著有線和無線通訊起飛,市場上紛紛推出高性能DSP協(xié)同處理器(co-processor )以因應基頻處理的挑戰(zhàn)。與DSP協(xié)同處理器一樣,AI加速器的目標是找到最快速、最節(jié)能的方法來執(zhí)行所需的運算任務。g5zesmc

神經(jīng)網(wǎng)路處理背后的數(shù)學,涉及統(tǒng)計學、多元微積分(multivariable calculus)、線性代數(shù)、數(shù)值最佳化(numerical optimization)和機率等;雖然很復雜,也是高度可平行化的(parallelizable)。但事實上這是令人尷尬的可平行化──與分散式運算不同,在路徑的輸出被重組并產(chǎn)生輸出結果之前,很容易被分解為沒有分支(branches)或從屬關系(dependencies)的平行路徑。g5zesmc

在各種神經(jīng)網(wǎng)路演算法中,卷積神經(jīng)網(wǎng)路(CNN)特別擅長物件識別類任務——也就是從影像中過濾篩選出感興趣的物件。CNN以多維矩陣(multidimensional matrices)──即張量(tensor)──架構來理解資料,將超出第三個維度的每個維度都嵌入到子陣列中(如圖1),每個添加的維度稱為「階」(order),因此,五階張量會有五個維度。g5zesmc

EDNT181005_AIhardware_NT31P1g5zesmc

圖1:CNN以張量架構攝取資料,也就是可被視覺化為3D立方體的數(shù)字矩陣(資料集);每個陣列中還有一個子陣列,該數(shù)字定義了CNN的深度。
(圖片來源:Skymind)g5zesmc

與數(shù)學相關度不高AI重點在于快速反覆運算

這種多維分層對于理解CNN所需之加速的本質很重要,卷積過程使用乘法在數(shù)學上將兩個函數(shù)「卷繞」(roll)在一起,因此廣泛使用乘加(multiply-accumulate,MAC )數(shù)學運算;舉例來說,在物件識別中,一個函數(shù)是源影像,另一個函數(shù)是用來識別特征然后將其映射到特征空間的篩檢程式(filter)。每個篩檢程式都要多次執(zhí)行這種「卷繞」,以識別影像中的不同特征,因此數(shù)學運算變得非常重復,且是令人尷尬(或令人愉悅)的可平行化。g5zesmc

為此,某些AI加速器的設計采用多個獨立的處理器核心(高達數(shù)百或上千個),與記憶體子系統(tǒng)一起整合在單晶片中,以減輕資料存取延遲并降低功耗。然而,由于業(yè)界已設計了繪圖處理器(GPU)來對影像處理功能進行高度平行處理,因此它們對于AI所需的這種神經(jīng)網(wǎng)路處理也可以實現(xiàn)很好的加速。AI應用的多樣性和深度,特別是在語音控制、機器人、自動駕駛和大數(shù)據(jù)分析等方面,已經(jīng)吸引了GPU供應商將重點轉移到AI處理硬體加速的開發(fā)。g5zesmc

然而AI硬體加速的問題,在于有如此多的資料,所需的準確性和回應時間又有如此大的差別,設計人員必須對于架構的選擇非常講究。例如資料中心是資料密集型的,其重點是盡可能快速處理資料,因此功耗并非特別敏感的因素——盡管能源效率有利于延長設備使用壽命,降低設施的整體能耗和冷卻成本,這是合理的考量。百度的昆侖(Kunlun)處理器耗電量為100W,但運算性能達到260 TOPS,就是一款特別適合資料中心應用的處理器。g5zesmc

接下來看另一個極端的案例。如關鍵字語音辨識這樣的任務需要與云端連結,以使用自然語言識別來執(zhí)行進一步的命令。現(xiàn)在這種任務在采用法國業(yè)者GreenWaves Technologies之GAP8處理器的電池供電邊緣裝置上就可以實現(xiàn);該處理器是專為邊緣應用設計,強調(diào)超低功耗。g5zesmc

介于中間的應用,如自動駕駛車輛中的攝影機,則需要盡可能接近即時反應,以識別交通號志、其他車輛或行人,同時仍需要最小化功耗,特別是對于電動車來說;這種情況或許需要選擇第三種方案。云端連結在此類應用中也很重要,如此才能即時更新所使用的模型和軟體,以確保持續(xù)提高準確度、反應時間和效率。g5zesmc

ASIC還不足以托付AI加速任務

正因為這是一個在軟、硬體方面都迅速發(fā)展,需要在技術上持續(xù)更新的領域,并不建議將AI神經(jīng)網(wǎng)路(NN)加速器整合到ASIC或是系統(tǒng)級封裝(SiP)中——盡管這樣的整合具有低功耗、占用空間小、成本低(大量時)和記憶體存取速度快等優(yōu)點。加速器、模型和神經(jīng)網(wǎng)路演算法的變動太大,其靈活性遠超過指令導向(instruction-driven)方法,只有像Nvidia這種擁有先進技術、資金雄厚的玩家才能夠負擔得起不斷在硬體,而在硬體上根據(jù)特定方法進行反覆運算。g5zesmc

這種硬體加速器開發(fā)工作的一個很好的例子,就是Nvidia在其Tesla V100 GPU中增加了640個Tensor核心,每個核心在一個時脈周期內(nèi)可以執(zhí)行64次浮點(FP)融合乘加(fused-multiply-add,F(xiàn)MA)運算,可為訓練和推理應用提供125 TFLOPS的運算性能。借助該架構,開發(fā)人員可以使用FP16和FP32累加的混合精度(mixed precision)進行深度學習訓練,運算速度比Nvidia自家上一代Pascal架構高3倍。g5zesmc

混合精度方法很重要,因為長期以來人們已經(jīng)認識到,雖然高性能運算(HPC)需要使用32~256位元FP的精確運算,但深度神經(jīng)網(wǎng)路(DNN)不需要這么高的精度;這是因為經(jīng)常用于訓練DNN的反向傳播演算法(back-propagation algorithm)對誤差具有很強的彈性,因此16位元半精度(FP16)對神經(jīng)網(wǎng)路訓練就足夠了。g5zesmc

此外,儲存FP16資料比儲存FP32或FP64資料的記憶體效率更高,從而可以訓練和部署更多的網(wǎng)路,而且對許多網(wǎng)路來說,8位元整數(shù)運算(integer computation)就足夠了,對準確性不會有太大影響。g5zesmc

這種使用混合精度運算的能力在邊緣甚至會更實用,當資料登錄的來源是低精度、低動態(tài)范圍的感測器——例如溫度感測器、MEMS慣性感測器(IMU)和壓力感測器等——還有低解析度視訊時,開發(fā)人員可以折衷精度以取得低功耗。g5zesmc

AI架構的選擇利用霧運算從邊緣擴展至云端

可擴充處理(scalable processing)的概念已經(jīng)擴展到更廣泛的網(wǎng)路——利用霧運算(fog computing)概念,透過在網(wǎng)路上的最佳位置執(zhí)行所需的處理,來彌補邊緣和云端之間的能力差距;例如可以在本地物聯(lián)網(wǎng)(IoT)閘道器或更接近應用現(xiàn)場的本地端伺服器上進行神經(jīng)網(wǎng)路影像處理,而不必在云端進行。這樣做有三個明顯的優(yōu)勢:一是能減少由于網(wǎng)路延遲造成的時延,二來可以更安全,此外還能為必須在云端處理的資料釋出可用的網(wǎng)路頻寬;在更高的層面上,這種方法也通常更節(jié)能。g5zesmc

因此,許多設計師正在開發(fā)內(nèi)建攝影機、影像預處理和神經(jīng)網(wǎng)路AI訊號鏈(signal chains)功能的獨立產(chǎn)品,這些產(chǎn)品僅在相對較閉回路(closed-loop)的運作中呈現(xiàn)輸出,例如已識別標志(自駕車)或人臉(家用保全系統(tǒng))。在更極端的案例中,例如設置在偏遠或難以到達之處,以電池或太陽能供電的裝置,可能需要長時間地進行這種處理。g5zesmc

EDNT181005_AIhardware_NT31P2g5zesmc

圖2:GreenWave的GAP8采用9個RISC-V處理器核心,針對網(wǎng)路邊緣智慧裝置上的低功耗AI處理進行了最佳化。
(圖片來源:GreenWaves Technologies)g5zesmc

為了幫助降低這種邊緣AI影像處理的功耗,GreenWaves Technologies的GAP8處理器整合了9個RISC-V核心;其中一個核心負責硬體和I/O控制功能,其余8個核心則圍繞共用資料和指令記憶體形成一個叢集(如圖2)。這種結構形成了CNN推理引擎加速器,具備額外的RISC-V ISA指令來強化DSP類型的運算。g5zesmc

GAP8是為網(wǎng)路邊緣的智慧裝置量身打造,在功耗僅幾十毫瓦(mW)的情況下可實現(xiàn)8GOPS運算,或者在1mW時可實現(xiàn)200 MOPS運算;它完全可以用C/C++語言來編程,最小待機電流為70nA。g5zesmc

AI處理器架構比一比:RISC-V vs. Arm

RISC-V開放性硬體架構在一開始遭到質疑,因為那需要一個忠實穩(wěn)固的使用者社群,以提供一系列豐富的支援工具和軟體;而隨著該架構透過各種測試晶片和硬體實作吸引更多開發(fā)者加入,那些質疑也逐漸消退。RISC-V吸引人之處在于它正成為Arm處理器的強勁對手,特別是在超低功耗、低成本應用上;只要談到低成本就會錙銖必較,因此免費方案總是會感覺比需要支付授權費的方案更好。g5zesmc

不過雖然RISC-V架構的GAP8可以節(jié)能并且針對邊緣神經(jīng)網(wǎng)路處理進行了高度最佳化,從系統(tǒng)開發(fā)的角度來看仍然需要考慮周邊功能,例如攝影機感測器本身和網(wǎng)路通訊介面,以及是采用有線還是無線技術等;依據(jù)系統(tǒng)通訊和處理影像的次數(shù)頻率,這些功能占用的功耗比例可能較高。根據(jù)GreenWaves的說法,GAP8若采用3.6Wh的電池供電,能以每3分鐘分類一張QVGA影像的頻率持續(xù)工作長達10年;但該數(shù)字并未考量整體系統(tǒng)中其他因素的影響。g5zesmc

GreenWaves將其GAP8處理器與采用Arm Cortex-M7核心、運作頻率216MHz的意法半導體(ST)處理器STM32 F7進行了直接比較(圖3);兩者以CIFAR-10資料集的影像進行訓練,權重量化為8位元定點(fixed point)。g5zesmc

EDNT181005_AIhardware_NT31P3g5zesmc

圖3:GreenWaves Technologies的GAP8與ST的STM32 F7處理器性能比較。
(圖片來源:GreenWaves Technologies)g5zesmc

雖然GAP8因為擁有八核心架構而呈現(xiàn)更高效率,并能以較低時脈速率與更少的周期實現(xiàn)推理,Arm架構也不遑多讓──Arm已經(jīng)發(fā)表了針對行動裝置和其他相鄰、網(wǎng)路邊緣應用的機器學習(ML)處理器,其應用場景包括AR/VR、醫(yī)療、消費性電子產(chǎn)品以及無人機等;該架構采用固定功能引擎(fixed-function engines)來執(zhí)行CNN層,并采用可程式化層(programmable layer)引擎來執(zhí)行非卷積層以及實現(xiàn)所選基元(primitive)和運算子(operator),參考圖4。g5zesmc

EDNT181005_AIhardware_NT31P4g5zesmc

圖4:Arm的ML處理器設計用于CNN類型固定功能以及可程式化層引擎的低功耗邊緣處理。
(圖片來源:Arm)g5zesmc

有趣的是,ML處理器是以高度可擴充架構為基礎,因此同一處理器和工具可用于開發(fā)從物聯(lián)網(wǎng)到、嵌入式工業(yè)和交通,到網(wǎng)路處理和伺服器等各種應用,運算性能要求從20 MOPS到70 TOPS以上不等。g5zesmc

如果開發(fā)團隊希望從云端往下擴充,或從邊緣往上擴充,那么這種可擴充性比較適合之前討論的霧運算概念。此外該處理器本身與主流神經(jīng)網(wǎng)路學習框架緊密整合,例如Google的TensorFlow和TensorFlow Lite,以及Caffe和Caffe 2;它還針對Arm Cortex CPU和Arm Mali GPU進行了最佳化。g5zesmc

在異質處理體系架構中部署AI

透過ML處理器,Arm還強調(diào)了異質(heterogenous)方法對AI應用之神經(jīng)網(wǎng)路的重要性,但僅限于其CPU和GPU的狹窄范圍內(nèi)。從更廣泛的角度來看,英特爾(Intel)的OpenVINO (Visual Inference & Neural Network Optimization,視覺推理和神經(jīng)網(wǎng)路最佳化)工具套件可以實現(xiàn)異質混合架構的開發(fā),包括CPU、GPU與FPGA,當然還有英特爾自家的Movidius視覺處理器(VPU)和基于Atom的影像處理器(IPU)。利用通用API以及針對OpenCV和OpenVX最佳化的呼叫(call),英特爾聲稱其深度學習性能可以提高19倍。g5zesmc

異質方法對于針對AI的神經(jīng)網(wǎng)路處理既有好處又不可或缺...g5zesmc

Patrick Mannion
EDN特約技術編輯。Patrick Mannion是一位自由撰稿人。 他曾擔任UBM Electronics媒體的副總裁兼品牌總監(jiān),旗下曾包括EE Times、EDN、Embedded.com、Planet Analog、EBN和TechOnline。 他擁有工程學學位。
  • 微信掃一掃,一鍵轉發(fā)

  • 關注“國際電子商情” 微信公眾號

近期熱點

廣告
廣告

EE直播間

更多>>

在線研討會

更多>>
欧美XXXX做受性欧美88| 国产香蕉一区二区三区在线视频| 少妇被躁爽到高潮无码人狍大战| 无码4800YY私人影院在线看| 国产在线无码精品麻豆不卡| 天天搞夜夜爽aaaaa级毛片免费视频| 在线国产又粗又硬又黄大片| 久久ZYZ资源站无码中文动漫| 一级a一级a国产爰片免费免免| 成人区人妻精品一区二区三区| 网友分享AV无码高潮AV心得| 國產SM重味一區二區三區| 94久久国产乱子伦精品免费| 国产A级毛片久久久久久精品| 久久免费播放区午夜夜伦鲁鲁片无码| 欧美日韩一区二区三| 人妻中文字幕无码系列| 俺也来俺也去俺也射| 亚洲欧洲日产国码久在线| 精品国产91久久久久久久久| jizzjizzjizz亚洲熟妇 | 好爽进去了视频在线观看国版| 久久99中文字幕无码| 亚洲国产欧美精品一区二区三区| 97AV麻豆蜜桃一区二区| 婷婷蜜桃国产精品一区| 国产精品色视频ⅩXXX| 日本中文字幕乱码免费| 少妇一级婬片免费放| 欧美内射AAAAAAXXXXX,男人的JJ| 久久中文字幕人妻熟AV女| 久在线中文字幕亚洲日韩| 亚洲天堂中文字幕在线观看电影| 野花视频在线观看免费观看最新| 亚洲国产精品成人精品无码区在线| 777国产精品永久免费| 中国老太卖婬HD播放| 国产人人干人人透免费看| 热RE99久久6国产精品免费| 国产在线aa视频免费观看| 夜夜精品无码一区二区三区|