日前,中國領(lǐng)先的視頻監(jiān)控芯片供貨商中星微電子發(fā)布,中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)“星光智能一號”的最新成果,該芯片已于今年3月6日實現(xiàn)量產(chǎn)。Trcesmc
單顆NPU由28納米工藝制造,能耗僅為400mW,可廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領(lǐng)域。Trcesmc
國家重點實驗室執(zhí)行主任張韻東介紹說,NPU采用了“數(shù)據(jù)驅(qū)動并行計算”的架構(gòu),徹底顛覆了傳統(tǒng)的馮諾依曼架構(gòu)。這種數(shù)據(jù)流(Dataflow)類型的處理器,極大地提升了計算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù),使得人工智能在嵌入式機器視覺應(yīng)用中可以大顯身手。Trcesmc
在不久前的人機大戰(zhàn)中,AlphaGo依靠模仿人腦生物機理的深度學(xué)習(xí)算法而擊敗人類。深度學(xué)習(xí),是源于對生物人腦機理的仿生學(xué)研究而形成的一種人工智能算法。Trcesmc
作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的一種,卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)算法,已成為當(dāng)前人工智能機器視覺領(lǐng)域的研究熱點。CNN算法模型的特性可以概括為海量的輸入數(shù)據(jù)、大規(guī)模的MAC運算、稀疏的權(quán)值矩陣、靈活的數(shù)據(jù)位寬和多樣的網(wǎng)絡(luò)拓撲等特性。
“星光智能一號”芯片Trcesmc
張韻東介紹,NPU是針對CNN的算法模型特性而專門設(shè)計的一款神經(jīng)網(wǎng)絡(luò)處理器。每個NPU處理器具有4個內(nèi)核(NPU Core),每個內(nèi)核有兩個數(shù)據(jù)流處理器(Dataflow Processor), 每個數(shù)據(jù)流處理器具有8個長位寬或16個短位寬的SIMD(單指令多數(shù)據(jù))運算單元。在一個時鐘周期內(nèi)可同時完成64個長位寬MAC運算或者128個短位寬MAC運算。每個NPU核具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級聯(lián)的方式進一步擴展,以滿足更復(fù)雜的CNN網(wǎng)絡(luò)運算的性能需求。Trcesmc
“每個NPU核還具有256KB Level-2 Cache,以及整塊數(shù)據(jù)搬移(Block Data Access),片內(nèi)數(shù)據(jù)共享(Data-sharing Between Processor Units),提升數(shù)據(jù)流的吞吐效率。” 張韻東表示,在軟件方面,利用了稀疏數(shù)據(jù)優(yōu)化(Optimization for Sparse Data)等特性提高計算效率?!癗PU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡(luò)框架, 支持AlexNet、GoogleNet等各類神經(jīng)網(wǎng)絡(luò)?!?span style="display:none">Trcesmc
與傳統(tǒng)CPU處理器相比,這種NPU處理器的信息處理能力要高出100倍甚至1000倍,能讓攝像頭變成“帶大腦的眼睛”,推動機器視覺等人工智能技術(shù)從高大上的科學(xué)實驗室走進尋常百姓家。
Trcesmc