深度神經(jīng)網(wǎng)絡就像遙遠地平線上的海嘯一樣涌來。Mkaesmc
鑒于該技術仍在演變的算法和應用,目前還不清楚深度神經(jīng)網(wǎng)絡(DNNs)最終會帶來什么變化。但是,迄今為止,它們在翻譯文本、識別圖像和語言方面所取得的成就,清楚地表明他們將重塑計算機設計,而這種變化正在半導體設計和制造方面發(fā)生同樣深刻的變化。Mkaesmc
量身定制的第一批商用芯片將于今年上市。由于訓練新的神經(jīng)網(wǎng)絡模型可能需要幾周或幾個月的時間,因此這些芯片可能是迄今為止制造的最大的,因此也是最昂貴的大規(guī)模商用集成電路芯片。Mkaesmc
新創(chuàng)公司追逐深度學習
今年的行業(yè)可能會看到來自創(chuàng)業(yè)公司Graphcore的一款微處理器,該公司不使用DRAM,而是來自競爭對手Cerebras Systems的晶圓級集成開拓先鋒。英特爾收購的2.5-D Nervana芯片已經(jīng)在生產(chǎn)樣片,其他十幾個處理器正在開發(fā)中。同時,從Arm到西部數(shù)據(jù)(Western Digital)的芯片公司正在研究內(nèi)核,以加速深層神經(jīng)網(wǎng)絡的推理部分。Mkaesmc
“我認為(2018年)將是一場即將到來的派對。”加州大學伯克利分校名譽教授大衛(wèi)·帕特森(David Patterson)表示:“我們剛剛開始看到許多公司正在評估一些想法。”Mkaesmc
這個趨勢非常明顯,帕特森和合著者約翰·亨尼西(John Hennessey)在上個月發(fā)表的關于計算機的開創(chuàng)性文本的最新版本中,為它寫了一個新的篇章。作者對內(nèi)部設計提供了深入的見解,例如Patterson為其貢獻的Google TensorFlow處理器(TPU),以及最新Apple和Google智能手機芯片中的Microsoft Catapult FPGA和推理模塊。Mkaesmc
“這是計算機體系結構和封裝的復興?!?Patterson說:“明年我們會看到比過去十年更有趣的電腦?!?span style="display:none">Mkaesmc
深度神經(jīng)網(wǎng)絡的興起在過去幾年里把風險投資的資金帶回到了半導體領域。 “EE Times(電子工程專輯美國版)”最新推出的初創(chuàng)公司評選項目“Silicon 60”中,列舉了七家初創(chuàng)公司,其中包括兩個鮮為人知的名稱:寒武紀科技 Cambricon Technologies(北京寒武紀科技)和Mythic Inc.(Austin,Texas)。Mkaesmc
“我們看到基于新架構的新創(chuàng)公司激增。我自己跟蹤了15到20家......過去10到15年中,在任何一個細分領域中半導體行業(yè)都不曾有超過15家的半導體公司同時涌現(xiàn)的事情”,企業(yè)家Chris Rowen說。他從Cadence Design Systems離職后,成立了一家公司Cognite Ventures,專注于神經(jīng)網(wǎng)絡軟件。Mkaesmc
“Nvidia由于其強大的軟件地位,將難以與高端服務器進行訓練的競爭。如果你去追求智能手機市場你會覺得自己瘋了,因為你必須在很多方面都做得出色。不過在高端或是低端的智能手機市場,還是會可能有一些機會?!绷_文說。Mkaesmc
市場觀察家Linley集團負責人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他們調(diào)整了對DNN的速度培訓。 “但我當然不認為這是最好的設計,”Gwennap說。Mkaesmc
Gwennap說,Graphcore(英國布里斯托爾)和Cerebras(加利福尼亞州Los Altos)是培訓芯片最多的兩家初創(chuàng)公司,因為他們籌集的資金最多,而且似乎擁有最好的團隊。由Google前芯片設計師創(chuàng)立的初創(chuàng)公司Groq聲稱,它將在2018年推出一款推理芯片,在每秒的總操作和推論中都會以四倍的優(yōu)勢擊敗競爭對手。Mkaesmc
Mkaesmc
英特爾的Nervana是一個大型線性代數(shù)加速器,位于硅中介層上,緊鄰四個8-GB HBM2存儲器堆棧。消息來源:Hennessy和Patterson著寫的《計算機體系結構:一種定量方法》Mkaesmc
Intel的Nervana,被稱為Lake Crest(上圖),是最受關注的定制設計之一。它執(zhí)行16位矩陣操作,數(shù)據(jù)共享指令集中提供的單個5位指數(shù)。Mkaesmc
與Nvidia的Volta一樣,Lake Crest邏輯器件位于TSMC的CoWoS(襯底上芯片上芯片)中介層上,緊鄰著四個HBM2高帶寬存儲器堆棧。這些芯片被設計成網(wǎng)狀,提供五到十倍于Volta的性能。Mkaesmc
雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對這種方法持懷疑態(tài)度。 “你為(FPGA)的靈活性付出了很多代價。編程真的很難,”他說。Mkaesmc
Gwennap在去年年底的一項分析中指出,DSP也將發(fā)揮作用。 Cadence、Ceva和Synopsys都提供面向神經(jīng)網(wǎng)絡的DSP內(nèi)核,他說。Mkaesmc
加速器缺少共同基準
雖然芯片即將問世,但是架構師們還沒有決定如何去評估它們。Mkaesmc
就像RISC處理器的早期,Patterson回憶說,“每個公司都會說,'你不能相信別人的基準,但是你可以相信我的',那不太好。Mkaesmc
那時,RISC供應商在SPEC基準測試中進行了合作?,F(xiàn)在,DNN加速器需要自己定義的測試套件,涵蓋各種數(shù)據(jù)類型的訓練和推理以及獨立的或是集群的芯片。Mkaesmc
聽取了這個呼吁,交易處理性能委員會(TPC)是一個由20多個頂級服務器和軟件制造商組成的小組,12月12日宣布已經(jīng)組建了一個工作組來定義機器學習的硬件和軟件基準。 TPC-AI委員會主席Raghu Nambiar表示,目標是創(chuàng)建與加速器是CPU還是GPU的測試。但是,這個團隊的成員名單和時間框架還處于不斷變化之中。Mkaesmc
百度公司于2016年9月發(fā)布了一個基于其深度學習工作負載的開放源代碼基準測試工具,使用32位浮點數(shù)學進行訓練任務。它在六月份更新了DeepBench以涵蓋推理工作和16位數(shù)學的使用。Mkaesmc
哈佛研究人員發(fā)表的Fathom套件中定義的八個AI工作負載支持整數(shù)和浮點數(shù)據(jù)。帕特森說:“這是一個開始,但是要獲得一個讓人感覺舒適的全面基準測試套件,還需要更多的工作?!?span style="display:none">Mkaesmc
“如果我們把努力做成一個好的基準,那么所有投入工程的錢都會花得值得?!彼f。Mkaesmc
除了基準之外,工程師需要跟蹤仍在演變的神經(jīng)網(wǎng)絡算法,以確保他們的設計不會被束之高閣。Mkaesmc
高通公司下一代核心研發(fā)總監(jiān)Karam Chatha表示:“軟件總是在變化,但是你需要盡早把硬件拿出來,因為它會影響軟件 - 你不得不催促讓它發(fā)生。到目前為止,移動芯片供應商正在驍龍SoC的DSP和GPU內(nèi)核上運行神經(jīng)網(wǎng)絡工作,但一些觀察家預計,它將為機器學習定制一個新的模塊, 放在2019年7納米驍龍 SoC里。Mkaesmc
圖文:高通公司展示了一個自定義DNN加速器的研究范例,但是現(xiàn)在它使用通用DSP和GPU內(nèi)核的軟件。 (來源:高通)Mkaesmc
Patterson說:“市場決定哪種芯片最好。 “這是殘酷的,但這是設計電腦讓人興奮之處。”Mkaesmc
早期進入的玩家已經(jīng)有機會進入到游戲中。Mkaesmc
例如,F(xiàn)acebook最近證明,通過大幅增加打包到所謂批量大小的功能數(shù)量,可以將培訓時間從一天縮短到一小時。對于試圖在本地SRAM中運行所有操作的Graphcore來說這可能是個壞消息,消除了外部DRAM訪問的延遲,同時也限制了它的內(nèi)存占用。Mkaesmc
“他們?yōu)樾∨繑?shù)據(jù)包而設計的,但幾個月前的軟件結果表明你想要一個大批量數(shù)據(jù)包。這表明事情變化的速度有多快,“帕特森說。Mkaesmc
另一方面,雷克斯電腦(Rex Computing)認為正在迎來一個有利的機遇。該初創(chuàng)公司的SoC最初是為高性能服務器設計的,它使用了一種新穎的暫存器內(nèi)存。 Rex的方法消除了在虛擬頁面表中緩存數(shù)據(jù)的需求,這是GPU使用的一種技術,增加了他們的延遲,聯(lián)合創(chuàng)始人Thomas Sohmers說。Mkaesmc
因此,Rex芯片比現(xiàn)在的GPU要好得多,特別是在處理流行的矩陣/矢量運算神經(jīng)網(wǎng)絡時,他說。新創(chuàng)公司計劃6月份推出16納米的256核的SoC,希望能提供256 Gflops / watt的運算能力。Mkaesmc
與此同時,研究人員正在嘗試從32位到單位浮點和整數(shù)數(shù)學的一切可能,以找到最有效的方法來計算神經(jīng)網(wǎng)絡結果。他們似乎同意的一點是,最好不要在精確度級別之間轉換。Mkaesmc
AI算法仍處于發(fā)展初期
深度神經(jīng)網(wǎng)絡是幾十年來一直在人工智能方面進行的相對較小的工作。從2012年左右開始,包括Facebook的Yann LeCun在內(nèi)的研究人員開始使用特定種類的DNN識別圖像,并最終以比人類更高的準確度顯示令人驚嘆的結果。深度學習技術吸引了研究界,現(xiàn)在正以高速發(fā)表論文,尋求新的突破。Mkaesmc
DNN現(xiàn)在提供商業(yè)服務,如亞馬遜的Alexa和谷歌翻譯,以及Facebook的面部識別。網(wǎng)絡巨頭和他們的全球競爭對手,正在競相將這些技術應用于盡可能多的服務中,并期待盡可能找到殺手級應用。Mkaesmc
微軟每年都會以AI為主題舉行兩次員工內(nèi)部會議。最近一次有5000人參加,前SPARC處理器架構師Marc Tremblay表示,他現(xiàn)在領導微軟在定制AI芯片和系統(tǒng)方面的工作。Mkaesmc
專家承認,他們并不完全理解為什么現(xiàn)有的算法工作得很好。辯論主題是探討這些網(wǎng)絡算法的相對有效性,例如遞歸(RNN)和卷積(CNN)神經(jīng)網(wǎng)絡。同時,新的模式仍在發(fā)明之中。Mkaesmc
“五年內(nèi)算法仍然極有可能發(fā)生改變。我們在賭,像矩陣乘法這樣的最底層的算法是不可改變的?!盇MD研究員艾倫·拉什(Allen Rush)在最近一次關于人工智能的IEEE研討會上說。Mkaesmc
這就是Google用TPU做出的賭注,最新版本的TPU是針對訓練和推理工作的。它本質(zhì)上是一個大的乘法累加單元,運行和存儲線性代數(shù)例程的結果。 Nervana和Graphcore芯片通常預計將效仿。Mkaesmc
哈佛大學前大腦研究人員Amir Khosrowshahi說,在神經(jīng)網(wǎng)絡方面取得的成功主要集中在人工智能領域。他目前是英特爾Nervana集團的首席技術官,創(chuàng)立了Nervana公司。他在IEEE研討會上表示:“由于深度學習非常成功,所以事情正在席卷而下。 每個人都在做卷積神經(jīng)網(wǎng)絡,這是一場悲劇......不要以為現(xiàn)在發(fā)生的事情一年后就一定會到來?!?span style="display:none">Mkaesmc
圖:今天的DNN得到了很多關注,但是只代表了更廣泛AI領域的一小部分。 (來源:英特爾)Mkaesmc
盡管DNN可以比人類更精確地識別圖像,“如今的數(shù)據(jù)科學家被迫花費著難以接受的時間對數(shù)據(jù)進行預處理,對模型和參數(shù)進行迭代,并且等待訓練的收斂......每一步都要么過于勞累,要么太計算密集型,“Khosrowshahi說。Mkaesmc
總的來說,“人工智能的難題仍然非常難,”他補充說。 “最好的研究人員可以得到一個機器人來打開一扇門,但拿起杯子可能比贏得Alpha Go還要更難?!?span style="display:none">Mkaesmc
在這種環(huán)境下,F(xiàn)acebook和Google等網(wǎng)絡巨頭正在發(fā)布大型數(shù)據(jù)集,以吸引更多的人從事諸如視頻等新應用領域或數(shù)據(jù)類型的識別問題。Mkaesmc
拓展應用領域
隨著算法的發(fā)展,研究人員也在推動深度學習的應用前沿。Mkaesmc
Google旨在系統(tǒng)地將DNN應用于從幫助盲人用到的自動字幕照片,到以閱讀磁共振成像掃描結果、到監(jiān)測工廠車間的質(zhì)量控制等問題。谷歌人工智能研發(fā)負責人李佳(Jia Li)在IEEE研討會上表示:“人工智能不是一項技術或產(chǎn)品。 “我們需要開始理解一個領域,然后收集數(shù)據(jù),找到算法,并提出解決方案。每一個新問題我們都需要一個不同的模型?!?span style="display:none">Mkaesmc
事實上,人們正在將DNN應用于幾乎所有領域,包括設計和制造芯片。英特爾編制了四十多種可能用途的清單,包括了從消費者網(wǎng)上購物助手到華爾街自動交易的程序。Mkaesmc
目前擔任Target公司數(shù)據(jù)科學家,前IBM研究人員Shirish Tatikonda,對應用領域給予了更加清醒的認識。大部分零售商的數(shù)據(jù)都是關系數(shù)據(jù),而不是最適合神經(jīng)網(wǎng)絡的非結構化數(shù)據(jù)。 Shirish Tatikonda在個活動后的簡短采訪中表示,Target的業(yè)務問題中只有大約10%適用于DNN。盡管如此,該公司正在積極開拓這一領域,其系統(tǒng)中約有10%是面向培訓神經(jīng)網(wǎng)絡模型的GPU服務器。Mkaesmc
為了擴大這種巨大的努力,谷歌的研究人員正在探索他們所謂的AutoML。這個想法是使用神經(jīng)網(wǎng)絡自動生成模型,而不需要數(shù)據(jù)科學家手動調(diào)整它們。Mkaesmc
盡管許多最近的努力試圖縮小它們的內(nèi)存占用量,但是DNN模型在尺寸上仍然差別很大。 來源:高通Mkaesmc
機器人技術先驅羅德尼?布魯克斯(Rodney Brooks)擔心,預期可能會失控。 他在最近的一次談話中說:“深度學習是好的,但它正在成為一個錘子,人們可以用它去打碎一切東西。”Mkaesmc
就帕特森而言,他仍然樂觀。 他說,雖然廣泛的人工智能領域沒有達到過去的承諾,但它在機器翻譯等領域的成功是真實的。 “可能所有低處的果實都被采摘下來后,人們沒有發(fā)現(xiàn)什么更令人興奮的事情,但是你幾乎每個星期都會看到新的進展......所以我認為我們會發(fā)現(xiàn)AI有更多的用途。”Mkaesmc
首度致力于軟體融合
行業(yè)第一次致力于軟件融合。Mkaesmc
在早期的瘋狂和分散之中,即使是軟件融合的努力也是分散的。百度的人工智能研究團隊進行了一項調(diào)查,發(fā)現(xiàn)了11項措施,彌補用于管理神經(jīng)網(wǎng)絡的競爭軟件框架之間的差距。Mkaesmc
最有希望的是開放神經(jīng)網(wǎng)絡交換(ONNX),這是一個由Facebook和微軟開始的開源項目,最近由亞馬遜加入。該小組在12月份發(fā)布了ONNX格式的第一版。它旨在將用十幾個競爭軟件框架中的任何一個創(chuàng)建的神經(jīng)網(wǎng)絡模型轉換成圖形表示。Mkaesmc
芯片制造商可以在結果圖上定位他們的硬件。這對于那些不能編寫獨立軟件來支持競爭模型框架的創(chuàng)業(yè)公司來說是個好消息,例如Amazon的MxNet,Google的TensorFlow,F(xiàn)acebook的Caffe2以及微軟的CNTK。Mkaesmc
由30多家主要芯片供應商組成的團隊于12月20日發(fā)布了他們的首選選項 - 神經(jīng)網(wǎng)絡交換格式(Neural Network Exchange Format,簡稱NNEF)。NNEF旨在為芯片制造商提供創(chuàng)建自己的內(nèi)部格式的替代方案,就像英特爾在Nervana Graph和Nvidia所做的那樣與TensorRT。Mkaesmc
在百度找到的其他格式的大寫字母名稱縮寫中,有ISAAC,NNVM,Poplar和XLA。百度硅谷人工智能實驗室高級研究員格雷格·迪莫斯(Greg Diamos)表示:“現(xiàn)在知道是否會出現(xiàn)一個成功的實施可能還為時過早,但是我們正在走上一條更好的路,其中一條最終可能會勝出?!?span style="display:none">Mkaesmc
圖文: 在人工智能框架中,亞馬遜聲稱其MxNet框架和新興的Gluon API提供了最好的效率。 (來源:亞馬遜)Mkaesmc
另外,谷歌已經(jīng)開始使用軟件來自動化精簡DNN模型的過程,以便他們可以運行從智能手機到物聯(lián)網(wǎng)(IoT)節(jié)點的所有事情。 如果成功的話,可以將50Mbyte的模型降低到500K字節(jié)。Mkaesmc
谷歌還在探索如何在手機上進行有限的模型培訓,方法是根據(jù)當天收集的數(shù)據(jù)調(diào)整模型的頂層或者在夜間運行的一個流程。 像SqueezeNet和MobileNet這樣的行業(yè)工作也類似地展示了更簡單的成像模型的路徑。Mkaesmc
負責Google TensorFlow Lite工作的Pete Warden表示:“我們看到了大量使用機器學習的人們在各種各樣的產(chǎn)品中大量涌現(xiàn)。 “讓每次運算的能耗降下來這件事,讓我每天工作到深夜?!?span style="display:none">Mkaesmc
展望未來
當專家細看AI的未來時,他們看到了一些有趣的可能。Mkaesmc
今天我們使用基于手動調(diào)整模型的監(jiān)督式學習。谷歌的守望者(Warden)是在不久的將來出現(xiàn)半監(jiān)督方法的研究人員之一,手機等客戶端設備自己處理一些學習。最終目標是無監(jiān)督的學習 - 計算機教育它們自己,而不再需要建造它們的工程師的編程幫助。Mkaesmc
在這條路上,研究人員正在設法自動標記數(shù)據(jù),這些數(shù)據(jù)來自手機或物聯(lián)網(wǎng)(IoT)節(jié)點等設備。Mkaesmc
“谷歌說,現(xiàn)在我們需要大量的計算,在這個過度階段,一旦事情被自動標記,你只需要索引新的增量內(nèi)容,這更像是人類如何處理數(shù)據(jù),”Janet George,西部數(shù)據(jù)的科學家說。Mkaesmc
無監(jiān)督學習打開了加速機器智能時代的大門,有些人認為這是數(shù)字化的必殺技。另一些人則擔心技術可能會在沒有人為干預的情況下以災難性的方式失控。 Google公司TPU項目負責人Norm Jouppi說:“這讓我感到害怕。Mkaesmc
同時,從事半導體工作的學者對未來的AI芯片有自己的長遠展望。Mkaesmc
英特爾,Graphcore和Nvidia“已經(jīng)在制造全標線芯片,下一步就是三維技術”,Patterson說。 “當摩爾定律如火如荼時,由于擔心可靠性和成本問題,人們會在看到復雜的封裝技術之前就臨陣退縮了?,F(xiàn)在摩爾定律正在結束,我們將看到很多封裝方面的實驗?!?span style="display:none">Mkaesmc
這里的最終游戲是創(chuàng)造出新型的晶體管,可以在邏輯和存儲器層上堆疊。Mkaesmc
Notre Dame電氣工程教授蘇曼·達塔(Suman Datta)看好負電容鐵電晶體管技術的晶體管。他在最近召開的所謂的單體三維(3-D)結構會議上展望了該領域的前景。這樣的設計應用和先進的3-D NAND閃存已經(jīng)采用了on-die芯片堆棧技術。Mkaesmc
來自伯克利,麻省理工學院和斯坦福大學的團隊將在二月份的國際固態(tài)電路會議上展示一個類似的前沿技術。芯片(下圖)將電阻RAM(ReRAM)結構堆疊在由碳納米管制成的邏輯上的碳納米管。Mkaesmc
伯克利,麻省理工學院和斯坦福大學的研究人員將在ISSCC上報告一種使用碳納米管,ReRAM和圖案作為計算元素的新型加速器。 (來源:加州大學伯克利分校)Mkaesmc
從DNN獲得靈感,該設備被編程為近似模式,而不是計算機迄今使用的確定性數(shù)字。 伯克利教授揚·拉巴伊(Jan Rabaey)說,這個所謂的高維計算使用了幾萬維的向量作為計算元素,伯克利教授為本文做出了貢獻,并且是英特爾AI顧問委員會成員。Mkaesmc
Rabaey說,這樣的芯片可以從例子中學習,并且比傳統(tǒng)系統(tǒng)需要的操作要少得多。一塊測試芯片將很快問世,它使用振蕩器陣列,作為與相關存儲器陣列中的采用了ReRAM單元的模擬邏輯。Mkaesmc
Rabaey在IEEE人工智能研討會上表示:“我夢想的引擎,是可以隨身攜帶,現(xiàn)場為我提供指導......我的目標是推動AI運行在小于100毫伏的運行。 我們需要重新思考我們?nèi)绾巫鲇嬎恪?我們正在從基于算法的系統(tǒng)轉向基于數(shù)據(jù)的系統(tǒng)。”Mkaesmc
*作者: Rick Merritt, EETimes硅谷主編Mkaesmc
編譯:Mike ZhangMkaesmc
本文為《電子工程專輯》作者原創(chuàng),版權所有,未經(jīng)許可,不得轉載。Mkaesmc
Mkaesmc