午夜性刺激在线观看免费,全免费A级毛片免费看无码,国产精品亚洲一区二区三区久久,亚洲精品无码久久久久,国产三区在线成人AV,亚洲乱码一区二区三区在线欧美,国产一区二区视频在线播放,久久亚洲精品无码观看不卡,精品九九人人做人人爱,少妇人妻无码精品视频app

廣告

比摩爾定律快得多:為什么要將AI算力擴展至ExaFLOPs百億億次量級?

當通用計算逐漸在性能、能效比提升逐年放緩的情況下,摩爾定律放緩、登納德縮放定律失效,被人們每每提及的“架構(gòu)革新”成為一種必然。Graphcore的IPU可算是當代“架構(gòu)革命”的先驅(qū)之一。Graphcore的架構(gòu)革命究竟能帶來什么?

被譽為英國半導體之父,同時也是Arm聯(lián)合創(chuàng)始人的Hermann Hauser先前曾經(jīng)這樣評價過Graphcore:“這在計算機歷史上只發(fā)生過三次,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。他們的芯片是這個世界偉大新架構(gòu)的一種。”zSKesmc

當通用計算逐漸在性能、能效比提升逐年放緩的情況下,摩爾定律放緩、登納德縮放定律失效,被人們每每提及的“架構(gòu)革新”成為一種必然。Graphcore的IPU可算是當代“架構(gòu)革命”的先驅(qū)之一。Graphcore的架構(gòu)革命究竟能帶來什么?zSKesmc


Graphcore CEO Nigel ToonzSKesmc

為什么需要革命?

神經(jīng)網(wǎng)絡(luò)(NN)的一大特點,就是在邏輯層面對人腦神經(jīng)元行為的模擬。更加高度抽象地說,以“推理”過程為例,我們“感知”世界的方式,總是通過非精確數(shù)據(jù)進行推理,從經(jīng)驗中學習,以及基于世界模型的嘗試。就好比人類大腦辨認一只貓的過程,是基于經(jīng)驗的、常識模型的,而且是低精度的,我們不需要精確獲知這只動物身上究竟有多少根毛發(fā)、眼睛尺寸的具體數(shù)值等,便可推理出這是一只貓。zSKesmc

今年的2019全球CEO峰會上,Graphcore CEO Nigel Toon在題為Exascale Compute with IPU的主題演講中提到,如今智能機器(Intelligence Machine)的常規(guī)方案,即是獲取訓練(training)數(shù)據(jù)/傳感器數(shù)據(jù),然后借由“概率知識模型”在本地進行推理(inference),并最終得到結(jié)果。zSKesmc

“什么樣的數(shù)據(jù)、什么樣的方法去捕捉他們要訓練的這些數(shù)據(jù),數(shù)據(jù)間的應(yīng)用關(guān)系;就像孩子一樣,大腦不斷地吸收他們的知識,才能產(chǎn)生這樣的模型,這些是需要長時間建立的。”Toon表示。除此之外,這類型的工作極少出現(xiàn)分支和其他復雜行為任務(wù)(分支這類型的任務(wù)是CPU的專長),可以分解成單獨、半獨立的線程;而且計算精度要求并沒有那么高。zSKesmc

20191107-002.jpgzSKesmc

這樣一來GPU這種具備處理重度并行任務(wù)能力的處理器也就非常適用,不過GPU的效率仍然不夠高。Graphcore在前兩年的一次主題演講中特別提到了GPU的Dark Silicon[1],畢竟GPU有一部分是專為圖形渲染做高性能計算的,這樣一來就存在大量資源浪費;而且主流GPU核心區(qū)域的片上存儲資源仍然是不夠的,數(shù)據(jù)吞吐能力也就沒有那么強。zSKesmc

前面提到的“知識模型”包含的特點有:自然呈現(xiàn)為計算圖(graphs,代表的是知識模型和應(yīng)用,所有機器學習模型都用graph的形式來表達)、支持高度并行計算、需要海量數(shù)據(jù)帶寬、小型張量(small tensors)的低精度算法。這其實是AI芯片誕生的重要契機。zSKesmc

另一方面,“機器智能”的要求還在發(fā)生進化。我們現(xiàn)在更多的應(yīng)用,并不是單純能識別一只貓這么簡單,更多的比如語言理解,以及更多的高級感知能力——如汽車輔助駕駛系統(tǒng)或者自動駕駛中,對司機情緒、疲勞程度的判斷等。與此同時,模型尺寸正在變得越來越大。我們前兩年還在說:好的卷積神經(jīng)網(wǎng)絡(luò),通常是帶有“上百萬參數(shù)”和許多隱藏層的怪物。不過在這些年不同應(yīng)用的發(fā)展中,“上百萬”又算得上什么?zSKesmc

Toon列舉在2016年1月的殘差網(wǎng)絡(luò)ResNet50參數(shù)總量25M,到2018年10月的BERT-Large自然語言模型發(fā)展到了330M,如今OpenAI會講故事的文本生成模型GPT2——這是一個大型語言模型,具有15億個參數(shù);未來的新模型是朝著萬億(trillion)量級去的。zSKesmc

20191107-003.jpgzSKesmc

上面這張圖,來自去年年中OpenAI發(fā)布的一份名為《AI與計算》的分析報告[2]。這份報告提到,自2012年以來,AI訓練(training)任務(wù)應(yīng)用的算力需求每3.5個月就會翻倍,這個數(shù)字可是超過了摩爾定律的;從2012年至今,AI算力增長超過30萬倍。這張圖縱軸的單位,每1個petaflop/s-day(pfs-day),就包含了一天每秒10^15次神經(jīng)網(wǎng)絡(luò)運行次數(shù),或者總數(shù)大約10^20次操作(不過這個統(tǒng)計針對一次“操作”的定義,沒有區(qū)分加法、乘法,而且不區(qū)分數(shù)據(jù)精度)。zSKesmc

需要注意的是,這張圖的縱軸刻度并不呈線性,而是指數(shù)級增加。zSKesmc

20191107-004.jpgzSKesmc

當我們真正去對比當前芯片的晶體管數(shù)量,以及性能變化時,其實很容易發(fā)現(xiàn),摩爾定律大趨勢是持續(xù)的,但登納德縮放比例定律(晶體管密度增加同時,每個晶體管功耗會下降)已經(jīng)達到極限——我們在先前的文章中也已經(jīng)不止一次地提到過這個問題。早些年,Steve Scott還在英偉達特斯拉業(yè)務(wù)部門擔任CTO(現(xiàn)在是Cray的CTO)的時候就說過這個觀點:晶體管已經(jīng)無法在體積縮小的情況下持續(xù)降低電壓,這樣一來,雖然集成的晶體管越來越多,但也意味著功耗越來越大:性能因此受到功耗限制,每一次制程迭代,都會加重該問題。zSKesmc

所以解決方案是?

去年《連線(WIRED)》雜志在采訪AI之父Geoff Hinton說:“我認為我們需要轉(zhuǎn)向不同類型的計算機。幸運的是我這里有一個...”Hinton從錢包里掏出一枚又大又亮的硅芯片:IPU。zSKesmc

這段是Toon在全球CEO峰會上講的,看起來很像是個段子。不過從連線雜志的原報道來看[3],這件事竟然是真的,當時Hinton拿出來的是Graphcore的原型產(chǎn)品。Geoff Hinton現(xiàn)如今是谷歌AI頂級研究人員,此人早在上世紀70年代就開始構(gòu)建人類大腦從視覺層面理解世界的數(shù)學模型。所以這件事,又讓Graphcore獲得了一重加持。zSKesmc

實際上,現(xiàn)如今的AI芯片已經(jīng)遍地開花了,不管是訓練(training)還是推理(inferencing),包括Arm前不久都已經(jīng)發(fā)布了針對邊緣AI推理的專用IP。這其實已經(jīng)足夠表明,這種“架構(gòu)革命”風卷殘云式的來襲。zSKesmc

簡單地說:CPU通過手機數(shù)據(jù)塊來處理問題,然后針對這些信息跑算法或執(zhí)行邏輯操作,其通用性很好,適用于各種計算,但可并行的核心數(shù)量經(jīng)常只有個位數(shù);GPU核心數(shù)或執(zhí)行單元數(shù)量大,可同時執(zhí)行更多任務(wù),但如前所述,其效率還是不夠的;而AI芯片,則能夠從不同位置同時拉來大量數(shù)據(jù),進行快速和更高并行數(shù)的處理:Graphcore的IPU(Intelligence Processing Units)是其中一種。zSKesmc

20191107-005.jpgzSKesmc

Graphcore可以認為是這個領(lǐng)域最早的一批開創(chuàng)者。IPU的“架構(gòu)變革”部分體現(xiàn)在,整合芯片邏輯和存儲部分,在片上分布SRAM,讓IPU達到100倍吞吐;此外,16nm "Colossus" IPU包含了超過1200個低精度浮點運算核心,和所有機器學習所需的控制操作與超越函數(shù),125 teraFLOPS算力;每個核心能夠跑至多6個線程。zSKesmc

另外搭配Graphcore針對機器智能設(shè)計的軟件工具鏈Poplar。Toon先前在接受采訪時曾提到:“Poplar建立在計算圖形抽象(computational graph abstraction)的基礎(chǔ)上。其graph compiler的IR(intermediate representation中間層)是個大型的定向圖。”Graph圖像共享作為內(nèi)部的representation,整個知識模型的representation最后都會分解為高度并行的工作負載,然后在IPU處理器之間進行調(diào)度和執(zhí)行。一句話概括就是,Poplar通過不同層級的優(yōu)化,在IPU核心之間部署任務(wù)。[4]zSKesmc

Poplar支持TensorFlow、PyTorch、OONX、Keras等框架。“從這些高層級的框架獲取輸出,喂進Poplar軟件層,產(chǎn)生高層級的graph,并將這些graph映射到跑在IPU處理器上的一張完整計算graph上。”這其實也是當前AI芯片開發(fā)的常規(guī)思路。zSKesmc

總結(jié)一下,這些嘗試解決的問題實質(zhì)就是本文第一部分提出的,當代“知識模型”的那些要求,包括高吞吐、高度并行、低精度等,并在性能要求上滿足模型越來越貪婪的需求。zSKesmc

IPU的幾個特點,第一是被稱作graphs型的計算(computation on graphs,包括了高度并行、稀疏化(sparse)、高維度模型、分布式片上存儲);第二,低精度,寬動態(tài)范圍算法(混合精度,16.32,和更低);第三,靜態(tài)圖形結(jié)構(gòu)(編譯器可分解任務(wù)、分配存儲,調(diào)度messages,塊同步并行、無序化、adress-less通訊);最后是Entropy Generative(比如產(chǎn)生統(tǒng)一分布整數(shù)、Generation of vectors of approximately Gaussian distributed floats等)。zSKesmc

ExaFLOPS級別的擴展

Nigel Toon提到,IPU產(chǎn)品已經(jīng)向戴爾出貨,戴爾易安信IPU服務(wù)器即是一款比較具體的產(chǎn)品。如我們先前所了解的那樣,這款數(shù)據(jù)中心設(shè)備,每臺插8張C2 PCIe加速卡(每個C2卡包含兩個IPU),能夠?qū)崿F(xiàn)1.6 petaFLOPS的算力。戴爾其實也是Graphcore企業(yè)市場策略的重要組成部分。zSKesmc

20191107-006.jpgzSKesmc

20191107-007.jpgzSKesmc

從IPU先前的介紹來看,它具備card-to-card links的彈性擴展機制。在前不久的NeurIPS展會上占了一個名為Rackscale IPU-POD的參考設(shè)計。Nigel Toon這次講IPU-POD稱作“機器智能超級計算機”,“這部分去年10月,我們開始逐步付諸實施。”這可以認為是將IPU彈性應(yīng)用到極致的某種示例。zSKesmc

一個單獨的42U機架IPU-Pod能夠提供超過16 PetaFLOPS混合精度算力;一套32個IPU-POD(至多4096個IPU),可以將算力彈性擴展至超過0.5 ExaFLOPS的程度,這對同硬件的訓練和推理,都是相當驚人的吞吐量。zSKesmc

顯然針對Toon前面提到神經(jīng)網(wǎng)絡(luò)模型在體積和算力需求方面的擴張,是越來越必要的一種應(yīng)用方案。zSKesmc

20191107-008.jpg
可彈性擴展至0.5 ExaFLOPs的IPU-POD
zSKesmc

作為英國的一家獨角獸企業(yè),Graphcore是被Nigel Toon寄予了厚望的。他一直期望在英國建立一個具備Arm同等影響力的科技企業(yè)。當前Graphcore的融資總額已經(jīng)達到3.25億美元,這在我們先前的全球CEO峰會展望篇中已有所提及。不過在應(yīng)對AI芯片越來越多市場參與者,包括大量初創(chuàng)型企業(yè),以及Intel、英偉達這些老牌企業(yè)的入場,Graphcore和Nigel Toon的競爭壓力顯然也是不小的。zSKesmc

20191107-009.jpgzSKesmc

參考來源:

[1]https://cdn2.hubspot.net/hubfs/729091/NIPS2017/NIPS%2017%20-%20IPU.pdf?t=1526305355186zSKesmc
[2]https://openai.com/blog/ai-and-compute/zSKesmc
[3]https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/zSKesmc
[4]https://www.eet-china.com/news/201909211859.html
zSKesmc

本文為國際電子商情原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。請尊重知識產(chǎn)權(quán),違者本司保留追究責任的權(quán)利。
黃燁鋒
歐陽洋蔥,編輯、上海記者,專注成像、移動與半導體,熱愛理論技術(shù)研究。
  • 微信掃一掃,一鍵轉(zhuǎn)發(fā)

  • 關(guān)注“國際電子商情” 微信公眾號

近期熱點

廣告
廣告

EE直播間

更多>>

在線研討會

更多>>
四虎国产精品永久在线| 一级亚洲特黄在线视频| 亚洲老熟女激情亚洲| 久久久久无码精品国产不卡| 亚洲欧美日韩综合久久久久| 久久99精品久久久久久国产人妖| 香蕉久久夜色精品国产尤物| 国产精品自在线拍国产手青青机版| 一区二区性生活观看玖玖资源站国产精品| 国产一级a毛一级a看免费视频一区二区三区| 国产中文字幕久久精品网址| 国产精品乱码高清在线观看| 亚洲天堂2019女人天堂| 欧美日韩国产中文精品字幕自在自线| 亚洲精品国产专区91在线| 性高朝久久久久久久久久| 一区二区免费国产区二区| 1080P 国产麻豆剧传媒精品国产AV| 女儿的朋友7中汉字晋通话| 亚洲中文字幕精品久久久久久直播| 1024手机在线精品观看| 免费看女人与公拘交酡过程| 欧美一级一区二区中文字幕| 久久精品国产亚洲AV大全| 精品国产高清一区二区广区| 熟妇人妻AV无码一区二区三区| 又黄又爽又无遮挡免费的网站| 高清看男人插曲女人视频| 国产成人精品日本亚洲黑人| 永久免费精品精品永久夜色| 国产成人AV一区二区三区无码| 久久亚洲AV成人无码动态图| 国产成人Av区一区二区三| 亚洲日产乱码一二三区别| 国产精品亚洲AV三区国产毛片| 美国一级aⅤ一区二区在线| 99久久精品免费看国产一区二区| 亚欧免费无码Aⅴ在线观看网站| 亚洲无人区午夜福利码高清完整版 | 97人人看碰人免费公开视频| 亚洲AV无码一区二区三区少妇o|