亚洲成在人网站无码天堂,精品午夜视频一区二,熟妇人妻无乱码中文字幕真矢织江

當通用計算逐漸在性能、能效比提升逐年放緩的情況下，摩爾定律放緩、登納德縮放定律失效，被人們每每提及的“架構(gòu)革新”成為一種必然。Graphcore的IPU可算是當代“架構(gòu)革命”的先驅(qū)之一。Graphcore的架構(gòu)革命究竟能帶來什么？

被譽為英國半導體之父，同時也是Arm聯(lián)合創(chuàng)始人的Hermann Hauser先前曾經(jīng)這樣評價過Graphcore：“這在計算機歷史上只發(fā)生過三次，第一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。他們的芯片是這個世界偉大新架構(gòu)的一種。”zSKesmc

當通用計算逐漸在性能、能效比提升逐年放緩的情況下，摩爾定律放緩、登納德縮放定律失效，被人們每每提及的“架構(gòu)革新”成為一種必然。Graphcore的IPU可算是當代“架構(gòu)革命”的先驅(qū)之一。Graphcore的架構(gòu)革命究竟能帶來什么？zSKesmc

Graphcore CEO Nigel ToonzSKesmc

為什么需要革命？

神經(jīng)網(wǎng)絡(luò)（NN）的一大特點，就是在邏輯層面對人腦神經(jīng)元行為的模擬。更加高度抽象地說，以“推理”過程為例，我們“感知”世界的方式，總是通過非精確數(shù)據(jù)進行推理，從經(jīng)驗中學習，以及基于世界模型的嘗試。就好比人類大腦辨認一只貓的過程，是基于經(jīng)驗的、常識模型的，而且是低精度的，我們不需要精確獲知這只動物身上究竟有多少根毛發(fā)、眼睛尺寸的具體數(shù)值等，便可推理出這是一只貓。zSKesmc

今年的2019全球CEO峰會上，Graphcore CEO Nigel Toon在題為Exascale Compute with IPU的主題演講中提到，如今智能機器（Intelligence Machine）的常規(guī)方案，即是獲取訓練（training）數(shù)據(jù)/傳感器數(shù)據(jù)，然后借由“概率知識模型”在本地進行推理（inference），并最終得到結(jié)果。zSKesmc

“什么樣的數(shù)據(jù)、什么樣的方法去捕捉他們要訓練的這些數(shù)據(jù)，數(shù)據(jù)間的應(yīng)用關(guān)系；就像孩子一樣，大腦不斷地吸收他們的知識，才能產(chǎn)生這樣的模型，這些是需要長時間建立的。”Toon表示。除此之外，這類型的工作極少出現(xiàn)分支和其他復雜行為任務(wù)（分支這類型的任務(wù)是CPU的專長），可以分解成單獨、半獨立的線程；而且計算精度要求并沒有那么高。zSKesmc

zSKesmc

這樣一來GPU這種具備處理重度并行任務(wù)能力的處理器也就非常適用，不過GPU的效率仍然不夠高。Graphcore在前兩年的一次主題演講中特別提到了GPU的Dark Silicon[1]，畢竟GPU有一部分是專為圖形渲染做高性能計算的，這樣一來就存在大量資源浪費；而且主流GPU核心區(qū)域的片上存儲資源仍然是不夠的，數(shù)據(jù)吞吐能力也就沒有那么強。zSKesmc

前面提到的“知識模型”包含的特點有：自然呈現(xiàn)為計算圖（graphs，代表的是知識模型和應(yīng)用，所有機器學習模型都用graph的形式來表達）、支持高度并行計算、需要海量數(shù)據(jù)帶寬、小型張量（small tensors）的低精度算法。這其實是AI芯片誕生的重要契機。zSKesmc

另一方面，“機器智能”的要求還在發(fā)生進化。我們現(xiàn)在更多的應(yīng)用，并不是單純能識別一只貓這么簡單，更多的比如語言理解，以及更多的高級感知能力——如汽車輔助駕駛系統(tǒng)或者自動駕駛中，對司機情緒、疲勞程度的判斷等。與此同時，模型尺寸正在變得越來越大。我們前兩年還在說：好的卷積神經(jīng)網(wǎng)絡(luò)，通常是帶有“上百萬參數(shù)”和許多隱藏層的怪物。不過在這些年不同應(yīng)用的發(fā)展中，“上百萬”又算得上什么？zSKesmc

Toon列舉在2016年1月的殘差網(wǎng)絡(luò)ResNet50參數(shù)總量25M，到2018年10月的BERT-Large自然語言模型發(fā)展到了330M，如今OpenAI會講故事的文本生成模型GPT2——這是一個大型語言模型，具有15億個參數(shù)；未來的新模型是朝著萬億（trillion）量級去的。zSKesmc

zSKesmc

上面這張圖，來自去年年中OpenAI發(fā)布的一份名為《AI與計算》的分析報告[2]。這份報告提到，自2012年以來，AI訓練（training）任務(wù)應(yīng)用的算力需求每3.5個月就會翻倍，這個數(shù)字可是超過了摩爾定律的；從2012年至今，AI算力增長超過30萬倍。這張圖縱軸的單位，每1個petaflop/s-day（pfs-day），就包含了一天每秒10^15次神經(jīng)網(wǎng)絡(luò)運行次數(shù)，或者總數(shù)大約10^20次操作（不過這個統(tǒng)計針對一次“操作”的定義，沒有區(qū)分加法、乘法，而且不區(qū)分數(shù)據(jù)精度）。zSKesmc

需要注意的是，這張圖的縱軸刻度并不呈線性，而是指數(shù)級增加。zSKesmc

zSKesmc

當我們真正去對比當前芯片的晶體管數(shù)量，以及性能變化時，其實很容易發(fā)現(xiàn)，摩爾定律大趨勢是持續(xù)的，但登納德縮放比例定律（晶體管密度增加同時，每個晶體管功耗會下降）已經(jīng)達到極限——我們在先前的文章中也已經(jīng)不止一次地提到過這個問題。早些年，Steve Scott還在英偉達特斯拉業(yè)務(wù)部門擔任CTO（現(xiàn)在是Cray的CTO）的時候就說過這個觀點：晶體管已經(jīng)無法在體積縮小的情況下持續(xù)降低電壓，這樣一來，雖然集成的晶體管越來越多，但也意味著功耗越來越大：性能因此受到功耗限制，每一次制程迭代，都會加重該問題。zSKesmc

所以解決方案是？

去年《連線（WIRED）》雜志在采訪AI之父Geoff Hinton說：“我認為我們需要轉(zhuǎn)向不同類型的計算機。幸運的是我這里有一個...”Hinton從錢包里掏出一枚又大又亮的硅芯片：IPU。zSKesmc

這段是Toon在全球CEO峰會上講的，看起來很像是個段子。不過從連線雜志的原報道來看[3]，這件事竟然是真的，當時Hinton拿出來的是Graphcore的原型產(chǎn)品。Geoff Hinton現(xiàn)如今是谷歌AI頂級研究人員，此人早在上世紀70年代就開始構(gòu)建人類大腦從視覺層面理解世界的數(shù)學模型。所以這件事，又讓Graphcore獲得了一重加持。zSKesmc

實際上，現(xiàn)如今的AI芯片已經(jīng)遍地開花了，不管是訓練（training）還是推理（inferencing），包括Arm前不久都已經(jīng)發(fā)布了針對邊緣AI推理的專用IP。這其實已經(jīng)足夠表明，這種“架構(gòu)革命”風卷殘云式的來襲。zSKesmc

簡單地說：CPU通過手機數(shù)據(jù)塊來處理問題，然后針對這些信息跑算法或執(zhí)行邏輯操作，其通用性很好，適用于各種計算，但可并行的核心數(shù)量經(jīng)常只有個位數(shù)；GPU核心數(shù)或執(zhí)行單元數(shù)量大，可同時執(zhí)行更多任務(wù)，但如前所述，其效率還是不夠的；而AI芯片，則能夠從不同位置同時拉來大量數(shù)據(jù)，進行快速和更高并行數(shù)的處理：Graphcore的IPU（Intelligence Processing Units）是其中一種。zSKesmc

zSKesmc

Graphcore可以認為是這個領(lǐng)域最早的一批開創(chuàng)者。IPU的“架構(gòu)變革”部分體現(xiàn)在，整合芯片邏輯和存儲部分，在片上分布SRAM，讓IPU達到100倍吞吐；此外，16nm "Colossus" IPU包含了超過1200個低精度浮點運算核心，和所有機器學習所需的控制操作與超越函數(shù)，125 teraFLOPS算力；每個核心能夠跑至多6個線程。zSKesmc

另外搭配Graphcore針對機器智能設(shè)計的軟件工具鏈Poplar。Toon先前在接受采訪時曾提到：“Poplar建立在計算圖形抽象（computational graph abstraction）的基礎(chǔ)上。其graph compiler的IR（intermediate representation中間層）是個大型的定向圖。”Graph圖像共享作為內(nèi)部的representation，整個知識模型的representation最后都會分解為高度并行的工作負載，然后在IPU處理器之間進行調(diào)度和執(zhí)行。一句話概括就是，Poplar通過不同層級的優(yōu)化，在IPU核心之間部署任務(wù)。[4]zSKesmc

Poplar支持TensorFlow、PyTorch、OONX、Keras等框架。“從這些高層級的框架獲取輸出，喂進Poplar軟件層，產(chǎn)生高層級的graph，并將這些graph映射到跑在IPU處理器上的一張完整計算graph上。”這其實也是當前AI芯片開發(fā)的常規(guī)思路。zSKesmc

總結(jié)一下，這些嘗試解決的問題實質(zhì)就是本文第一部分提出的，當代“知識模型”的那些要求，包括高吞吐、高度并行、低精度等，并在性能要求上滿足模型越來越貪婪的需求。zSKesmc

IPU的幾個特點，第一是被稱作graphs型的計算（computation on graphs，包括了高度并行、稀疏化（sparse）、高維度模型、分布式片上存儲）；第二，低精度，寬動態(tài)范圍算法（混合精度，16.32，和更低）；第三，靜態(tài)圖形結(jié)構(gòu)（編譯器可分解任務(wù)、分配存儲，調(diào)度messages，塊同步并行、無序化、adress-less通訊）；最后是Entropy Generative（比如產(chǎn)生統(tǒng)一分布整數(shù)、Generation of vectors of approximately Gaussian distributed floats等）。zSKesmc

ExaFLOPS級別的擴展

Nigel Toon提到，IPU產(chǎn)品已經(jīng)向戴爾出貨，戴爾易安信IPU服務(wù)器即是一款比較具體的產(chǎn)品。如我們先前所了解的那樣，這款數(shù)據(jù)中心設(shè)備，每臺插8張C2 PCIe加速卡（每個C2卡包含兩個IPU），能夠?qū)崿F(xiàn)1.6 petaFLOPS的算力。戴爾其實也是Graphcore企業(yè)市場策略的重要組成部分。zSKesmc

zSKesmc

從IPU先前的介紹來看，它具備card-to-card links的彈性擴展機制。在前不久的NeurIPS展會上占了一個名為Rackscale IPU-POD的參考設(shè)計。Nigel Toon這次講IPU-POD稱作“機器智能超級計算機”，“這部分去年10月，我們開始逐步付諸實施。”這可以認為是將IPU彈性應(yīng)用到極致的某種示例。zSKesmc

一個單獨的42U機架IPU-Pod能夠提供超過16 PetaFLOPS混合精度算力；一套32個IPU-POD（至多4096個IPU），可以將算力彈性擴展至超過0.5 ExaFLOPS的程度，這對同硬件的訓練和推理，都是相當驚人的吞吐量。zSKesmc

顯然針對Toon前面提到神經(jīng)網(wǎng)絡(luò)模型在體積和算力需求方面的擴張，是越來越必要的一種應(yīng)用方案。zSKesmc

可彈性擴展至0.5 ExaFLOPs的IPU-PODzSKesmc

作為英國的一家獨角獸企業(yè)，Graphcore是被Nigel Toon寄予了厚望的。他一直期望在英國建立一個具備Arm同等影響力的科技企業(yè)。當前Graphcore的融資總額已經(jīng)達到3.25億美元，這在我們先前的全球CEO峰會展望篇中已有所提及。不過在應(yīng)對AI芯片越來越多市場參與者，包括大量初創(chuàng)型企業(yè)，以及Intel、英偉達這些老牌企業(yè)的入場，Graphcore和Nigel Toon的競爭壓力顯然也是不小的。zSKesmc

zSKesmc

參考來源：

[1]https://cdn2.hubspot.net/hubfs/729091/NIPS2017/NIPS%2017%20-%20IPU.pdf?t=1526305355186zSKesmc
[2]https://openai.com/blog/ai-and-compute/zSKesmc
[3]https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/zSKesmc
[4]https://www.eet-china.com/news/201909211859.htmlzSKesmc

本文為國際電子商情原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。請尊重知識產(chǎn)權(quán)，違者本司保留追究責任的權(quán)利。

閱讀全文，請先

黃燁鋒

歐陽洋蔥，編輯、上海記者，專注成像、移動與半導體，熱愛理論技術(shù)研究。

進入專欄

上一篇:對美好生活的向往正在推動人類不斷前行
下一篇:“Shift Left”搶占世界科技經(jīng)濟先機

微信掃一掃，一鍵轉(zhuǎn)發(fā)
關(guān)注“國際電子商情” 微信公眾號

AI芯片供不應(yīng)求，業(yè)界：半導體后端制程標準應(yīng)統(tǒng)一
在各大半導體廠商搶攻AI商機之際，芯片產(chǎn)能卻趕不上需求。
2024年全球AI服務(wù)器產(chǎn)值可望達1870億美元，約占服務(wù)器市場比重65%
TrendForce集邦咨詢預(yù)估AI服務(wù)器第2季出貨量將季增近20%，全年出貨量上修至167萬臺，年增率達41.5%。
預(yù)估2024年DRAM及NANDFlash營收將分別同增75%和77%
根據(jù)TrendForce集邦咨詢最新存儲器產(chǎn)業(yè)分析報告，受惠于位元需求成長、供需結(jié)構(gòu)改善拉升價格，加上HBM(高帶寬內(nèi)
預(yù)計2025年存儲器產(chǎn)業(yè)營收將創(chuàng)新高，價格上漲和HBM、QLC技術(shù)崛起為
根據(jù)TrendForce集邦咨詢最新存儲器產(chǎn)業(yè)分析報告，受惠于位元需求成長、供需結(jié)構(gòu)改善拉升價格，加上HBM(高帶寬內(nèi)
中國團隊存儲器研究取得系列進展
近日，中國科學院上海微系統(tǒng)與信息技術(shù)研究所宋志棠、雷宇研究團隊，在三維相變存儲器（3D PCM）亞閾值讀取電路、高
TCL電子上半年MiniLED電視全球出貨量同比增長122.4%
7月21日，TCL電子公布2024年上半年全球出貨量數(shù)據(jù)，TCL電子表示，得益于公司在全球市場的積極開拓和品牌影響力的
厚度僅100nm！新型超薄晶體薄膜半導體被成功研制
據(jù)美國趣味科學網(wǎng)站16日報道，來自美國麻省理工學院、美國陸軍作戰(zhàn)能力發(fā)展司令部（DEVCOM）陸軍研究實驗室和加拿
車用及不可見光業(yè)務(wù)旺，億光下半年業(yè)績可望逐季成長
全球LED市場復蘇，車用照明與顯示、照明、LED顯示屏及不可見光LED等市場需求有機會逐步回溫，億光下半年車用及
拆解：三星GalaxyWatch7中的ExynosW1000處理器3nmGAA工藝
三星最新推出的Galaxy Watch 7，繼續(xù)重新定義可穿戴技術(shù)的極限。這款最新型號承襲了其前身產(chǎn)品的成功之處，同時
2024年Q2印度智能手機市場微增1%，小米重返榜首
2024年第二季度，在印度大選、季節(jié)性需求低迷以及部分地區(qū)極端天氣等各種因素的影響下，印度智能手機市場微增1%
三星連續(xù)51個季度領(lǐng)跑拉丁美洲智能手機市場
根據(jù)TechInsights無線智能手機戰(zhàn)略（WSS）的最新研究，2024年Q1，拉丁美洲智能手機出貨量強勁增長，同比增長21%。
2030年，Chiplet計算細分市場規(guī)模預(yù)計將達到1450億美元
Chiplet的出現(xiàn)標志著半導體設(shè)計和生產(chǎn)領(lǐng)域正在經(jīng)歷一場深刻的變革，尤其在設(shè)計成本持續(xù)攀升的背景下。

兆易創(chuàng)新將攜多款GD32?MCU產(chǎn)品亮相全球MCU及嵌入式生態(tài)發(fā)展大會
7月25日，由全球領(lǐng)先的專業(yè)電子機構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
定檔！IC?CHINA?2024將于11月在北京舉辦??！
“芯”聚正當時！第二十一屆中國國際半導體博覽會（IC?CHINA?2024）正式定檔，將于2024年11月18-20日在北京·國家
國民技術(shù)將攜多款高能專用MCU亮相全球MCU及嵌入式生態(tài)發(fā)展大會
7月25日，由全球領(lǐng)先的專業(yè)電子機構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
凱新達科技 ┃ 亮相2024中國（西部）電子信息博覽會
2024年7月17日-19日，國內(nèi)專業(yè)的電子元器件混合分銷商凱新達科技（Kaxindakeji）應(yīng)邀參加2024年中國（西部）電子信息
芯片產(chǎn)業(yè)鏈大咖齊聚蘇州，共商供應(yīng)鏈管理策略
在7月12日下午的“芯片分銷及供應(yīng)鏈管理研討會”分論壇上，芯片分銷及供應(yīng)鏈專家共聚一堂，共謀行業(yè)發(fā)展大計。
“芯”機遇 ! 凱新達科技亮相2024慕尼黑上海電子展
7月8日-10日，2024慕尼黑上海電子展(elec-tronica China)于上海新國際博覽中心盛大開展，凱新達科技被邀重磅亮
未來可期——浙豪攜手小華半導體亮相慕尼黑上海電子展
2024年7月8日到10日，浙豪半導體（杭州）有限公司作為小華半導體的優(yōu)秀合作伙伴，在2024慕尼黑上海電子展上展出了
領(lǐng)芯微攜LCM32F067系列MCU亮相國際AIoT生態(tài)發(fā)展大會
7月25日，由全球領(lǐng)先的專業(yè)電子機構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
2024 Matter?開發(fā)者大會7大看點不容錯過！
近日，2024?Matter?中國區(qū)開發(fā)者大會在廣州隆重召開。
泰凌微將攜低功耗物聯(lián)網(wǎng)無線芯片亮相國際AIoT生態(tài)發(fā)展大會
7月25日，由全球領(lǐng)先的專業(yè)電子機構(gòu)媒體AspenCore與深圳市新一代信息產(chǎn)業(yè)通信集群聯(lián)合主辦的【2024國際AIoT生
第十六屆集成電路封測產(chǎn)業(yè)鏈創(chuàng)新發(fā)展論壇在蘇州開幕
7月13日，以“共筑先進封裝新生態(tài)，引領(lǐng)路徑創(chuàng)新大發(fā)展”為主題的第十六屆集成電路封測產(chǎn)業(yè)鏈創(chuàng)新發(fā)展論壇(CIPA
摩爾斯微電子任命胡文杰為副總裁兼大中華區(qū)及東南亞地區(qū)經(jīng)理
新任副總裁將推動亞太地區(qū)的增長和創(chuàng)新。

比摩爾定律快得多：為什么要將AI算力擴展至ExaFLOPs百億億次量級？

為什么需要革命？

所以解決方案是？

ExaFLOPS級別的擴展

參考來源：

雜志聲明

所以解決方案是？