2018年12月12日,在英特爾“架構日”活動中,英特爾高管、架構師和院士們展示了下一代技術,并介紹了英特爾在驅動不斷擴展的數(shù)據(jù)密集型工作負載方面的戰(zhàn)略進展,從而為PC和其他智能消費設備、高速網(wǎng)絡、無處不在的人工智能(AI)、云數(shù)據(jù)中心和自動駕駛汽車提供支持。pDResmc
同時,英特爾展示了一系列處于研發(fā)中的基于10納米的系統(tǒng),將用于PC、數(shù)據(jù)中心和網(wǎng)絡設備;并預覽了其他針對更廣泛工作負載的技術。pDResmc
英特爾還分享了聚焦于六個工程領域的技術戰(zhàn)略,對這些領域的重大投資和技術創(chuàng)新,將推動技術和用戶體驗的飛躍。這六大工程領域包括:先進的制造工藝和封裝;可加速人工智能和圖形等專門任務的新架構;超高速內(nèi)存;超微互連;嵌入式安全功能;以及為開發(fā)者統(tǒng)一和簡化基于英特爾計算路線圖進行編程的通用軟件。pDResmc
這些技術共同為更加多元化的計算時代奠定了基石,到2022年,潛在市場規(guī)模將超過3000億美元。pDResmc
英特爾架構日上發(fā)布的重點內(nèi)容包括:pDResmc
業(yè)界首創(chuàng)的邏輯芯片3D堆疊
英特爾展示了名為“Foveros”的全新3D封裝技術,該技術首次引入了3D堆疊的優(yōu)勢,可實現(xiàn)在邏輯芯片上堆疊邏輯芯片。pDResmc
Foveros為整合高性能、高密度和低功耗硅工藝技術的器件和系統(tǒng)鋪平了道路。Foveros有望首次將晶片的堆疊從傳統(tǒng)的無源中間互連層和堆疊存儲芯片擴展到高性能邏輯芯片,如CPU、圖形和人工智能處理器。pDResmc
該技術提供了極大的靈活性,因為設計人員可在新的產(chǎn)品形態(tài)中“混搭”不同的技術專利模塊與各種存儲芯片和I/O配置。并使得產(chǎn)品能夠分解成更小的“芯片組合”,其中I/O、SRAM和電源傳輸電路可以集成在基礎晶片中,而高性能邏輯“芯片組合”則堆疊在頂部。pDResmc
英特爾預計將從2019年下半年開始推出一系列采用Foveros技術的產(chǎn)品。首款Foveros產(chǎn)品將整合高性能10nm計算堆疊“芯片組合”和低功耗22FFL基礎晶片。它將在小巧的產(chǎn)品形態(tài)中實現(xiàn)世界一流的性能與功耗效率。pDResmc
繼2018年英特爾推出突破性的嵌入式多芯片互連橋接(EMIB)2D封裝技術之后, Foveros將成為下一個技術飛躍。pDResmc
pDResmc
英特爾公司處理器核心與視覺計算高級副總裁Raja KoduripDResmc
全新Sunny Cove CPU架構
英特爾推出了下一代CPU微架構Sunny Cove,旨在提高通用計算任務下每時鐘計算性能和降低功耗,并包含了可加速人工智能和加密等專用計算任務的新功能。明年晚些時候,Sunny Cove將成為英特爾下一代服務器(英特爾®至強®)和客戶端(英特爾®酷睿™)處理器的基礎架構。Sunny Cove的功能特性包括:pDResmc
- 增強的微架構,可并行執(zhí)行更多操作。
- 可降低延遲的新算法。
- 增加關鍵緩沖區(qū)和緩存的大小,可優(yōu)化以數(shù)據(jù)為中心的工作負載。
- 針對特定用例和算法的架構擴展。例如,提升加密性能的新指令,如矢量AES和SHA-NI,以及壓縮/解壓縮等其它關鍵用例。
Sunny Cove能夠減少延遲、提高吞吐量,并提供更高的并行計算能力,有望改善從游戲到多媒體到以數(shù)據(jù)為中心的應用體驗。pDResmc
下一代圖形卡
英特爾推出全新的第11代集成圖形卡,配備64個增強型執(zhí)行單元,比此前的英特爾第9代圖形卡(24個EU)多出一倍,旨在打破每秒1萬億浮點運算次數(shù)(1 TFLOPS)的壁壘。從2019年開始,新的集成圖形卡將與10納米處理器一起交付。pDResmc
與英特爾第9代圖形卡相比,新的集成圖形卡架構有望將每時鐘計算性能提高一倍。憑借高于每秒1萬億浮點運算次數(shù)的性能,該架構旨在提高游戲的可玩性。與英特爾第9代圖形卡相比,英特爾在此次活動上展示的第11代圖形卡幾乎將一款流行的照片識別應用程序的性能提高了一倍。第11代圖形卡預計還將采用業(yè)界領先的媒體編碼器和解碼器,在有限的功耗配額下支持4K視頻流和8K內(nèi)容創(chuàng)作。第11代圖形卡還將采用英特爾®自適應同步技術,為游戲提供流暢的幀速率。pDResmc
英特爾還重申了在2020年推出獨立圖形處理器的計劃。pDResmc
“One API”軟件
英特爾宣布推出“One API”項目,以簡化跨CPU、GPU、FPGA、人工智能和其它加速器的各種計算引擎的編程。該項目包括一個全面、統(tǒng)一的開發(fā)工具組合,以將軟件匹配到能最大程度加速軟件代碼的硬件上。公開發(fā)行版本預計將于2019年發(fā)布。pDResmc
pDResmc
英特爾公司高級副總裁兼硅工程事業(yè)部總經(jīng)理Jim KellerpDResmc
內(nèi)存和存儲
英特爾介紹了英特爾®傲騰™技術以及相關產(chǎn)品的最新情況。英特爾®傲騰™數(shù)據(jù)中心級持久內(nèi)存作為一款新產(chǎn)品,集成了內(nèi)存般的性能以及數(shù)據(jù)的持久性和存儲的大容量。這項革命性的技術通過將更多數(shù)據(jù)放到更接近CPU的位置,使應用在人工智能和大型數(shù)據(jù)庫中的更大量的數(shù)據(jù)集能夠獲得更快的處理速度。其大容量和數(shù)據(jù)的持久性減少了對存儲進行訪問時的時延損失,從而提高工作負載的性能。英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存為CPU提供緩存行(64B)讀取。一般來說,當應用把讀取操作定向到傲騰持久內(nèi)存或請求的數(shù)據(jù)不在DRAM中緩存時,傲騰持久內(nèi)存的平均空閑讀取延遲大約為350納秒。如果實現(xiàn)規(guī)?;硫v數(shù)據(jù)中心級固態(tài)盤的平均空閑讀取延遲約為10,000納秒(10微秒),這將是顯著的改進。在一些情況下,當請求的數(shù)據(jù)在DRAM中時,不管是通過CPU的內(nèi)存控制器進行緩存還是由應用所引導,內(nèi)存子系統(tǒng)的響應速度預計與DRAM相同(小于100納秒)。pDResmc
英特爾還展示了基于英特爾1 TB QLC NAND裸片的固態(tài)盤如何把更多海量數(shù)據(jù)從硬盤遷移到固態(tài)硬盤,從而可以更快訪問這些數(shù)據(jù)。pDResmc
英特爾傲騰固態(tài)盤與QLC NAND固態(tài)盤相結合,將降低對最常用數(shù)據(jù)的訪問延遲。總體來說,這些對平臺和內(nèi)存的改進重塑了內(nèi)存和存儲層次結構,從而為系統(tǒng)和應用提供了完善的選擇組合。pDResmc
深度學習參考堆棧(Deep Learning Reference Stack)
英特爾宣布推出深度學習參考堆棧(Deep Learning Reference Stack),這是一個集成、高性能的開源堆棧,基于英特爾®至強®可擴展平臺進行了優(yōu)化。該開源社區(qū)版本旨在確保人工智能開發(fā)者可以輕松訪問英特爾平臺的所有特性和功能。深度學習參考堆棧經(jīng)過高度調(diào)優(yōu),專為云原生環(huán)境而構建。該版本可以降低集成多個軟件組件所帶來的復雜性,幫助開發(fā)人員快速進行原型開發(fā),同時讓用戶有足夠的靈活度打造定制化的解決方案。pDResmc
- 操作系統(tǒng):Clear Linux * 操作系統(tǒng)可根據(jù)個人開發(fā)需求進行定制,針對英特爾平臺以及深度學習等特定用例進行了調(diào)優(yōu);
- 編排:Kubernetes*可基于對英特爾平臺的感知,管理和編排面向多節(jié)點集群的容器化應用;
- 容器:Docker*容器和Kata*容器利用英特爾®虛擬化技術來幫助保護容器;
- 函數(shù)庫:英特爾® 深度神經(jīng)網(wǎng)絡數(shù)學核心函數(shù)庫(MKL DNN)是英特爾高度優(yōu)化、面向數(shù)學函數(shù)性能的數(shù)學庫;
- 運行時:Python*針對英特爾架構進行了高度調(diào)優(yōu)和優(yōu)化,提供應用和服務執(zhí)行運行時支持;
- 框架:TensorFlow*是一個領先的深度學習和機器學習框架;
- 部署:KubeFlow*是一個開源、行業(yè)驅動型部署工具,在英特爾架構上提供快速體驗,易于安裝和使用。