在摩爾定律驅(qū)使下,芯片發(fā)展的目標(biāo)永遠(yuǎn)是高性能、低成本和高集成。隨著單芯片可集成的晶體管數(shù)量越來越多,工藝節(jié)點(diǎn)越來越小,隧穿效應(yīng)逐漸明顯,漏電問題越發(fā)凸顯,導(dǎo)致頻率提升接近瓶頸,為進(jìn)一步提升系統(tǒng)性能,芯片由單核向多核系統(tǒng)發(fā)展。7Omesmc
在后摩爾時代,先進(jìn)工藝的研發(fā)成本過高,而市場需求變化又太快,導(dǎo)致應(yīng)用碎片化嚴(yán)重,很難確保一顆大而全的芯片可以成功覆蓋所有需求,而過高的研發(fā)成本和因Die面積過大造成的良率下降也導(dǎo)致芯片成本大幅飆升。為延續(xù)摩爾定律,采用多芯片異構(gòu)集成的方式取代單一大芯片,以確保在可接受的成本下進(jìn)一步提升集成度和性能,因此芯片系統(tǒng)也逐漸演進(jìn)到眾核異構(gòu)系統(tǒng)。7Omesmc
什么是芯片互聯(lián)技術(shù)
進(jìn)入到眾核時代,各大廠商不約而同的采用了多Die擴(kuò)展的技術(shù)路線。7Omesmc
一是,有基板封裝技術(shù)(MCM),通過基板走線的方式進(jìn)行Die間互聯(lián),例如低功耗超短距離;二是,硅中介層技術(shù)(silicon interposer),在Die的底部加入一層硅,作為中介層連接多個Die,蘋果就采用此方式;三是,嵌入式多芯互連橋技術(shù)(Embedded Multi-die Interconnect Bridge,EMIB),在基板制作過程中嵌入具有多個布線層的電橋,通過這些橋?qū)崿F(xiàn)多Die間的互連,英特爾就采用此方式。7Omesmc
Arm高級副總裁兼基礎(chǔ)設(shè)施總經(jīng)理Chris Bergey表示:“CPU設(shè)計的未來正在加速并向多芯片方向發(fā)展,這使得整個生態(tài)系統(tǒng)必須支持基于小芯片的SoC。”7Omesmc
蘋果M1 Ultra由1140億個晶體管組成,M1 Ultra支持高達(dá)128GB的高帶寬、低延遲統(tǒng)一內(nèi)存,支持20個CPU核心、64個GPU核心和32核神經(jīng)網(wǎng)絡(luò)引擎,每秒可運(yùn)行高達(dá)22萬億次運(yùn)算,提供的GPU性能是蘋果M1芯片的8倍,提供的GPU性能比最新的16核PC臺式機(jī)還高90%。7Omesmc
如此驚人的芯片,其技術(shù)的關(guān)鍵點(diǎn)在于將兩個M1 Max 半導(dǎo)體裸片(半導(dǎo)體芯片體)連接在一起,形成一個兩倍大的SoC。M1 Ultra,將兩個M1 Max芯片拼在一起,使得芯片各項(xiàng)硬件指標(biāo)直接翻倍。7Omesmc
現(xiàn)有的PC雙處理器配置通過主板上的布線連接兩個處理器。但是,在這種配置中,CPU之間的通信帶寬是有限的,因此會出現(xiàn)延遲,性能并不是簡單的翻倍,它還增加了功耗和發(fā)熱。7Omesmc
M1 Ultra針對這個問題使用的互連技術(shù)被稱為“UltraFusion”,使用了10000多個硅中介層(連接布線)并按原樣連接半導(dǎo)體管芯,而不通過外部電路。采用這種設(shè)計,互連部分的數(shù)據(jù)傳輸速度最高可達(dá)2.5TB/秒。7Omesmc
最重要的是,內(nèi)置在M1 Max中的指令調(diào)度程序?qū)⒅噶罘峙浣o雙倍的處理內(nèi)核,并像單個SoC一樣運(yùn)行。由于內(nèi)存控制器也像集成一樣運(yùn)行,因此整個內(nèi)存通道增加了一倍,內(nèi)存帶寬增加到每秒800GB。7Omesmc
例如,一個M1Max中內(nèi)置有10個核心的CPU,但是在連接兩個CPU的情況下增加到20個核心。將程序中的命令用哪個核心來處理,由調(diào)度器這個模塊來分配,但是M1Max的調(diào)度器假定有20個核心的CPU,指令緩沖區(qū)的數(shù)量也進(jìn)行了優(yōu)化。7Omesmc
英偉達(dá)、英特爾與AMD的選擇
英偉達(dá)超大規(guī)模計算副總裁Ian Buck表示:“小芯片和異構(gòu)計算對于應(yīng)對摩爾定律放緩至關(guān)重要。”7Omesmc
英偉達(dá)近日發(fā)布的數(shù)據(jù)中心專屬CPU Grace CPU超級芯片也采用了類似的方式。7Omesmc
該芯片由兩顆CPU芯片組成,其間通過NVLink-C2C技術(shù)進(jìn)行互連。其鏈路的能效最多可比英偉達(dá)芯片上的PCIe Gen 5高出25倍,面積效率高出90倍,可實(shí)現(xiàn)每秒900GB乃至更高的帶寬。7Omesmc
NVLink-C2C與近日英特爾和臺積電、三星等多家科技廠商發(fā)起的UCIe標(biāo)準(zhǔn)有著異曲同工之妙,也是一種新型的高速、低延遲、芯片到芯片的互連技術(shù),可支持定制裸片與GPU、CPU、DPU、NIC、SoC實(shí)現(xiàn)互連。7Omesmc
此前英特爾在Hotchips芯片上就展示過EMIB(嵌入式芯片互連橋)技術(shù),單個基板中可以有許多嵌入式橋接,根據(jù)需要在多個裸片之間提供極高的I/O和良好控制的電氣互連路徑。7Omesmc
由于芯片不必通過帶有TSV的硅中介層連接到封裝,因此不會降低其性能。我們將微凸塊用于高密度信號,使用粗間距、標(biāo)準(zhǔn)倒裝芯片凸塊用于從芯片到封裝的直接電源和接地連接。7Omesmc
為什么用芯片互聯(lián)技術(shù)?
對于目前的芯片技術(shù)來說,臺積電5nm的制程工藝是已經(jīng)能夠真正達(dá)到的業(yè)界頂尖工藝。但如果仍想在制程受到約束的情況下,推出性能更強(qiáng)的芯片,有兩種方式:第一,是再設(shè)計一款面積更大的芯片。第二,是將原來的芯片組合在一起使用,也就是說一次用兩顆。7Omesmc
但更大面積的芯片也是當(dāng)前成電路發(fā)展面臨的困境之一,而當(dāng)裸片面積越大,其良率就會越低,400平方毫米以上芯片良率降至20-30%,生產(chǎn)大面積裸片就意味著更多的壞點(diǎn)和更低的良率。而從一次用兩顆的方式來看,目前業(yè)界的主流通過主板PCB連接。7Omesmc
比如像華碩的WS C621E SAGE 主板就屬于雙路CPU主板,在設(shè)計之初就支持兩塊CPU同時工作。7Omesmc
但這樣做缺點(diǎn)也很明顯,比如兩個CPU的插槽以及相應(yīng)連接所需的布線明顯會占用很大的PCB面積,這樣做出來的產(chǎn)品尺寸會很大。而且由于兩個CPU之間是通過PCB走線連接,延遲會變得很大。7Omesmc
通過主板PCB連接兩塊CPU所帶來的缺點(diǎn)基本都是連線過長導(dǎo)致的,這也是為什么蘋果、英偉達(dá)、英特爾都紛紛看向封裝。7Omesmc
業(yè)內(nèi)人士推測蘋果的UltraFusion封裝架構(gòu)至少是InFO_LSI/CoWoS-L的定制版本。在臺積電宣布了兩個版本的硅橋技術(shù)InFO_LSI和CoWoS-L中,InFO_LSI凸塊焊盤間距指定為25µm。這與Apple M1 MAX凸塊焊盤間距已壓縮至25µm高度重合。7Omesmc
InFO_LSI的RDL(再分布層)線/空間尺寸為0.4/0.4µm,這意味著I/O密度為1250/mm/層。鑒于互連側(cè)的芯片邊緣長度超過18毫米,提供了超過20000個潛在的I/O,遠(yuǎn)遠(yuǎn)超過Srouji引用的10000個。7Omesmc
2021年1月,臺積電總裁魏哲家在財報會議上透露:“對于包括SoIC、CoWoS等先進(jìn)封裝技術(shù),我們觀察到chiplet正成為一種行業(yè)趨勢。臺積電正與幾位客戶一起,使用chiplet架構(gòu)進(jìn)行3D封裝研發(fā)。7Omesmc
受限于不同架構(gòu)、不同制造商生產(chǎn)的die(裸片)之間的互連接口和協(xié)議的不同,設(shè)計者必須考慮到工藝制程、封裝技術(shù)、系統(tǒng)集成、擴(kuò)展等諸多復(fù)雜因素,同時,還要滿足不同領(lǐng)域、不同場景對信息傳輸速度、功耗等方面的要求,使得小芯片的設(shè)計過程異常艱難。而解決這些問題的最大難關(guān)就是沒有統(tǒng)一的標(biāo)準(zhǔn)協(xié)議。7Omesmc
一片火熱的互聯(lián)聯(lián)盟
英特爾、臺積電、三星聯(lián)合日月光、AMD、ARM、高通、谷歌、微軟、Meta(Facebook)等十家行業(yè)巨頭共同宣布,成立小芯片(Chiplet)聯(lián)盟,并推出一個全新的通用芯片互聯(lián)標(biāo)準(zhǔn)——UCIe,以此共同打造小芯片互聯(lián)標(biāo)準(zhǔn),推動開放生態(tài)建設(shè)。7Omesmc
UCIe的魅力在于可以將各個企業(yè)的Chiplet規(guī)定在統(tǒng)一的標(biāo)準(zhǔn)之下,這樣不同廠商、工藝、架構(gòu)、功能的芯片就可以進(jìn)行混搭,從而輕易地達(dá)到互通,并且還能實(shí)現(xiàn)高帶寬、低延遲、低能耗、低成本。7Omesmc
在UCIe聯(lián)盟當(dāng)中并沒有英偉達(dá)與蘋果這兩大異構(gòu)集成公司的身影,但從英偉達(dá)的了NVLink-C2C互連技術(shù)以及蘋果UltraFusion的提出可以看出,這兩大公司都不會缺席。7Omesmc
2022年4月2日,芯原股份宣布正式加入UCIe產(chǎn)業(yè)聯(lián)盟,成為中國大陸首批加入該組織的企業(yè)。但目前國產(chǎn)廠商在UCIe聯(lián)盟中力量仍稍顯薄弱。如果這些行業(yè)大佬有意聯(lián)合起來,制定“新的游戲規(guī)則”,下游的終端企業(yè)將別無選擇,只有隨波逐流。但未雨綢繆,國內(nèi)早已開始構(gòu)建一套原生Chiplet標(biāo)準(zhǔn)。7Omesmc
2021年5月,中國計算機(jī)互連技術(shù)聯(lián)盟(CCITA)在工信部立項(xiàng)了Chiplet標(biāo)準(zhǔn),即《小芯片接口總線技術(shù)要求》,由中科院計算所、工信部電子四院和國內(nèi)多個芯片廠商合作展開標(biāo)準(zhǔn)制定工作。7Omesmc
如今,距離這個制定工作已經(jīng)過去了整整十個月,目前相關(guān)草案已經(jīng)出爐,即將進(jìn)入征求意見的環(huán)節(jié),然后再進(jìn)行修訂,在年前完成技術(shù)驗(yàn)證,在今年年底或者明年初再正式發(fā)布。7Omesmc
開放的小芯片生態(tài)系統(tǒng)對這一未來至關(guān)重要,主要行業(yè)合作伙伴可在UCIe聯(lián)盟支持下共同努力,實(shí)現(xiàn)改變行業(yè)交付新產(chǎn)品的方式并繼續(xù)兌現(xiàn)摩爾定律承諾的共同目標(biāo)。7Omesmc
責(zé)編:Momoz