noSesmc
峰會現場西部數據展臺noSesmc
大數據存儲困境:存儲架構和技術未跟上數據發(fā)展
noSesmc
“數據產生的速度過快”與“被存儲的數據十分有限”之間的矛盾,依舊是存儲產業(yè)需要正視的問題。劉鋼援引了兩組數據介紹說,預計到2024年,以HDD為代表的大數據將增長到1.62ZB,平均年復合增長率約為30%。除了把數據存儲下來之外,還有一部分是以SSD作為衡量標志,并對數據進行挖掘、計算的快數據。2024年,快數據將達到333EB,平均年復合增長率接近50%。大數據與快數據的總量相加約2ZB,而當年的數據總量將達到142ZB,這意味著僅有不到1.5%的數據會被存儲下來。noSesmc
noSesmc
西部數據公司副總裁兼中國區(qū)業(yè)務總經理劉鋼noSesmc
“在數字經濟時代,數據猶如石油,是發(fā)展的源動力。為什么那么多寶貴的‘石油’或資源沒有被存儲、挖掘和分析?一個重要的原因是,存儲架構和存儲技術沒有及時地跟上數據的發(fā)展,以至于很多數據被白白的浪費。因此,我們需要一個創(chuàng)新的存儲架構,為更多的數據提供存儲及快速訪問。存儲行業(yè)正面臨幾個挑戰(zhàn)——用戶渴求大容量、快速訪問、低成本、低功耗的存儲,但很難有單一存儲介質、存儲設備能同時滿足些需求。”劉鋼感慨說。noSesmc
值得慶幸的是,由于用戶數據要進行分層,且這些數據有不同的類型,它對存儲的要求也不一致。企業(yè)可以通過把創(chuàng)新的存儲架構作為系統,來滿足用戶各種存儲場景的需求。noSesmc
IPFS存儲架構有什么優(yōu)勢?
“創(chuàng)新的存儲架構,包含分布式存儲架構。”劉鋼解釋說,存儲架構既有中心化的云存儲,也有去中心化的分布式存儲。例如,基于Web3.0、IPFS(Inter Planetary File System,星際文件系統)存儲架構的存儲就是去中心化的分布式存儲,這類存儲可憑借新的存儲架構來降低部署及運營成本。noSesmc
在應用方面,去中心化的IPFS可降低目前基于中心化的云存儲的成本。在云存儲的服務費用的成本構成有什么特點?其實,最初云存儲領域有一個分布式去中心化存儲架構叫做Storj,用戶可在網上購買相應的服務。而IPFS存儲架構的出現,進一步優(yōu)化了云存儲的去中心化,節(jié)省了企業(yè)的服務提供成本。noSesmc
·分層存儲的概念
noSesmc
除了IPFS存儲架構之外,西部數據根據數據被訪問的頻率,大致分為了五類:極熱數據、熱數據、溫數據、冷數據和極冷數據。針對不同的數據,所要采用的存儲介質和存儲設備也不同,這樣才能既保證海量大數據的存儲,也滿足對快數據的快速訪問。由于不同數據對時延和容量的要求也不同,西部數據還為不同的數據劃分了相應的應用場景。從訪問頻次的高到低,對應的存儲類型可分為:極熱存儲、熱存儲、溫存儲、冷存儲和極冷存儲。noSesmc
在這些分層的存儲應用場景中,主要有大數據存儲應用和快數據計算應用兩大類。根據劉鋼的介紹,大數據存儲主要包括極冷存儲和冷存儲,快數據計算主要涉及極熱存儲、熱存儲和溫存儲。西部數據在這兩類存儲應用中均有完整的產品及方案。noSesmc
·西部數據18T硬盤在大數據存儲中的優(yōu)勢
noSesmc
業(yè)內針對冷存儲和極冷存儲的主流方案,是高密度大容量企業(yè)級硬盤方案。目前,高密度企業(yè)級硬盤已經發(fā)展到了18T,甚至有的公司針對極冷存儲,利用軟件與技術優(yōu)化,采用了SMR疊瓦式硬盤,把高密度企業(yè)硬盤做到了20T。比如,全球領先的云存儲服務商Dropbox,該公司在去年年底就已經遷移到20T SMR HDD上了。noSesmc
提到SMR,可能會有一些消費者會質疑它的寫入性能、可靠性。對此,劉鋼在后續(xù)的媒體群訪中解釋說:“16T的硬盤通過改進技術變成18T,如果采用的是SMR技術,這個硬盤的容量就會變成20T。它是通過提高磁軌間的密度來做到的,不過這要求用戶在使用20T SMR高密度硬盤時在軟件上做一些調整,保證順序地寫入。一些公司并未留意到這個細節(jié),沒有往這個方向來做調整和優(yōu)化,致使一些消費者對SMR技術有質疑。“noSesmc
按照劉鋼的說法,SMR適用于冷存儲和極冷存儲。它最早的應用場景是視頻監(jiān)控,另外還能存儲網店的數據、金融的票據、括醫(yī)療的數據,以上的數據都可能是極冷數據?,F在已經有很多云服務商在積極部署SMR。noSesmc
noSesmc
劉鋼現場展示了西部數據企業(yè)級硬盤noSesmc
在過去幾個季度,18T硬盤的良率有了較大的改善,無論是互聯網服務商,還是IPFS服務商,部署18T已是大勢所趨。劉鋼在現場展示了西部數據的18T硬盤,他介紹說:“從去年第四季度開始被快速部署,到2021年Q1頭部互聯網服務商快速驗證、測試。2021年Q2開始,很多IPFS公司和云服務商已經考慮把數據遷移到18T高密度硬盤上,甚至有些高密度極致需求的用戶還覺得18T硬盤不夠用。今年下半年,我們將提供20T硬盤,已經有企業(yè)在測試、驗證中,預計從明年開始進行部署。”noSesmc
noSesmc
值得強調的是,頭部云服務商所使用的硬盤從8T進化到18T,花費了整整四年時間(2017-2021年),而IPFS服務商僅用了四個季度(2020年Q2-2021年Q2)。IPFS服務商從8T進化到12T、14T、16T,很快就過渡到18T。實際上,當數據中心采用的硬盤從14T升級到18T,在同樣存儲容量的情況下,服務器的數量可減少22%,單盤容量增加29%,單位功耗降低21%,其部署成本、運維成本也更低。noSesmc
·西部數據SSD產品在快數據領域的優(yōu)勢
noSesmc
西部數據針對快數據如熱存儲、溫存儲,有推出過兩款基于96層3D NAND的SSD,其中一款是主流的Ultrastar™ DC SN640 NVMe SSD,適用于讀寫均衡的混合型工作負載應用;另一款是寫密集、計算密集的高性能Ultrastar™ DC SN840 NVMe SSD,適用于密集型工作負載應用。此外,西部數據還聯合鎧俠在今年2月推出了162層的第六代3D閃存技術。noSesmc
noSesmc
據劉鋼介紹,西部數據與鎧俠提供了全球33%的Flash產能。這兩家公司聯合推出的第6代3D閃存技術,比第五代產品的芯片尺寸縮小了40%,側面單元密度更高,程序性能提高了兩倍以上,讀取延遲縮短了10%,輸入/輸出IOPS提高了66%。noSesmc
“從材料本身來看,3DNAND的堆疊層數越高風險就越大,對工藝和投入的要求越高。在3D NAND 96層之后,很多公司后續(xù)產品的層數并不一致。“劉鋼特別強調說,在同一代技術里,一家公司的3D NAND層數越少,就代表它的技術越先進,因為無需堆疊太多層,即能滿足閃存的性能需求。西部數據在96層之后是112層,而不是120多層,再然后是162層,而不是170或190多層,說明西部數據在單位面積上能做到更高的密度。noSesmc
noSesmc
除了增加層數之外,存儲密度還有另一種增長方式:閃存顆粒從TLC變成QLC,甚至變成PLC。實際上,存儲增長密度的方式并不是一維的,它既可縱向增長也可在一個單元內部增長。“西部數據企業(yè)級SSD具備縱向集成優(yōu)勢。我們有先進的SSD控制器和高性能自主固件將Flash縱向集成,最終能實現非常穩(wěn)定的一致性。以某大型電商的應用為例,他們要求SSD的波動范圍不超過10%,用UltrastarTM DC SN640 NVMe SSD測出來波動數據是0.11%。”劉鋼表示,對SSD產品而言,具備穩(wěn)定的一致性極其關鍵,因為它涉及到非常多的因素。noSesmc
可靠性與生產工藝和硬盤的設計、控制有關。首先,閃存與工藝周期有關系,如果沒有大規(guī)模的產能,就很難度過產能周期。另外,當SSD容量越大,其大部分成本會在閃存上,控制器、接口成本占的比例會越來越小,所以產能非常重要;其次,是領先的技術。企業(yè)需要追求整個硬盤的性能,而不是僅僅關注閃存材料的性能、可靠性?;谡w的可靠性,控制器和固件可以進行很好的開發(fā)。以上因素就是一家公司能夠做到的縱向整合,只有做到極致地優(yōu)化,才能提供超級穩(wěn)定的一致性。“只有既熟悉材料,也熟悉控制器,還熟悉框架,才能做到縱向一體的集成。“劉鋼強調。noSesmc
總之,西部數據能滿足用戶的不同存儲、計算需求,可提供適用于不同層級數據的存儲產品。無論是大數據存儲,還是快數據計算,都有相應的產品。如果把這樣的存儲架構和存儲技術,使用到IPFS或Web3.0場景里,會是什么樣的應用?noSesmc
IPFS服務商與西部數據的產品組合
noSesmc
對IPFS服務商而言,現在的存儲方案存在著數據吞吐量低,空間利用率低、難擴容,總體擁有成本高,運維低效,故障懲罰高等痛點。在IPFS層面“存算分離”已經是共識,在計算集群中,西部數據有7.68TB的SSD;在存儲集群中,西部數據推薦使用18TB的高密度硬盤,4U60+18T存儲方案與傳統的4U36+16T存儲方案相比,機柜數可減少46%、功耗可減少36%,可大規(guī)模降低部署及運維成本。noSesmc
西部數據已經與合作伙伴共同推出了各種IPFS方案。典型的應用案例有:noSesmc
星辰天合(XSKY)、浪潮聯合西部數據推出了IPFS解決方案,該方案基于西部數據的Ultrastar DC HC550 18TB HDD硬盤、浪潮英信服務器NF5466M5、XSKY的文件存儲系統等關鍵組件,可實現快速部署、便捷運維。與4U36服務器+14TB HDD方案相比,4U36+18TB HDD方案能節(jié)省22%的機柜空間,節(jié)約兩倍以上的硬件資源,降低20%的電源功耗。noSesmc
杉巖數據的MOS海量對象存儲系統采用了西部數據的Ultrastar DC SN840/640 NVMe SSD、Ultrastar DC HC550 HDD和JBOD存儲平臺。與主流的4U36+16T方案相比,雙方合作的4U60+18T方案可將服務器節(jié)點數量降低至原來的47%,節(jié)省了46%的機柜空間,降低了36%的電源功耗。noSesmc
長城超云不僅在存儲集群里使用了西部數據的產品,還在計算集群里使用了Ultrastar DC SN640 NVMe SSD,以此來提高封裝的效率,獲得更高的性能和穩(wěn)定的運行。此外,IPFS分布式存儲服務器制造商靈動也在計算機群和存儲機群里采用了適用于快數據的7.68T SSD存儲方案和適用于大數據的18T高密度硬盤存儲方案。noSesmc
noSesmc
總而言之,西部數據針對Web3.0或IPFS的基礎設施架構:在存儲集群中,有高密度的磁盤擴展柜、大容量的18T硬盤,還有UltrastarTM DC SN640 NVMe SSD來作為緩存。在計算集群中,有UltrastarTM DC SN640 NVMe SSD、UltrastarTM DC SN840 NVMe SSD寫密集型的SSD產品助力用戶做快速運算。noSesmc
尤其是在計算集群中,西部數據解決了P1和P2的性能瓶頸。劉鋼表示,P1是可以并行的,P2之后是串行的。IPFS服務商更愿意把P1和P2分開,但因為P1和P2節(jié)點之間需要交換大量數據,分開之后雖然可以提高計算性能,但是會造成數據傳輸花費很多時間,這樣其實是不劃算的。如果所有的服務器集群共享一個高速閃存池,兩類服務器通過NVMe-oF連到高速的閃存池,P1計算的數據在閃存池里,P2可以直接放入,它們可以像訪問本地閃存一樣,訪問高速的資源共享池。對大規(guī)模的IPFS分布式存儲服務器制造商來說,當他們的節(jié)點達到100個PB以上時,可能需要用這些存儲技術來優(yōu)化存儲技術架構。noSesmc
劉鋼在最后也強調了西部數據引以為傲的優(yōu)勢,也就是擁有全線的多場景的存儲技術和產品,可提供從芯片到系統的存儲技術和產品,適用的場景從消費者級的手機、相機到個人電腦、自動駕駛汽車,到企業(yè)級和云端的計算和存儲節(jié)點。在未來數據爆炸式增長的環(huán)境中,這樣的優(yōu)勢將為包含企業(yè)客戶的數據存儲架構、行業(yè)的存儲和一般用戶的個人存儲提供領先的優(yōu)勢。noSesmc