超算可謂國之重器,彰顯了一個國家的科技發展水平,美日歐俄等發達國家均高度重視超級計算機系統的研制與發展,世界各國激烈競爭,紛紛進行戰略頂層設計,以謀求長期的優勢地位。經過不懈努力,目前,我國的超級計算機制造技術已走在了世界前列。
比肩發達國家,我國超算建設進入爆發期
在2021年6月發布的世界超級計算機TOP500排名中,中國上榜的超級計算機數量高達188臺,穩居世界第一。包括神威太湖之光和天河2號在內的中國超算已連續10次奪得世界第一,成為事實上的超算大國。2020年以來,“十四五”規劃及新基建驅動著我國的超算中心建設進入爆發期,國內已有越來越多的省市將建設超算中心及部署新一代超級計算系統作為推動經濟社會快速發展的關鍵措施。目前,我國已擁有10家國家級超級計算中心(天津、深圳、長沙、濟南、廣州、無錫、鄭州、昆山、成都、西安),此外,多地地方政府及企事業單位也在積極建設或籌建超算中心。
五大趨勢牽引超算中心變身綜合數據價值提供商
近年來,隨著云計算、大數據、人工智能、區塊鏈等新興技術熱點層出不窮,社會降低了對于超算技術的關注度。加之國際環境的變化,尤其是美國對中國高科技的打壓,也掣肘著核心技術(CPU、GPU、存儲器件、高性能互連等)的發展,導致了超算應用的生態受制于人,超算服務僅靠提供機時使得能力模式單一等問題。中國超算呈現出大而不強的特點。
為應對這些問題,中國超算將在算力多樣化、網絡全光化、數據密集化、應用容器化及架構融合化五方面重點發力,不斷牽引超算中心從單一的計算服務提供商轉變為綜合的數據價值提供商。
首先,多樣化算力成為主流。傳統的HPC使用CPU進行雙精度浮點計算,而新興的超算系統則使用CPU、GPU及FPGA進行更強大的并行計算。與此同時,加大自主微處理器、加速器的研發力度和部署比例,提升多元化異構算力的算效水平,有效提高多樣化混合應用的效率,也成為產業發展的大勢所趨。
其次,光交換技術趨于成熟,網絡全光化的趨勢明顯。ROCE及數據無損技術的推出,使得超算中心內部的算力網絡、存儲網絡和管理網絡集合成“三網盒子”成為可能。為解決資源的共享問題,超算中心之間的全光超算互聯網概念也被提出。
第三,數據的密集化。傳統的超算場景如氣象預測、能源勘探、衛星遙感等,隨著觀測尺度的提升,數據量將越來越大;而很多新增的超算場景,如自動駕駛、基因測試及類腦科學,80%以上是PB級的數據密集型場景。更大的數據量、更多的數據類型、更多的并行任務和更高的可靠性要求,都需要超算存儲可以提供更大的帶寬、更高的IOPS、高可靠性和海量并行的訪問能力。
第四,應用的容器化。大部分超算用戶并不是專業的計算機用戶,采用容器化技術能夠提前將超算運行的環境封裝好,實現超算應用與底層硬件的解藕,讓超算更加易用。此外,由于容器技術目前還處于開源狀態,也能有效解決超算面臨的生態問題。
第五,超算架構的融合化。為匹配算力多樣化、數據密集化、網絡全光化及應用容器化的技術趨勢,超算將通過異構多態復合的計算架構,促使傳統架構中的資源、數據、應用孤島走向融合。即構建一個統一的異構融合體系,通過統一的業務調度平臺,調度CPU、GPU及其他的專用算力;同時,通過統一的應用平臺,來管理豐富的超算應用;通過統一的數據基座,來承載數據資產,打破數據孤島,實現“底座不動、數據不遷”,優化TCO投入,提升投資回報。
數據密集型超算引領數據價值新時代
五大趨勢中數據密集化最為值得關注。傳統超算主要解決算的問題,一般情況是客戶通過硬盤把數據拷貝到超算中心,計算完成后再從超算中心把數據拷出來,因此,超算中心不需要長期留存數據。隨著超算的不斷演進,開始出現了一些新的變化與挑戰。
首先,參與計算的數據量大幅增長。如氣象預報、衛星遙感等應用的精度提升帶來了數據量的倍增;同時,參與計算的數據類型更加豐富,除了結構化數據之外,還有非結構化數據,如腦科學、冷凍電鏡等場景均需直接使用影像數據進行計算。
第二,算力大幅增加。目前,已很少有單一任務能夠消耗完所有的集群算力,因此,大部分場景是多任務并發,如上海交大超算中心的100P算力,并發的任務數接近50個,這些任務中,有的對帶寬要求高,有的對IO要求高,這就要求存儲具備更加均衡的能力。
第三,對可靠性有更高要求。當傳統超算應用于科研項目時,只要能出結果,即使多算幾次用戶也能接受,但現在的超算更多是應用于生產系統,因此,對結果及過程的可靠性均有更高的要求,這就對存儲的可靠性提出了極致要求。
第四,超算中心與數據中心的融合。近年來,超算中心也在探索更多元化的服務,如AI計算、大數據分析、虛擬化、災備等,這一過程中,數據的流動性成為其面臨的最大問題,如超算的文件存儲、虛擬化的塊存儲、機器學習的對象存儲、大數據的HDFS存儲等均為割裂的狀態,如何讓數據流動起來,是目前超算中心面臨的最大挑戰。
這對整個數據存儲產業來說,既是挑戰,也是機會,驅動超算逐步從計算密集型走向數據密集型。
數據密集型超算是以數據為中心的高性能數據分析平臺,具備傳統超算、大數據分析及AI的分析能力,其可通過應用驅動統一數據源,支持全流程的科學計算服務,在為科研及商業提供多樣性算力的同時,能夠基于數據知識的累積,提供高階的數據價值服務。
數據密集型超算可實現單一計算中心到多元算力中心的過渡,最終通過多元算力融合與海量數據的統一存儲底座實現高性能的數據分析,推動超算從算力服務時代走向數據價值時代(圖1)。其具有以下幾大價值:
其一,科研價值。數據密集型科研發現的HPC+AI+BigData技術融合架構,實現了交叉科學的創新,助力了科學研究從第三范式(計算科學)向第四范式(數據科學)的演進。
其二,商業價值。融合高效、安全低碳,統一數據底座降低了海量結構化\非結構化數據的全生命周期管理成本,提升了科學計算、大數據及人工智能融合應用的使用效率。
其三,產業價值。國產HPDA系統軟件、國產并行文件系統、國產數據存儲和數據管理系統,推動了國產超算存儲產業及應用技術生態的發展。
圖1 超算進入數據價值時代
數據密集超算的廣泛應用
當前,數據密集型超算已在科學研究、生產制造及商業活動中獲得了廣泛應用。
例如,在基因測序中,一臺華大智造DNBSEQ-T7測序儀的生產量為:4.5Tb/24h,6Tb/30h。在滿負荷狀態下,一年就能產生1.7PB左右的數據量,加之生物信息的分析過程,一般會產生原始數據量5倍左右的中間文件及結果。國內著名的華西醫院通過引入數據密集型超算,有效提升了基因測序的效率,將單次基因測序的耗時從3個小時優化為分鐘級。
在自動駕駛中,其業務非常復雜,不僅包括數據導入、預處理、訓練、仿真、結果分析等十多個環節,且各環節要求的協議也各不相同(對象/NAS/HDFS等),數據孤島的現象嚴重,數據拷貝時間就達到處理分析時間的2倍以上。吉利-沃爾沃汽車通過引入數據密集型超算,采用一套數據底座,就可支持多協議互通,適配全流程業務,不僅降低了數據的存儲成本,也提升了數據分析的效率。
在高校超算中,上海交大的π系列超算及中科大的瀚海系列超算,通過引入數據密集型超算,提供了更為均衡的數據訪問能力,可同時支持50多個負載要求不同的超算業務,滿足了各種科研計算的需求;同時,在算力更新換代時,無需進行數據遷移,便可長期保存歷史數據,有效地支撐了各項科研任務的開展。
此外,國家超算濟南中心及長沙中心的數據密集型超算應用示范工程已在規劃中,其希望通過承擔更多的數據密集型超算業務,在提升客戶粘性和忠誠度,解決數據流動和共享問題的同時,通過發掘數據價值,深度參與政企的數字化進程,更好地發揮超算的社會價值和經濟價值。
圖2 以數據為中心的數據密集型超算
目前,超算產業正積極行動起來,以推動新一代超算的發展。2021年9月底,在蘭州舉辦的第九屆超算創新聯盟大會上,正式成立了數據密集型超算工作組,將數據上升到與算力同樣的高度;10月初,在呼和浩特召開的第七屆科學數據大會上,擁有最核心數據資產的20家國家科學數據中心共聚一堂,數據密集型超算成為其熱議的話題;在今年召開的HPC China大會上,華為聯合CCF高專委正式發布了《數據密集型超算技術白皮書》。
越來越多的產業共識正在凝聚,重視數據,實現以數據為中心,牽引采、存、算、傳、用多維度均衡發展的數據密集型超算,將是中國的超算強國之路。
在線客服
個人及家庭產品
熱線:950800(7*24小時)
華為云服務
熱線:4000-955-988|950808
企業服務
熱線:400-822-9999
運營商網絡服務
熱線:4008302118