首頁 > 技術(shù) > 正文

播報(bào):美國世界最快超算是擺設(shè)?消息稱可靠性糟糕

2022-10-10 06:49:06來源:中關(guān)村在線  


(相關(guān)資料圖)

建造一臺超級計(jì)算機(jī)總是具有挑戰(zhàn)性的,但是創(chuàng)建業(yè)界第一個(gè)外掛級系統(tǒng)是遇到了完全意想不到的事情,需要在硬件和軟件方面做大量的工作。不幸的是,這種情況可能發(fā)生在橡樹嶺國家實(shí)驗(yàn)室的Frontier超級計(jì)算機(jī)上,它幾乎不能在沒有眾多硬件故障的情況下持續(xù)一天。

ORNL的Frontier是業(yè)界首個(gè)設(shè)計(jì)用于提供高達(dá)1.685 FP64 ExaFLOPS峰值性能的系統(tǒng),使用AMD的64核EPYC Trento處理器、Instinct MI250X計(jì)算GPU和HPE的Slingshot互連,功率為21兆瓦。HPE構(gòu)建了該系統(tǒng),并使用了為擴(kuò)展應(yīng)用設(shè)計(jì)的Cray EX(在新標(biāo)簽中打開)架構(gòu),主要用于超高速超級計(jì)算機(jī)。

雖然從紙面上看,F(xiàn)rontier超級計(jì)算機(jī)看起來特別好,而且機(jī)器系統(tǒng)的硬件部分已經(jīng)交付,但似乎硬件方面的問題一直追著機(jī)器上線,并提供給需要大約1 FP64 ExaFLOPS性能的研究人員。

"橡樹嶺領(lǐng)導(dǎo)力計(jì)算設(shè)施(OLCF)的項(xiàng)目主管Justin Whitt在接受InsideHPC(在新標(biāo)簽中打開)采訪時(shí)說:"我們正在解決硬件方面的問題,確保我們了解(它們是什么)。"在這種規(guī)模的情況下,你將會(huì)出現(xiàn)故障。這種規(guī)模的系統(tǒng)的平均故障間隔時(shí)間是幾小時(shí),而不是幾天。"

關(guān)于Frontier的潛在硬件故障的傳言已經(jīng)流傳了很久。根據(jù)InsideHPC(在新標(biāo)簽中打開)的另一篇報(bào)道,一些人說該系統(tǒng)的Slingshot互連出現(xiàn)了問題。此外,其他人表示,AMD的Instinct MI250X計(jì)算GPU今年并不像預(yù)期那樣可靠。請記住,擁有更多流處理器和高時(shí)鐘的X版本只向特定客戶提供。

Whitt先生沒有證實(shí)系統(tǒng)在Instinct或Slingshot方面遇到任何特別的問題,但他壓根兒就沒有說過機(jī)器遭受到眾多的硬件問題。

"很多挑戰(zhàn)都集中在這些[GPU]上,但這并不是我們看到的大多數(shù)挑戰(zhàn),"OLCF的負(fù)責(zé)人說。"在零部件故障的常見罪魁禍?zhǔn)字?,這是一個(gè)相當(dāng)好的分布,它是一個(gè)很大的組成部分。我不認(rèn)為在這一點(diǎn)上,我們對AMD的產(chǎn)品有很多擔(dān)憂。"

橡樹嶺國家實(shí)驗(yàn)室的Frontier超級計(jì)算機(jī)到目前為止還不是唯一使用HPE的Cray EX架構(gòu)與Slingshot互連、AMD的EPYC CPU和AMD的Instinct計(jì)算GPU的系統(tǒng)。例如,芬蘭的Lumi超級計(jì)算機(jī)(Cray EX、EPYC Milan、Instinct MI250X計(jì)算GPU)提供550 PetaFLOPS的峰值性能,被官方列為世界上第三大最強(qiáng)大的超級計(jì)算機(jī)。也許,問題是有效的,該機(jī)器的規(guī)??偣彩褂昧?000萬個(gè)零件。

鑒于仍未正式部署,最初承諾在2022年上線的 "前沿 "超級計(jì)算機(jī)是否能在2023年開始供研究人員使用,只有時(shí)間才能證明。

標(biāo)簽: 新聞資訊

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀