"前沿"超级计算机速度飙升至1.35Exaflops 帮助解决地球上最大的科学问题

站长云网 2024-11-29 5iter.com 站长云网

橡树岭国家实验室的"前沿"(Frontier)超级计算机在计算速度方面达到了一个新的基准,在高性能Linpack评分中达到了1.35exaflops。自2022年首次亮相以来,"前沿"增加了400个新节点,大大提高了计算能力。现在,该系统在混合精度计算任务方面表现出色,这对于从生物现象建模到推进人工智能等应用至关重要。

y能源部橡树岭国家实验室的前沿系统在成为首台突破超大规模障碍的超级计算机两年半后,继续重新定义速度和效率的性能基准。

上周,在亚特兰大举行的高性能计算、网络、存储和分析国际会议(SC24)上,HPECrayEX超级计算机在解决问题的速度方面创下了新的记录。利用双精度算术(计算研究中科学精确性的64位标准),Frontier的高性能Linpack(HPL)分数达到了1.35exaflops,相当于每秒1.35万亿次计算。

橡树岭国家实验室(ORNL)的Frontier超级计算机是世界上第一台超大规模计算机。资料来源:橡树岭国家实验室

ORNL负责计算和计算科学的实验室副主任吉娜-图拉西(GinaTourassi)说:"Frontier的新数据反映了OLCF的计算和计算专家们所做出的巨大贡献,他们知道如何最好地优化最先进的高性能计算系统,以满足我们的科学用户群不断变化的需求。在系统的整个生命周期中,他们从未停止挑战极限。"

这一成绩为Frontier赢得了2024年11月TOP500榜单第二名的位置,该榜单对全球最快的超级计算机进行排名。Frontier于2022年5月以1.1.exaflops的成绩首次登上榜首,成为第一台实现级性能的机器,每秒计算量超过五百万亿次。

"我们的内部专家团队了解如何最大限度地发挥这套系统的性能,"Frontier所在的橡树岭领先计算设施主任阿什利-巴克(AshleyBarker)说,"他们是世界上经验最丰富的超大规模计算团队,在Frontier上进行了这项测试,同时这台机器还为用户运行了其他科学问题。"

橡树岭国家实验室的"前沿"超级计算团队。资料来源:CarlosJones,ORNL,美国能源部

"前沿"速度的提高标志着大约150petaflops的跃升,即每秒150夸亿次计算--大致相当于其上一代超级计算机Summit的性能,后者已于上周退役。

ORNL公司研究员兼Frontier项目主管AlGeist说:"我们已经可以在Frontier上解决令人惊叹的大型问题--地球上最大的科学问题。今年,我们基本上又获得了另一台超级计算机(如Summit)的能力"。

"前沿"依靠由数千个节点组成的星座,每个节点都是由一个CPU和四个GPU组成的独立超级计算机,通过90多英里长的电缆连接,使它们能够进行通信并共同解决大型问题。"前沿"于2022年首次亮相,当时有9400多个节点,后来工作人员又增加了400个节点,目前节点总数已超过9800个。最新的HPL基准测试跨越了9500个节点。

Geist估计,Frontier得分的提高约有一半要归功于新节点,超大规模计算项目曾将这些节点用于应用程序开发和测试。ECP负责监督Frontier和其他超大规模机器(如阿贡国家实验室的极光超级计算机和劳伦斯利弗莫尔国家实验室的埃尔卡皮坦超级计算机)的软件应用程序开发工作,并于今年早些时候完成。

除了新节点和OLCF计算专家获得的超大规模经验之外,Frontier还对其数学库进行了改进,这些数学库是由建造Frontier的HPE和为Frontier提供动力的CPU和GPU制造商AMD共同开发的。

除了更新的HPL数值外,Frontier团队在所有9,800个节点上运行的高性能Linpack-MixedPrecision(或HPL-MxP)新成绩为11.4exaflops,或每秒11.4quintillion次计算。这与之前HPL-MxP的10.2exaflops相比,提升了超过一个exaflops。

用于模拟癌细胞、超新星、冠状病毒或元素原子结构等现象的详细模拟需要64位精度,这是一个对计算精度要求极高的标准。用于人工智能的机器学习算法通常要求的精度较低,有时甚至只有32、24或16位精度。

Barker说:"这表明Frontier处理人工智能问题的能力有多强。我们从混合精度运行中得到的结果同样精确,但它们是以不同的数学方式得出的。对于某些问题,双精度仍将是标准,但在这些潜在的速度下,我们预计会有更多的研究人员开始探索通过混合精度能获得什么样的结果。他们希望利用这种能力,将解决问题的速度提高10倍,而我们的团队知道如何实现这一点。"

Frontier是HPECrayEX系统,拥有9800多个节点,每个节点都配备了第三代AMDEPYCCPU和四个AMDInstinctMI250XGPU。OLCF是能源部科学办公室的用户设施。

编译自/ScitechDaily

责任编辑:站长云网