Frontier超算使用其37000个MI250X GPU中的3000个成功运行1万亿参数的LLM
Frontier超级计算机是世界领先的超级计算机,也是目前唯一正在运行的Exascale级超算。这台机器由AMD的EPYC和Instinct硬件驱动,不仅具有顶级的HPC性能,还是全球第二高效的超级计算机。预印本Arxiv上提交的一份报告显示,Frontier超级计算机已通过"超参数调整"达到了训练一万亿个参数的能力,与GPT-4不相上下,树立了新的行业标杆。
我们先来简单回顾一下Frontier超级计算机的优势。ORNL的这台超级计算机从设计之初就采用了AMD的第三代EPYCTrentoCPU和InstinctMI250XGPU加速器。它安装在美国田纳西州的橡树岭国家实验室(ORNL),由能源部(DOE)运营。目前,它使用8,699,904个内核实现了1.194Exaflop/s的速度。HPECrayEX架构结合了针对HPC和AI优化的第3代AMDEPYCCPU、AMDInstinct250X加速器和Slingshot-11互连。在超级计算机Top500.org榜单上,Frontier一直保持着第一的位置,显示了其统治力。
Frontier所创下的新纪录是实施有效策略培训LLM和最高效地使用板载硬件的结果。该团队通过对220亿个、1750亿个和1万亿个参数的广泛测试取得了显著的成果,这些数字是对模型训练过程进行优化和微调的结果。这些结果是仅仅使用了3000个AMD的MI250XAI加速器取得的,尽管这些加速器是相对过时的硬件,但还是显示出了其强大的性能。
更有趣的是,整个"前沿"超级计算机拥有37000个MI250XGPU,因此可以想象使用整个GPU池为LLM提供算力时的性能。AMD还即将在全新的超级计算机中采用其MI300GPU加速器,并配备强大的ROCm6.0生态系统,进一步加速人工智能性能。
服务器和数据中心领域的未来前景广阔,值得注意的是,Frontier目前采用的硬件在业内并不算新。随着生成式人工智能领域的不断进步,未来市场显然需要更强的计算能力,这就是为什么为该领域设计的硬件的进步对下一代的发展至关重要。
踩一下[0]

站长云网
顶一下[0]