在2023年Ignite大会期间,微软首次宣布其已开发出名为Maia的自主人工智能加速器芯片。今年早些时候,在Build开发者大会上,微软分享了其首个自主研发的人工智能加速器AzureMaia100的更多细节。Maia100是台积电5nm节点上制造的最大处理器之一,专门为部署在Azure中的大规模AI工作负载而设计。

昨天,在HotChips2024大会上,微软首次分享了Maia100的规格,并透露了更多细节。你可以在下面找到它们的摘要。

Maia100规格

  • 芯片尺寸-820mm2

  • 封装-采用COWOS-S夹层技术的TSMCN5工艺

  • HBMBW/Cap-1.8TB/s@64GBHBM2E

  • 峰值密集张量POPS-6位:3,9位1.5,BF16:0.8

  • L1/L2-500MB

  • 后端网络BW-600GB/秒(12X400gbe)

  • 主机BW(PCIe)=32GB/sPCIeGen5X8

  • 最高TDP-700W

  • 额定TDP-500W

  • 微软Maia100系统采用垂直集成方式,以优化成本和性能。它还采用定制服务器板,配备专门设计的机架和软件堆栈,以提高性能。

    Maia100SoC架构

  • 高速张量单元可为训练和推理提供高速处理,同时支持多种数据类型。该张量单元采用16xRx16结构。

  • 矢量处理器是一个松散耦合的超标量引擎,采用定制指令集架构(ISA),支持包括FP32和BF16在内的多种数据类型。

  • 直接内存访问(DMA)引擎支持不同的张量分片方案。

  • 硬件semaphores支持Maia系统的异步编程。

  • 为提高数据利用率和能效,大型L1和L2划痕垫采用软件管理。

  • Maia100采用基于以太网的互联技术和类似RoCE的定制协议,可实现超高带宽计算。它支持高达4800Gbps的全收集和散射降低带宽,以及1200Gbps的全对全带宽。

    在软件方面,Maia软件开发工具包(SDK)允许任何人快速将其PyTorch和Triton模型移植到Maia。MaiaSDK为开发人员提供了多个组件,使他们能够轻松地将模型部署到AzureOpenAI服务。

    开发人员可以选择两种编程模型来为Maia系统编程。他们既可以使用Triton(一种用于深度神经网络(DNN)的流行开源特定领域语言(DSL)),也可以使用MaiaAPI(一种Maia专用的定制编程模型,可通过更详细的控制实现最高性能)。此外,Maia还原生支持PyTorch模型,开发人员只需更改一行即可执行PyTorch模型。

    凭借其先进的架构、出色的开发者工具以及与Azure的深度集成,Maia100正在改变微软管理和执行人工智能工作负载的方式。微软是否会像Google对其TPU和亚马逊对其Trainium和Inferentia芯片那样向第三方机构开放Maia100加速器,还值得观察。

    有关Maia100的更多信息,请点击此处查看微软官方博文。