Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

人工智能工作负载分为两个不同的类别：训练和推理。虽然训练需要较大的计算和内存容量，访问速度并非主要因素，推理则是另一回事。在推理中，人工智能模型必须以极快的速度运行，为最终用户提供尽可能多的词块（单词），从而更快地回答用户的提示。

一家人工智能芯片初创公司Groq曾长期默默无闻，但现在它利用专为大型语言模型（LLM）（如GPT、Llama和MistralLLM）设计的语言处理单元（LPU），在提供超快推理速度方面取得了重大进展。

GroqLPU是基于张量流处理器（TSP）架构的单核单元，在INT8时可达到750TOPS，在FP16时可达到188TeraFLOPS，具有320x320融合点乘矩阵乘法，此外还有5120个矢量ALU。

GroqLPU拥有80TB/s的带宽，并具有大规模并发能力，其本地SRAM容量为230MB。所有这些共同作用，为Groq提供了出色的性能，在过去几天的互联网上掀起了波澜。

在Mixtral8x7B模型中，GroqLPU的推理速度为每秒480个令牌，在业内处于领先地位。在Llama270B等上下文长度为4096个令牌的模型中，Groq每秒可提供300个令牌，而在上下文长度为2048个令牌的较小Llama27B中，GroqLPU每秒可输出750个令牌。

根据LLMPerfLeaderboard的数据，GroqLPU在推断LLMsLlama时击败了基于GPU的云提供商，其配置参数从70亿到700亿不等。在令牌吞吐量（输出）和到第一个令牌的时间（延迟）方面，Groq处于领先地位，实现了最高的吞吐量和第二低的延迟。

ChatGPT采用GPT-3.5免费版，每秒可输出约40个令牌。目前的开源LLM（如Mixtral8x7B）可以在大多数基准测试中击败GPT3.5，现在这些开源LLM的运行速度几乎可以达到500令牌每秒。随着像Groq的LPU这样的快速推理芯片开始普及，等待聊天机器人回应的日子似乎开始慢慢消失了。

这家人工智能初创公司直接威胁到英伟达（NVIDIA）、AMD和英特尔提供的推理硬件，但业界是否愿意采用LPU仍是个问题，您可以在这里进行试用：

https://groq.com/