人工智能工作负载分为两个不同的类别:训练和推理。虽然训练需要较大的计算和内存容量,访问速度并非主要因素,推理则是另一回事。在推理中,人工智能模型必须以极快的速度运行,为最终用户提供尽可能多的词块(单词),从而更快地回答用户的提示。
一家人工智能芯片初创公司Groq曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如GPT、Llama和MistralLLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。
GroqLPU是基于张量流处理器(TSP)架构的单核单元,在INT8时可达到750TOPS,在FP16时可达到188TeraFLOPS,具有320x320融合点乘矩阵乘法,此外还有5120个矢量ALU。
GroqLPU拥有80TB/s的带宽,并具有大规模并发能力,其本地SRAM容量为230MB。所有这些共同作用,为Groq提供了出色的性能,在过去几天的互联网上掀起了波澜。
在Mixtral8x7B模型中,GroqLPU的推理速度为每秒480个令牌,在业内处于领先地位。在Llama270B等上下文长度为4096个令牌的模型中,Groq每秒可提供300个令牌,而在上下文长度为2048个令牌的较小Llama27B中,GroqLPU每秒可输出750个令牌。
根据LLMPerfLeaderboard的数据,GroqLPU在推断LLMsLlama时击败了基于GPU的云提供商,其配置参数从70亿到700亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。
ChatGPT采用GPT-3.5免费版,每秒可输出约40个令牌。目前的开源LLM(如Mixtral8x7B)可以在大多数基准测试中击败GPT3.5,现在这些开源LLM的运行速度几乎可以达到500令牌每秒。随着像Groq的LPU这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。
这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD和英特尔提供的推理硬件,但业界是否愿意采用LPU仍是个问题,您可以在这里进行试用:
https://groq.com/