自回归模型BLOOMZ来了！性能时延仅3.7秒，推理变得更容易了！

(相关资料图)

编程客栈（）8月25日消息:最近，Anthropic公司开源了语言理解模型BLOOMZ，它拥有高达1760亿个参数，是目前公开的参数量最大的语言模型之一。以这种规模的模型进行推理，对硬件的算力和内存提出了极高的要求。

论文地址:https://arxiv.org/abs/2211.05100

Habana Labs推出的第二代AI芯片Gaudi2在此方面具有独特优势。单块Gaudi2芯片就具有96GB内存，8块芯片可以组成一个服务器，提供768GB的总内存。Habana自主研发的SynapseAI软件栈可以将模型有效分配到多块芯片上，实现模型并行。

Hugging Face的工程师使用Gaudi2对BLjsOOMZ模型进行了测试。结果显示，在8块芯片上以16位浮点精度进行推理，延迟只有3.7秒，达到了接近实时的速度。相比之下，在第一代Gaudi芯片上推理需时20秒。Habandroidana团队表示，通过持续优化，有望进一步提升BLOOMZ的推理性能。

Gaudi2芯片强大的算力和巨大的内存，配合Habana自主研发的SynapseAI软件栈，可以轻松支持编程客栈千亿级参数的语言模型进行实时推理。这为大模型的实际应用带来了新的可能性。未来Habana计划支持更低精度的推理，以进一步提升性能并降低功耗。

[责任编辑：editor]

[关键词：]

热点

自回归模型BLOOMZ来了！性能时延仅3.7秒，推理变得更容易了！

相关新闻

为你推荐