(资料图片)
编程客栈() 5月23日消息:Mephpta 公司的 AI 工作负载无处不在,为诸多应用提供基础支持,如内容理解、动态信息流、生成式 AI 和广告排名等。得益于其与 python 的无缝集成、急切模式编程和简明的 API,PyTorch 可以运行这些工作负载。
其中,DLRMs 对于提升 Meta 产品和服务的用户体验至关重要。硬件系统必须在模型的规模和复杂性不断增长的情况下,提供越来越多的内存和计算资源,同时保持效率。
然而,当处理 Meta 在规模上独特的推荐工作负载时,hMZcIZfmGPU 并不总是最佳选择。为了解决这个问题,Meta 团队开发了一套名为「Meta 训练和推理加速器」(MTIA)的专用集成电路(ASIC)。考虑到下一代推python荐模型的需求,第一代 ASIC 已经纳入 PyTorch 中,以开发完全优化的排名系统。为javascript了让开发人员保持高效,他们不断维护对 PyTorch 2.0 的支持,该版本极大地提高了 PyTorch 的编译器级性能。
研究人员将 MTIA 与 NNPI 加速器和图形处理单元进行了比较。结果显示,MTIA 在低复杂性模型的小规模和批处理上进行了有效管理。MTIA 通过积极优化其软件栈,实现了类似的性能水平。与此同时,它利用 GPU 的软件栈在中高复杂性模型上运行更大规模、更优化的形式。
为了优化 Meta 工作负载的性能,团队正在努力寻找计算能力、内存容量和互连带宽之间的平衡点,以开发更好、更高效的解决方python案。