英伟达首次公布blackwellgpu训练工作负载成绩

2024-11-15 13:48:29浅语科技

11月14日消息，科技媒体WccfTech昨日（11月13日）发布博文，报道称英伟达首次公布了BlackwellGPU在MLPerfv4.1AI训练工作负载中的成绩，在训练Llama270B(Fine-Tuning)模型时比Hopper快2.2倍。

测试简介

英伟达于今年8月，首次公布了BlackwellGPU在MLPerfv4.1AI推理方面的基准测试成绩，而今天首次公布了该GPU在MLPerfv4.1AI训练工作负载方面的测试成绩。

NVIDIA表示，随着新模型的推出，AI领域对计算的需求正在以指数级增长，因此需要大幅提升训练和推理AI的能力，IT之家附上本次训练工作负载主要使用的模型如下：

Llama270B（LLM微调）

StableDiffusion（文本到图像）

DLRMv2（推荐系统）

BERT（自然语言处理）

RetinaNet（目标检测）

GPT-3175B（LLM预训练）

R-GAT（图神经网络）

这些工作负载的基准测试为评估AI加速器的训练性能提供了准确的数据支持。

HopperGPU的持续优化

HopperGPU自发布以来，经过持续的软件优化，性能得到了显著提升。H100GPU在LLM预训练性能上比首次提交时快了1.3倍，并且在GPT-3（175B训练）中实现了70%的性能提升。

英伟达利用11616个H100GPU进行了MLPerf的最大规模提交，进一步证明了其在数据中心级别的强大能力。

Blackwell的技术优势

BlackwellGPU的设计旨在提高每个GPU的计算吞吐量，配备更大更快的高带宽内存，不降低性能的前提下，能够在更少的GPU上运行GPT-3175B基准测试。

根据测试结果，64张BlackwellGPU的测试性能，可以达到256张HopperGPU的水平。