英伟达Blackwell Ultra GB300:MLPerf新霸主,AI推理性能飙升45%
英伟达凭借最新一代Blackwell Ultra GB300 NVL72机架级系统,在MLPerf基准测试中创造了新的性能纪录。该公司宣称,在DeepSeek R1测试中,该系统的推理性能相较于基于Blackwell架构的GB200平台有了45%的显著提升。这一成就得益于英伟达在硬件和软件方面的双重优化,使其在运行一系列AI模型时脱颖而出。英伟达强调,对于致力于构建“AI工厂”的开发者而言,GB300应成为首选平台,因其有望为收入增长带来显著助力。
Blackwell架构不仅是英伟达RTX 50系列显卡的核心,为游戏提供卓越性能,同时也是推动大型AI应用发展的关键力量。GB200平台作为该架构的代表,已被广泛应用于全球数据中心,支持下一代AI应用的部署。而Blackwell Ultra GB300作为增强版,性能更上一层楼,英伟达已通过一系列MLPerf基准测试验证了其强大实力。
在最新MLPerf基准测试中,GB300 NVL72在DeepSeek R1、Llama 3.1 405B、Llama 3.1 8B和Whisper等模型的推理性能测试中均表现出色。特别是在DeepSeek模型测试中,GB300的性能提升高达45%,甚至超越了老款Hopper GPU五倍的性能(尽管这一对比结果来自未经核实的第三方数据)。
GB300的性能提升得益于多个方面。首先,Blackwell Ultra采用的张量核心更为强大,提供了2倍的注意力层加速和1.5倍的AI计算FLOPS提升。其次,英伟达在软件方面进行了大量优化和改进。例如,广泛使用的NVFP4格式通过量化DeepSeek R1权重,减少了模型大小,同时保持了计算准确性和吞吐量。此外,对于大型模型如Llama 3.1 405B,英伟达利用其1.8 TBps的NVLink架构实现了模型分片,从而在保持低延迟的同时提高了吞吐量。
英伟达将Blackwell Ultra定位为“AI工厂”开发的经济颠覆者。通过硬件和软件的协同优化,GB300在推理性能上实现了显著提升,为数据中心工作负载的令牌化未来提供了更具盈利潜力的平台。随着GB300即将于本月开始发货,英伟达选择此时发布新基准测试结果,无疑是为了进一步彰显其技术实力和市场领先地位。