«

英伟达超小型工作站GPU:Blackwell芯片使性能大跃升

一把老骨头 发布于 阅读:16 科技新闻


英伟达在硬件市场最新推出的Blackwell GPU,以小型工作站显卡的姿态惊艳亮相,为专业可视化和本地人工智能工作负载带来了新的性能突破。

在8月11日于不列颠哥伦比亚省温哥华举办的Siggraph大会上,英伟达正式揭开了RTX Pro 4000小型(SFF)和RTX Pro 2000这两款显卡的神秘面纱。这两款显卡在外观设计上颇为相似,均采用了半高双槽散热器设计,小巧精致,不占过多空间。然而,在这相似的外表之下,却隐藏着截然不同的性能实力。

RTX Pro 4000 SFF堪称性能猛兽,它配备了多达8960个CUDA核心,而RTX Pro 2000仅有4352个,前者是后者的两倍还多。在光线追踪方面,RTX 4000 Ada SFF展现出了强大的实力,与上一代产品相比,速度提升了约1.7倍。在人工智能性能上,更是有了质的飞跃,提升了2.5倍。这得益于其拥有的280个张量核心,能够提供高达770万亿次FP4性能。

不过,这里需要说明的是,从技术层面看,这2.51倍的浮点运算提升,大部分并非源于架构的改进,而是得益于从其他精度向FP4的转变。当我们将性能换算成FP8时,会发现该芯片仅比上一代快约25%。

虽然浮点性能的提升在新款小型显卡上不算特别突出,但在内存带宽这一关键指标上,它却交出了一份令人满意的答卷。内存带宽对于本地推理至关重要,这款显卡配备的24GB GDDR7内存,可提供432GB/s的带宽。与英伟达上一代产品相比,在处理像OpenAI新发布的gpt - oss - 20b这样的大语言模型时,生成文本的速度能够提升约54%。这意味着在处理复杂的语言任务时,它能更快地给出结果,大大提高了工作效率。

而RTX Pro 2000虽然定位稍低,但英伟达也为其赋予了强大的性能提升。它更适合用于专业可视化工作负载,不过在性能上也有了显著进步。与上一代Ada系列产品相比,3D建模性能提升了1.6倍,CAD性能提升了1.4倍,渲染速度加快了1.6倍。在人工智能性能方面,虽然它比不上更大或功耗更高的显卡,但考虑到其仅70W的热设计功耗,表现已经相当出色。它拥有高达545万亿次稀疏FP4计算能力和280GB/s的内存带宽,由16GB的GDDR7内存提供支持。

这两款显卡将于今年晚些时候由PNY和TD SYNNEX开始发售,并且会在BOXX、戴尔、惠普和联想的OEM系统中出现。这对于广大专业用户来说,无疑是一个好消息,他们可以根据自己的需求和预算,选择适合自己的显卡。

值得一提的是,这些显卡的推出,进一步丰富了英伟达的Blackwell工作站GPU产品线。早在今年3月的GTC大会上,英伟达就发布了96GB的RTX Pro 6000。而在本次Siggraph大会上,英伟达还展示了一款2U服务器平台,该平台可运行两张600W的RTX Pro 6000服务器版显卡,每块GPU的稀疏FP4性能高达4千万亿次。目前,这些系统已由思科、戴尔、慧与、联想和超微等公司提供,为服务器市场带来了更强大的性能选择。

英伟达 GPU Blackwell