英伟达超小型工作站GPU：Blackwell芯片使性能大跃升

一把老骨头发布于 2025-8-14 08:03 阅读：333 科技新闻

英伟达在硬件市场最新推出的Blackwell GPU，以小型工作站显卡的姿态惊艳亮相，为专业可视化和本地人工智能工作负载带来了新的性能突破。

在8月11日于不列颠哥伦比亚省温哥华举办的Siggraph大会上，英伟达正式揭开了RTX Pro 4000小型（SFF）和RTX Pro 2000这两款显卡的神秘面纱。这两款显卡在外观设计上颇为相似，均采用了半高双槽散热器设计，小巧精致，不占过多空间。然而，在这相似的外表之下，却隐藏着截然不同的性能实力。

RTX Pro 4000 SFF堪称性能猛兽，它配备了多达8960个CUDA核心，而RTX Pro 2000仅有4352个，前者是后者的两倍还多。在光线追踪方面，RTX 4000 Ada SFF展现出了强大的实力，与上一代产品相比，速度提升了约1.7倍。在人工智能性能上，更是有了质的飞跃，提升了2.5倍。这得益于其拥有的280个张量核心，能够提供高达770万亿次FP4性能。

不过，这里需要说明的是，从技术层面看，这2.51倍的浮点运算提升，大部分并非源于架构的改进，而是得益于从其他精度向FP4的转变。当我们将性能换算成FP8时，会发现该芯片仅比上一代快约25%。

虽然浮点性能的提升在新款小型显卡上不算特别突出，但在内存带宽这一关键指标上，它却交出了一份令人满意的答卷。内存带宽对于本地推理至关重要，这款显卡配备的24GB GDDR7内存，可提供432GB/s的带宽。与英伟达上一代产品相比，在处理像OpenAI新发布的gpt - oss - 20b这样的大语言模型时，生成文本的速度能够提升约54%。这意味着在处理复杂的语言任务时，它能更快地给出结果，大大提高了工作效率。

而RTX Pro 2000虽然定位稍低，但英伟达也为其赋予了强大的性能提升。它更适合用于专业可视化工作负载，不过在性能上也有了显著进步。与上一代Ada系列产品相比，3D建模性能提升了1.6倍，CAD性能提升了1.4倍，渲染速度加快了1.6倍。在人工智能性能方面，虽然它比不上更大或功耗更高的显卡，但考虑到其仅70W的热设计功耗，表现已经相当出色。它拥有高达545万亿次稀疏FP4计算能力和280GB/s的内存带宽，由16GB的GDDR7内存提供支持。

这两款显卡将于今年晚些时候由PNY和TD SYNNEX开始发售，并且会在BOXX、戴尔、惠普和联想的OEM系统中出现。这对于广大专业用户来说，无疑是一个好消息，他们可以根据自己的需求和预算，选择适合自己的显卡。

值得一提的是，这些显卡的推出，进一步丰富了英伟达的Blackwell工作站GPU产品线。早在今年3月的GTC大会上，英伟达就发布了96GB的RTX Pro 6000。而在本次Siggraph大会上，英伟达还展示了一款2U服务器平台，该平台可运行两张600W的RTX Pro 6000服务器版显卡，每块GPU的稀疏FP4性能高达4千万亿次。目前，这些系统已由思科、戴尔、慧与、联想和超微等公司提供，为服务器市场带来了更强大的性能选择。

英伟达 GPU Blackwell