华为反击美限制:云矩阵384芯片技术登场
近日,有消息传出,华为已经开始向开发者加大其AI CloudMatrix 384超节点芯片技术的供应力度,这一举措无疑为中国人工智能产业的发展注入了新的活力。
云矩阵384,堪称华为在人工智能计算基础设施领域的一颗璀璨明珠。它搭载了384个Ascend 910C处理器,这些处理器形成了一个互连的“所有对所有”的独特安排,犹如一个紧密协作的超级团队,共同为人工智能计算任务提供强大的动力支持。
华为此次推出新的人工智能芯片技术,其意义深远,不仅是对自身技术实力的一次展示,更是对英伟达NVL72系统的一次有力回应。基于Ascend 910C的超级节点,巧妙地解决了大规模人工智能集群的通信效率这一关键难题。在人工智能领域,通信效率的高低直接影响着整个系统的性能和运行速度,华为的这一创新成果无疑为大规模人工智能计算带来了新的可能。
上周五,华为举行了盛大的鲲鹏上升开发者大会。在大会上,Ascend计算业务总裁张发表了激情澎湃的演讲。他深刻指出:“随着并行处理规模的不断增长,传统服务器架构中的跨机器带宽已然成为培训的关键瓶颈。”这一观点犹如一记警钟,提醒着整个行业传统架构在面对日益复杂的人工智能任务时的局限性。
张还进一步强调,在美国不断增加限制的大背景下,全新的云矩阵384人工智能芯片技术将肩负起满足中国未来培训需求的重任。这些需求往往需要创新的计算架构来支撑,而云矩阵384的出现,无疑为中国人工智能产业的发展提供了坚实的硬件基础。
让我们深入了解一下云矩阵384的强大性能。华为巧妙地在12个计算机柜和4个总线机柜中使用了384个Ascend AI芯片组来构建这一新的AI芯片技术。这些芯片组协同工作,能够提供高达300 petaflops的计算能力和48 TB的高带宽内存。如此惊人的计算能力和内存容量,使得云矩阵384成为了业界最大的人工智能训练平台,宛如一座人工智能计算的“超级工厂”。
一些权威的基准测试表明,CloudMatrix 384在处理Meta、LLama3等密集人工智能模型时,每张卡每秒能够提供132个令牌(TPS)。这一数据意味着它的处理速度比市场上的其他传统集群快2.5倍,优势十分明显。根据之前的披露,CloudMatrix在关键指标上更是全面超越NVL72,计算能力高出约67%,聚合内存容量增加3倍。这一系列数据充分证明了华为在人工智能芯片技术领域的领先地位。
上个月,华为已经开始向英伟达的一些中国客户提供新的人工智能芯片技术,这无疑是对美国限制的一种有力回击。如今,华为正在进一步加大向开发者提供CloudMatrix 384 supernode的力度,让更多的开发者能够受益于这一先进的技术。
华为的这一系列努力,充分彰显了其用自己开发的技术回击美国限制的坚定决心。在未来的科技竞争中,华为有望凭借其强大的人工智能芯片技术,为中国人工智能产业的发展开辟出一条更加广阔的道路,引领中国科技产业在全球舞台上绽放更加耀眼的光芒。