数据中心高负荷下的GPU寿命为何如此短暂?仅为1-3年
根据未具名的谷歌架构师的说法,数据中心内的GPU的使用寿命可能只有短短的一到三年。这是因为GPU在处理大量的人工智能训练和推理任务时,承担着极其繁重的工作量,导致其老化速度远超其他硬件部件。
一位来自Alphabet的资深专家指出,在云计算服务商(CSP)的数据中心中,GPU的平均使用率介于60%至70%之间。在这种高强度的使用频率下,GPU通常只能维持一至两年,最理想的情况下也不超过三年。
虽然无法验证这位声称自己是“Alphabet生成式AI首席架构师”人士的真实身份,但考虑到现代数据中心GPU在处理人工智能与高性能计算(HPC)任务时消耗的电量高达700瓦或更多,这一说法确实有一定的合理性。如此高的能耗对GPU内部的硅芯片构成了极大的压力。
降低使用率能否成为延长GPU寿命的有效手段?
上述专家还提出,减少GPU的使用率可以有效延长其使用寿命。但是,这样做意味着设备的折旧速度将会减缓,投资回报周期也会相应延长,这对于追求高效运营的云服务商来说并非最佳选择。因此,大多数云服务商倾向于保持GPU的高使用率以最大化其经济效益。
今年初,Meta公司发布的一项研究报告显示,其Llama 3模型拥有405亿个参数,训练过程中使用了由16,384个NVIDIA H100 80GB GPU组成的集群。尽管该集群的模型浮点运算利用率达到约38%,但在54天的初步训练期间,仍发生了419次非计划性中断事件,其中近三成(148次)是由各类GPU故障引发,约17%(72次)则归因于HBM3内存问题。
尽管Meta的数据显示GPU故障率相对较高,但这对于NVIDIA H100 GPU而言仍然是一个较为乐观的结果。若按照Meta所记录的故障频率推算,这些处理器的年化故障率约为9%,三年内的累计故障率大约为27%。然而,实际情况可能是,随着使用时间的增长,GPU发生故障的概率也会逐渐增加。