AMD的锐龙和镭龙,硬件上轻松驾驭OpenAI超大AI模型
OpenAI发布了GPT-OSS 200亿和1200亿参数的AI模型,这无疑给AI应用带来了新的活力。而AMD也迅速跟进,宣布其锐龙AI MAX和镭龙GPU将为这两个模型提供全面支持,并进一步增强了相关能力。
芯片亮点:锐龙AI MAX+ 395的卓越表现
在众多AMD产品中,锐龙AI MAX+ 395 APU格外引人注目,它是目前唯一能够原生运行OpenAI GPT-OSS 1200亿参数AI模型的芯片。这一成就得益于其高达128GB的内存池,如此强大的内存配置使其能够轻松应对大型AI模型对硬件资源的巨大需求。
与之配套的镭龙GPU也宣布了对这些模型的支持。回顾一下,OpenAI此次发布的GPT-OSS 200亿和1200亿参数模型,是2019年GPT-2的开源权重继承者。从发布首日起,AMD的锐龙AI CPU和镭龙GPU就为用户提供了试用这些模型的机会,用户只需通过LM Studio平台即可进行体验。
深入解析:GPT-OSS模型与硬件适配
那么,GPT-OSS模型究竟有何特别之处呢?这些开源权重模型专注于处理复杂的推理任务和具备智能体能力。在实际应用中,大多数AI PC和AI芯片能够处理200亿参数模型,但1200亿参数模型对硬件的要求要高得多。这就凸显了AMD Strix Halo或锐龙AI MAX芯片的优势,它们专为原生处理此类大型AI模型而设计。
在技术细节方面,GGML转换后的MXFP4权重大约需要61GB的显存,而AMD锐龙AI Max+ 395处理器配备了96GB的专用图形内存,能够轻松容纳这一需求。不过,要解锁这一功能,用户需要安装AMD软件:Adrenalin Edition 25.8.1 WHQL或更高版本的驱动程序。
性能体验:高速与高效并存
在性能表现上,AMD为用户带来了惊喜。凭借高达每秒30个令牌的速度,用户不仅可以访问数据中心级别的先进AI模型,而且由于锐龙AI Max+平台的高带宽以及OpenAI GPT-OSS 1200亿参数模型采用的混合专家架构,模型运行流畅,性能十分出色。
此外,由于锐龙AI Max+ 395拥有128GB的大内存,它还支持该模型的模型上下文协议(MCP)实现,为用户提供了更多的应用可能性。对于使用AMD锐龙AI 300系列处理器的用户来说,他们也可以充分利用OpenAI的200亿参数模型,满足不同场景下的需求。
在硬件搭配方面,对于追求OpenAI GPT-OSS 200亿参数模型超快性能的用户,在台式机系统中使用AMD镭龙9070 XT 16GB显卡是一个不错的选择。这种配置不仅在每秒令牌生成数量上表现出色,而且在首次令牌生成时间(TTFT)方面具有显著优势。在通常计算受限的情况下,使用这种配置进行MCP实现时,用户会感受到非常灵敏的TTFT性能,大大提升了使用体验。
操作指南:轻松上手体验
为了让用户能够顺利体验这些功能,以下是一份详细的操作指南。
首先,用户需要下载并安装AMD软件:Adrenalin Edition 25.8.1 WHQL或更高版本的驱动程序。需要注意的是,旧版驱动程序可能会出现性能下降或不支持相关功能的情况。
如果您使用的是AMD锐龙AI驱动的机器,需要进行一些额外的设置。右键单击桌面,选择AMD软件:Adrenalin Edition,然后依次进入性能选项卡、调优选项卡,找到可变图形内存设置,并根据以下规格表设置VGM。如果您使用的是AMD镭龙显卡,则可以跳过这一步骤。
接下来,下载并安装LM Studio软件,跳过入门向导。进入发现选项卡(放大镜图标),搜索“gpt-oss”,您会在左侧看到一个带有“LM Studio社区”前缀的选项。根据以下矩阵选择与您的产品对应的200亿或1200亿参数版本,然后点击下载。
下载完成后,转到聊天选项卡,点击顶部的下拉菜单,选择OpenAI模型,并确保点击“手动加载参数”。将“GPU卸载”滑块移至最大,并勾选记住设置,最后点击加载。如果您使用的是1200亿参数模型,加载过程可能需要一些时间,加载条可能会暂时看起来像是卡住了,这是因为大多数SSD在突发读取后速度会下降,而且这是一个要加载到内存的大型模型。
加载完成后,您就可以开始输入提示,体验OpenAI的GPT-OSS模型的强大功能了。
产品支持:清晰矩阵一目了然
AMD还为用户提供了详细的产品支持列表,明确了不同产品与OpenAI GPT-OSS模型的兼容性。其中,锐龙AI MAX+ 395是唯一能够处理1200亿参数模型的芯片,展现了其强大的性能优势。而其他产品,如至少拥有16GB内存的镭龙RX 9000、镭龙AI PRO R9000和镭龙RX 7000 GPU,都能够相对轻松地处理GPT-OSS 200亿参数模型,为用户提供了多样化的选择。