«

OpenAI兑现承诺,GPT-OSS——自GPT-2后首款开放权重语言模型登场

一把老骨头 发布于 阅读:19 科技新闻


OpenAI再次成为焦点。2025年8月5日,OpenAI正式推出了自GPT-2以来首款开放权重语言模型GPT-OSS,这一举措无疑在人工智能领域掀起了新的波澜。

GPT-OSS此次推出了两个不同规模的版本,以满足不同用户的需求。第一个版本是拥有1170亿参数的推理模型,OpenAI宣称其性能能够与自家专有的o4-mini相媲美。这意味着在处理复杂的推理任务时,GPT-OSS-117B能够展现出强大的能力,为用户提供高质量的结果。第二个版本则是相对较小的210亿参数版本,据介绍,它的性能与o3-mini相近,在保证一定性能的同时,更加适合对计算资源要求不那么苛刻的场景。

为了让大家更直观地了解GPT-OSS新开放权重模型与专有模型的差异,OpenAI还提供了详细的对比信息。你可以在OpenAI的官方博客上找到更多关于模型基准测试的内容,这些数据将帮助你更好地评估GPT-OSS的性能表现。

在模型的开放程度方面,GPT-OSS堪称典范。与一些采用定制许可证,限制用户数量或商业应用的语言模型不同,OpenAI选择在高度宽松的Apache 2.0许可证下提供GPT-OSS。这一举措赋予了用户极大的自由度,你可以根据自己的需求对模型进行各种操作,无论是进行二次开发、应用于商业项目,还是与其他技术进行集成,都不受过多限制。

从训练数据来看,GPT-OSS主要基于英语文本进行训练,并且特别强调了科学、技术、工程和数学(STEM)、编程以及常识等方面的内容。这使得模型在处理相关领域的任务时具有天然的优势。不过,与OpenAI的一些大型模型如GPT4o相比,GPT-OSS不具备视觉能力,这也是它在功能上的一个局限性。

在训练后的优化阶段,OpenAI采用了强化学习技术,这一技术与为o4-mini赋予思维链推理能力的方法类似。通过这种方式,GPT-OSS能够不断提升自身的推理能力。而且,和OpenAI的其他专有模型一样,用户可以通过设置系统提示中的参数,将模型的推理努力程度调整为低、中或高三个级别。例如,当你需要模型进行更深入的思考和分析时,可以将推理级别设置为“高”,从而获得更准确、更全面的结果。

GPT-OSS的另一个亮点是采用了专家混合(MoE)架构。GPT-OSS-120B拥有128个专家模块,其中4个(总计51亿参数)负责生成每个输出标记。这种架构使得模型在处理任务时能够更加高效地利用资源,不同的专家模块可以根据任务的需求动态激活,从而提高模型的性能和效率。而GPT-OSS-20B则是120B版本的简化版,它有32个专家模块和36亿个活跃参数,虽然规模较小,但在一些对计算资源要求不高的场景中也能发挥出良好的性能。

以下是该模型MoE架构的快速概览
以下是该模型MoE架构的快速概览 - 点击放大

在硬件适配性方面,GPT-OSS也表现出色。由于OpenAI在MoE层以原生MXFP4精度对模型进行了训练,这使得模型在运行时的效率得到了显著提升。据OpenAI介绍,1200亿参数的GPT-OSS-120B模型可以在单个80GB H100 GPU上运行,而较小的200亿参数的GPT-OSS-20B版本仅需16GB显存即可运行。我们在实际测试中,在RTX 6000 Ada上使用Ollama测试GPT-OSS-20B时,观察到在批量大小为1的情况下,标记生成速率超过125个/秒,这充分证明了模型在硬件上的良好适配性和高效性。

在上下文窗口方面,GPT-OSS的两个版本都提供了128K标记的原生上下文窗口。然而,在竞争激烈的人工智能领域,这一指标已经不再具有绝对的优势。阿里巴巴的Qwen3系列提供了256K标记的上下文窗口,而Meta的Llama 4系列更是支持多达1000万标记的上下文,无论是处理更长的文本还是更复杂的任务,都具有更大的灵活性。

GPT-OSS的推出并非一帆风顺,它经历了多次延迟。最近一次延迟,OpenAI首席执行官萨姆·奥尔特曼将其归因于安全评估的延长。在人工智能技术日益发展的今天,安全问题是至关重要的。OpenAI在周二的一篇博客文章中详细介绍了GPT-OSS的安全功能,包括过滤掉化学、生物、放射或核研究与开发等有害主题的数据,防止用户输入不安全的提示或尝试提示注入等。

“一旦开放权重模型发布,对手可能就能够对该模型进行微调以用于恶意目的,”OpenAI在博客中解释道。为了应对这一潜在风险,OpenAI在开发过程中采取了一系列措施,有效地防止了测试人员将模型用于恶意用途。为了进一步验证模型的安全性,OpenAI还向开发者发起挑战,邀请他们对模型进行红队测试,并为任何能够发现新型安全问题的人提供50万美元的奖金。

GPT-OSS发布后,用户可以在Hugging Face等各种模型存储库上获取该模型,并且它广泛支持多种推理框架,包括Hugging Face Transformers、PyTorch、Triton、vLLM、Ollama和LM Studio等。如果你想测试这些模型,可以查看我们关于本地部署大语言模型的指南,里面提供了详细的操作步骤和注意事项。

值得一提的是,GPT-OSS似乎并非OpenAI正在开发的唯一产品。奥尔特曼在X上的一篇帖子中表示,预计“本周晚些时候会有重大升级”。这一消息引发了人们的广泛猜测,许多人认为这可能是GPT-5的即将问世。如果真是如此,那么人工智能领域又将迎来一次重大的变革。

OPENAI CHATGPT