OpenAI GPT-5 正式登场!
OpenAI正式推出GPT-5,这款全新的旗舰人工智能模型,将成为下一代ChatGPT的核心驱动力。
周四亮相的GPT-5,是OpenAI首个“统一型”人工智能模型。它将o系列模型强大的推理能力与GPT系列快速响应的特性巧妙融合,为ChatGPT及其开发者OpenAI开启了全新的发展阶段,也彰显出OpenAI在打造更接近智能体而非简单聊天机器人的人工智能系统方面的宏伟目标。
此前,GPT-4让AI聊天机器人能够针对各类问题给出智能回应。而GPT-5则更进一步,赋予ChatGPT代表用户完成多样化任务的能力,像开发软件应用、规划用户日程、撰写研究简报等都不在话下。
在提升用户体验方面,OpenAI也借助GPT-5下足功夫。GPT-5配备了实时路由功能,无需用户手动选择设置,它就能自行判断如何给出最佳答案,无论是快速回复用户疑问,还是花时间深入“思考”后作答。
在与记者的交流中,OpenAI首席执行官山姆·阿尔特曼毫不吝啬对GPT-5的赞美,称其为“全球最佳模型”,还表示这是公司在追求通用人工智能(AGI,即能在多数有经济价值工作中超越人类的人工智能)道路上的关键一步。他感慨道:“在过往的任何时候,都难以想象会出现像GPT-5这样的成果。”
从周四起,GPT-5成为所有ChatGPT免费用户的默认模型。OpenAI的ChatGPT副总裁尼克·特利介绍,这是公司首次让免费用户能够使用AI推理模型,此前这类更先进的模型是付费专属内容。特利谈及这一决策时说:“这是我们践行使命的体现,要让先进AI真正惠及大众。”
科技与风投大咖齐聚2025 Disrupt大会
Netflix、ElevenLabs、Wayve、红杉资本、埃拉德·吉尔等众多科技与风投界的重量级嘉宾,将亮相2025 Disrupt大会议程。他们将分享宝贵见解,助力初创企业成长,为参会者带来竞争优势。TechCrunch Disrupt迎来20周年纪念,这是向科技界顶尖人士学习的绝佳机会。现在购票,在价格上涨前可节省600多美元。
GPT-5备受瞩目,它是自2022年ChatGPT让OpenAI声名远扬后,该公司最受期待的产品发布之一。如今,ChatGPT已成为全球极具人气的消费产品,每周用户超7亿,几乎占全球人口的10%。
许多人将GPT-5视为人工智能整体发展的风向标。硅谷对它的接纳程度,可能会对大型科技公司、华尔街以及监管技术的政策制定者产生深远影响。各方都在密切关注,GPT-5能否像其前身GPT-4那样,在人工智能能力上实现重大突破,挑战人们对软件功能的传统认知。
GPT-5在竞争中崭露头角
OpenAI宣称,GPT-5在多个领域处于领先地位,在关键基准测试中,它比Anthropic、谷歌DeepMind和埃隆·马斯克旗下xAI等公司的领先AI模型略胜一筹。不过,在某些领域,GPT-5的表现稍逊于前沿AI模型。
该公司表示,GPT-5在编程方面达到前沿水平。阿尔特曼特别指出,该模型擅长按需创建完整软件应用,即所谓的“氛围编程”。
在SWE-bench Verified测试(从GitHub抽取实际编程任务进行的测试)中,GPT-5首次尝试就获得74.9%的分数,略高于Anthropic的Claude Opus 4.1模型(74.5%)和谷歌DeepMind的Gemini 2.5 Pro(59.6%)。
在“人类最后一场考试”(涵盖数学、人文和自然科学难题的测试)中,具备扩展推理能力的GPT-5版本(GPT-5 Pro)使用工具时得分为42%,低于xAI的Grok 4 Heavy(44.4%)。
在GPQA Diamond测试(针对博士水平科学问题的测试)中,GPT-5 Pro首次尝试得分89.4%,优于Claude Opus 4.1(80.9%)和Grok 4 Heavy(88.9%)。
OpenAI称,GPT-5在回答健康问题方面表现更优。在HealthBench Hard Hallucinations测试(衡量AI模型在医疗健康话题回复准确性的测试)中,经过思考的GPT-5出现幻觉(编造信息)的概率仅1.6%,远低于该公司之前的GPT-4o和o3模型(分别为12.9%和15.8%)。
尽管AI聊天机器人并非专业医疗人员,但有数百万人向它们寻求健康建议。针对这一现象,OpenAI表示GPT-5会更主动地标记潜在健康问题,帮助用户解读医疗结果。
此外,OpenAI称GPT-5在创意设计和写作等主观领域的表现优于其他AI模型。特利表示,GPT-5在创意任务中的回复更自然,展现出“更好的品味”。他说:“这款模型的表现相当出色。”
GPT-5的准确性也高于OpenAI之前的模型,出现幻觉的情况明显减少。在OpenAI最新的人工智能推理模型(如o3)中,幻觉问题愈发严重,公司此前也不清楚原因。
在ChatGPT提示的回复中,经过思考的GPT-5出现幻觉并给出错误信息的概率为4.8%,与o3和GPT-4o在该测试中的幻觉率(分别为22%和20.6%)相比,大幅降低。
在衡量AI模型完成模拟在线任务智能体能力的Tau-bench基准测试中,GPT-5表现不一。在测试导航航空公司网站能力的部分,GPT-5得分为63.5%,略低于o3(64.8%);在测试导航零售网站能力的部分,GPT-5得分为81.1%,低于Claude Opus 4.1(82.4%)。
OpenAI还表示,GPT-5比之前的模型更安全。虽然AI推理模型偶尔会有对人类不利或为达自身目的而说谎的倾向,但GPT-5的欺骗率低于其他模型。
OpenAI安全研究负责人亚历克斯·贝特尔称,减少欺骗行为不仅提升了GPT-5的安全性,也改善了用户体验,让模型更加“透明、诚实,值得用户信任”。
贝特尔还指出,GPT-5能更好地区分滥用ChatGPT的恶意行为者和提出无害请求的用户。这使得GPT-5能拒绝更多不安全问题,同时减少对寻求无害信息用户的拒绝。
消费者与开发者的升级体验
随着GPT-5的发布,ChatGPT在用户体验方面进行了多项升级。用户现在可以在ChatGPT设置中选择四种新角色:愤世嫉俗者、机器人、倾听者和书呆子。这些角色无需用户特别要求,就能自动调整ChatGPT的回复。
ChatGPT每月20美元的Plus套餐订阅用户使用GPT-5的限额高于免费用户。每月200美元的Pro套餐订阅用户可无限量使用GPT-5,还能使用名为GPT-5 Pro的增强版,该版本利用额外计算资源生成更优质的答案。OpenAI团队、教育和企业套餐的组织用户,下周将把GPT-5作为默认模型使用。
对于开发者而言,GPT-5将以gpt - 5、gpt - 5 - mini和gpt - 5 - nano三种规格接入OpenAI的API,处理任务的“推理”时间有所不同。开发者现在还能在API中控制回复的详细程度,决定AI模型回复的长短。
GPT-5基础模型对开发者的收费为每百万输入令牌(约75万字,比整个《指环王》系列还长)1.25美元,每百万输出令牌10美元。
GPT-5发布之际,OpenAI正忙于多项事务。公司推出了一款开源推理模型gpt - oss,开发者和企业可免费下载运行,成本大幅降低。这款开源模型的能力接近OpenAI之前的顶级模型o3和o4 - mini,但GPT-5在编程等部分领域树立了新的前沿性能标准。
然而,GPT-5在多个领域的表现与其他前沿AI模型大致相当。基准测试只能反映部分情况,GPT-5在现实世界中的表现,以及它是否真的超越竞争对手,还有待进一步观察。
技术原理层面
GPT-5的“统一”特性是其一大亮点。它融合了o系列模型的推理能力和GPT系列的快速响应能力,这背后涉及到复杂的多模型架构整合与优化。OpenAI的研发团队可能采用了先进的神经网络架构设计,将不同模型的优势模块进行深度融合,通过大量的数据训练和参数调整,使得GPT-5能够在处理任务时,根据任务需求自动切换或结合不同的能力模式。例如,在面对简单的问答任务时,它可能主要调用GPT系列的快速响应机制;而在处理需要深入分析和推理的任务,如生成复杂的软件代码或进行科学研究分析时,则会激活o系列模型的强大推理能力。
在减少幻觉方面,GPT-5可能采用了多种技术手段。一方面,在训练数据的选择和预处理上更加严格,过滤掉了大量可能包含错误信息或模糊表述的数据,提高了训练数据的质量。另一方面,引入了更先进的注意力机制和上下文理解算法,使模型能够更准确地把握问题的核心和上下文信息,从而减少编造信息的可能性。此外,还可能采用了强化学习的方法,对模型生成的正确回复进行奖励,对出现幻觉的回复进行惩罚,引导模型朝着更准确的方向学习。
市场影响层面
GPT-5的发布对科技市场将产生多方面的影响。对于大型科技公司来说,它可能会引发新一轮的技术竞争。其他科技巨头可能会加大在人工智能领域的研发投入,推出类似的统一模型或具有独特优势的AI产品,以争夺市场份额。这将促使整个行业的技术水平不断提升,加速人工智能的发展进程。
在华尔街,GPT-5的表现可能会影响相关科技公司的股价。如果市场认为GPT-5能够带来显著的商业价值和竞争优势,OpenAI及其合作伙伴的股价可能会上涨。同时,投资者也可能会重新评估人工智能行业的投资价值,调整投资组合,将更多资金投向具有潜力的AI企业和项目。
对于政策制定者来说,GPT-5的出现将促使他们更加关注人工智能的监管问题。随着AI模型能力的不断提升,其可能带来的伦理、隐私、安全等问题也日益凸显。政策制定者需要制定相应的法律法规和监管政策,确保人工智能的发展符合社会的利益和价值观,保障公众的权益。
用户反馈层面
在GPT-5发布后,用户的反馈将对其后续的发展和优化起到重要作用。普通用户可能会关注ChatGPT在使用GPT-5后的实际体验,如回复的准确性、自然度、任务完成能力等。如果GPT-5能够在这些方面表现出色,满足用户的需求,将有助于提高用户对ChatGPT的满意度和忠诚度,吸引更多用户使用。
开发者则会更关注GPT-5在API接口方面的性能和功能。例如,不同规格的模型(gpt - 5、gpt - 5 - mini和gpt - 5 - nano)在实际应用中的表现如何,是否能够满足不同场景下的需求;控制回复详细程度的功能是否灵活易用,是否能够生成符合要求的回复等。开发者的反馈将帮助OpenAI进一步优化API接口,提高GPT-5的实用性和易用性。