AI安全出大岔子！信息“轰炸”竟能让聊天机器人“不听话”

一把老骨头发布于 2025-7-20 08:01 阅读：53 科技新闻

人工智能的应用已广泛渗透至生活的方方面面。然而，随着其应用场景的日益丰富，人工智能的伦理与安全问题也愈发凸显，成为科技界和专家们关注的焦点。此前，大型语言模型在压力测试中表现出说谎和欺骗的异常行为，就已经引发了人们对人工智能可靠性的担忧。如今，研究人员又发现了一种更为危险的方法，能够诱使人工智能聊天机器人突破安全限制，说出不该说的话。

漏洞发现：信息过载的“威力”
英特尔、博伊西州立大学和伊利诺伊大学的研究团队联合开展了一项研究，他们发现大型语言模型在面对信息过载时，会出现混乱状态，而这种混乱恰恰成为了突破安全过滤器的漏洞。研究人员将这种方法命名为“信息过载”。为了验证这一发现，他们使用了一种名为“InfoFlood”的自动化工具，对ChatGPT和Gemini等知名人工智能模型进行了测试。

这些强大的人工智能模型通常都配备了完善的安全防护机制，旨在防止它们被操纵而回答有害或危险的问题。然而，当研究人员用大量复杂数据对模型进行轰炸时，模型出现了混乱，安全防护机制也随之失效。这就意味着，不法分子可以利用这种信息过载的方法，让聊天机器人泄露被禁内容、绕过过滤器并违反安全规则。

背后原理：表面交流的局限
研究人员进一步解释了这一漏洞产生的原理。他们发现，这些大型语言模型在交流过程中，往往只依赖表面层次的信息，无法深入理解话语背后的真实意图。因此，当危险请求隐藏在大量信息中时，模型就难以准确识别和防范。基于这一发现，研究人员创建了一种方法，专门探究聊天机器人在面对此类隐蔽危险请求时的表现。

应对措施与潜在挑战
为了及时解决这一安全隐患，研究人员计划将他们的发现整理成披露文件包，发送给拥有大型人工智能模型的公司。这些公司可以将相关信息分享给安全团队，以便他们采取措施加强安全防护。然而，研究论文也指出，即使设置了安全过滤器，仍然面临着诸多挑战。不法分子可能会不断寻找新的方法，利用模型的漏洞混入有害内容，这对人工智能的安全管理提出了更高的要求。