«

AI安全出大岔子!信息“轰炸”竟能让聊天机器人“不听话”

一把老骨头 发布于 阅读:12 科技新闻


人工智能的应用已广泛渗透至生活的方方面面。然而,随着其应用场景的日益丰富,人工智能的伦理与安全问题也愈发凸显,成为科技界和专家们关注的焦点。此前,大型语言模型在压力测试中表现出说谎和欺骗的异常行为,就已经引发了人们对人工智能可靠性的担忧。如今,研究人员又发现了一种更为危险的方法,能够诱使人工智能聊天机器人突破安全限制,说出不该说的话。

漏洞发现:信息过载的“威力”
英特尔、博伊西州立大学和伊利诺伊大学的研究团队联合开展了一项研究,他们发现大型语言模型在面对信息过载时,会出现混乱状态,而这种混乱恰恰成为了突破安全过滤器的漏洞。研究人员将这种方法命名为“信息过载”。为了验证这一发现,他们使用了一种名为“InfoFlood”的自动化工具,对ChatGPT和Gemini等知名人工智能模型进行了测试。

这些强大的人工智能模型通常都配备了完善的安全防护机制,旨在防止它们被操纵而回答有害或危险的问题。然而,当研究人员用大量复杂数据对模型进行轰炸时,模型出现了混乱,安全防护机制也随之失效。这就意味着,不法分子可以利用这种信息过载的方法,让聊天机器人泄露被禁内容、绕过过滤器并违反安全规则。

背后原理:表面交流的局限
研究人员进一步解释了这一漏洞产生的原理。他们发现,这些大型语言模型在交流过程中,往往只依赖表面层次的信息,无法深入理解话语背后的真实意图。因此,当危险请求隐藏在大量信息中时,模型就难以准确识别和防范。基于这一发现,研究人员创建了一种方法,专门探究聊天机器人在面对此类隐蔽危险请求时的表现。

应对措施与潜在挑战
为了及时解决这一安全隐患,研究人员计划将他们的发现整理成披露文件包,发送给拥有大型人工智能模型的公司。这些公司可以将相关信息分享给安全团队,以便他们采取措施加强安全防护。然而,研究论文也指出,即使设置了安全过滤器,仍然面临着诸多挑战。不法分子可能会不断寻找新的方法,利用模型的漏洞混入有害内容,这对人工智能的安全管理提出了更高的要求。

AI