«

微软研究揭示:人工智能永远不会变得安全

一把老骨头 发布于 阅读:273 经验技巧


在对微软自家超过100种生成式人工智能产品进行安全性评估后,微软的研究团队提出了一项重要结论:这些模型不仅放大了现有的安全风险,还带来了新的挑战。这项研究由26位作者共同完成,并以“红队100个生成式AI产品的经验”为题发表在预印本上。

尽管该论文指出了保护AI系统是一项永无止境的任务,但作者们也乐观地认为,通过深度防御战术和设计安全原则,可以增加攻击AI系统的难度。这一发现并非完全出乎意料,因为几乎没有非平凡的计算机系统能够达到绝对的安全标准。

论文中列出了八个关键教训,强调了理解AI系统的能力及其应用场景的重要性:

  1. 理解系统能做什么以及它在哪里被应用:必须深入了解模型的能力和应用场景以制定有效的防御策略。
  2. 你不必计算梯度来破坏一个人工智能系统:并非所有攻击都需要复杂的基于梯度的方法;简单的攻击,如用户界面操作或欺骗视觉模型的技巧,通常更有效。
  3. 人工智能红队不是安全基准:红队的目标是发现新的风险,而不仅仅是衡量已知的风险。两者都是必要的。
  4. 自动化可以帮助覆盖更多的风险:自动化工具可以扩大安全测试的范围,帮助识别更多潜在的安全问题。
  5. 人工智能红队的人的因素是至关重要的:尽管自动化对于处理大规模安全工作至关重要,但人类的专业知识、文化能力和情商在红队活动中仍然不可或缺。
  6. 负责任的人工智能伤害无处不在,但难以衡量:AI造成的损害可能不像软件漏洞那样容易量化和解释,尤其是当涉及到社会偏见等问题时。
  7. LLM放大了现有的安全风险,并引入了新的风险:由于语言模型的基本限制,它们可能会产生任意输出,特别是当输入包含私人信息时,这可能导致隐私泄露。
  8. 考虑到AI系统的复杂性和不断变化的威胁环境,持续的安全监控和改进是必不可少的。这意味着保护AI系统的工作永远不会完成,需要不断地评估和调整安全措施。

此外,研究还表明,基于梯度的攻击并不是破坏AI系统的唯一方式,简单如调整用户界面或欺骗视觉模型等方法往往更为有效。同时,自动化技术虽能大幅提高安全检测效率,但人类因素——包括专业知识、文化适应能力以及情商——对于有效的红队操作至关重要。

最后,研究特别指出,AI模型可能会加剧现有社会偏见,并且其造成的损害难以量化。比如,在一项实验中,即使不指定性别,AI生成的图像也倾向于展示男性老板与女性秘书的画面,这种现象可能强化性别刻板印象。

AI 微软 安全