新报告确定了操纵人工智能系统行为的网络攻击类型

来源:
导读 对手可以故意迷惑甚至毒害人工智能(AI)系统,使其发生故障,而且其开发人员无法采用万无一失的防御措施。美国国家标准与技术研究院(NIST)的...

对手可以故意迷惑甚至“毒害”人工智能(AI)系统,使其发生故障,而且其开发人员无法采用万无一失的防御措施。美国国家标准与技术研究院(NIST)的计算机科学家及其合作者在一份新出版物中发现了人工智能和机器学习(ML)的这些漏洞和其他漏洞。

他们的工作题为“对抗性机器学习:攻击和缓解的分类和术语”,是NIST支持可信人工智能开发的更广泛努力的一部分,它可以帮助将NIST的人工智能风险管理框架付诸实践。该出版物是政府、学术界和工业界合作的成果,旨在帮助人工智能开发人员和用户了解他们可能预期的攻击类型以及缓解这些攻击的方法,并认识到没有灵丹妙药。

该出版物的作者之一、NIST计算机科学家ApostolVassilev表示:“我们正在概述考虑所有类型人工智能系统的攻击技术和方法。”“我们还描述了文献中报告的当前缓解策略,但这些可用的防御措施目前缺乏充分缓解风险的有力保证。我们鼓励社区提出更好的防御措施。”

人工智能系统已经渗透到现代社会,其功能从驾驶车辆到帮助医生诊断疾病,再到作为在线聊天机器人与客户互动。为了学习执行这些任务,他们接受了大量数据的训练:例如,自动驾驶汽车可能会看到带有路标的高速公路和街道的图像,而基于大型语言模型(LLM)的聊天机器人可能会看到网上谈话记录。这些数据有助于人工智能预测如何在给定情况下做出反应。

一个主要问题是数据本身可能不可信。它的来源可能是网站和与公众的互动。不良行为者有很多机会破坏这些数据——无论是在人工智能系统的训练期间还是之后,而人工智能则通过与物理世界的交互不断完善其行为。这可能会导致AI以不良方式执行。例如,当聊天机器人的护栏被精心设计的恶意提示绕过时,它可能会学会用辱骂或种族主义语言做出回应。

“在大多数情况下,软件开发人员需要更多的人使用他们的产品,这样产品才能通过曝光而变得更好,”瓦西列夫说。“但不能保证曝光会是好的。当用精心设计的语言进行提示时,聊天机器人可能会吐出不良或有毒的信息。”

部分原因是用于训练人工智能的数据集太大,人们无法成功监控和过滤,因此目前还没有万无一失的方法来保护人工智能免受误导。为了帮助开发者社区,新报告概述了其人工智能产品可能遭受的攻击类型以及减少损害的相应方法。

该报告考虑了四种主要类型的攻击:逃避、投毒、隐私和滥用攻击。它还根据攻击者的目标、能力和知识等多种标准对它们进行分类。

逃避攻击发生在人工智能系统部署后,试图改变输入以改变系统对其的响应方式。例如,在停车标志上添加标记,使自动驾驶车辆将其误解为限速标志,或者创建令人困惑的车道标记,使车辆偏离道路。

通过引入损坏的数据,中毒攻击发生在训练阶段。一个例子是将大量不恰当语言的实例放入对话记录中,以便聊天机器人将这些实例解释为足够常见的用语,以便在自己的客户交互中使用。

部署期间发生的隐私攻击是试图了解有关人工智能或其训练数据的敏感信息,以便滥用它。对手可以向聊天机器人提出许多合理的问题,然后使用答案对模型进行逆向工程,以找到其弱点或猜测其来源。在这些在线资源中添加不需要的示例可能会使人工智能行为不当,并且在事后让人工智能忘记那些特定的不需要的示例可能很困难。

滥用攻击涉及将不正确的信息插入到源中,例如网页或在线文档,然后人工智能吸收这些信息。与前面提到的中毒攻击不同,滥用攻击试图从合法但受损的来源向人工智能提供不正确的信息,以重新调整人工智能系统的预期用途。

东北大学教授、合著者阿丽娜·奥普雷亚(AlinaOprea)表示:“大多数此类攻击都相当容易发起,并且需要对人工智能系统有最少的了解,并且对抗能力也有限。”“例如,可以通过控制几十个训练样本来发起中毒攻击,而这仅占整个训练集的很小一部分。”

作者(其中还包括RobustIntelligenceInc.的研究人员AlieFordyce和HyrumAnderson)将每一类攻击细分为子类别,并添加了缓解这些攻击的方法,尽管该出版物承认人工智能专家迄今为止为对抗性攻击设计的防御措施充其量是不完整的。瓦西列夫说,对于希望部署和使用人工智能技术的开发人员和组织来说,意识到这些限制非常重要。

他说:“尽管人工智能和机器学习取得了重大进展,但这些技术很容易受到攻击,从而导致严重的故障和可怕的后果。”“确保人工智能算法安全的理论问题还没有得到解决。如果有人持不同意见,那他们就是在卖万金油。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!