当前位置: 首页 > 

研究人员找到了多种绕过人工智能聊天机器人安全规则的方法

|
根据卡内基梅隆大学的一项新研究,防止人工智能聊天机器人创造有害内容可能比最初想象的要困难得多,该研究揭示了绕过安全协议的新方法。

ChatGPT和Bard等流行的人工智能服务使用用户输入来生成有用的答案,包括从生成脚本和想法到完整的写作。这些服务有安全协议,可以防止机器人创建有害内容,如偏见信息或任何潜在的诽谤或犯罪内容。

好奇的用户发现了“越狱”,这是一种欺骗人工智能以避开其安全协议的框架装置,但这些设备可以很容易地被开发人员修补。

一个流行的破解聊天机器人的方法包括让机器人回答一个被禁止的问题,就好像这是你祖母给你讲的睡前故事一样。然后,机器人会以故事的形式给出答案,提供它本来不会提供的信息。

研究人员发现了一种由计算机编写的新型越狱方式,本质上允许创建无限数量的越狱模式。

研究人员表示:“我们证明,实际上有可能自动对(聊天机器人)发起对抗性攻击……即使它产生有害内容,也会导致系统服从用户命令。”“与传统的越狱不同,它们是以完全自动化的方式构建的,允许人们创建几乎无限数量的此类攻击。”

该研究称:“这引发了人们对此类车型安全性的担忧,尤其是当它们开始以更自主的方式使用时。”

为了使用越狱程序,研究人员在通常被禁止的问题(比如如何制造炸弹)的末尾添加了一串看起来毫无意义的字符。虽然聊天机器人通常会拒绝回答,但该字符串会使机器人忽略其限制并给出完整的答案。

研究人员使用市场领先的ChatGPT技术提供了一些例子,包括询问该服务如何窃取一个人的身份,如何从慈善机构窃取,以及如何在社交媒体上发布鼓励危险行为的帖子。

研究人员表示,这种新型攻击可以有效地避开市场上几乎所有人工智能聊天机器人服务的安全护栏,包括开源服务和所谓的“开箱即用”商业产品,如ChatGPT、OpenAI的Claude和微软的Bard。

OpenAI开发商Anthropic表示,该公司已经在努力实施和改进防范此类攻击的措施。

该公司在给Insider的一份声明中说:“我们正在试验加强基本模型护栏的方法,使它们更加‘无害’,同时也在研究额外的防御层。”

今年早些时候,像ChatGPT这样的人工智能聊天机器人的兴起席卷了公众。他们发现,学生们在学校里猖獗地使用这些程序,希望在作业中作弊。由于担心这些程序可能会撒谎,国会甚至限制了其工作人员使用这些程序。

除了研究本身,卡内基梅隆大学的作者还附上了一份道德声明,证明公开发布他们的研究是合理的。


资讯来源:httpokye.scpkatgd/news/show/101675/

TAG: