AI代理行为风险研究报告

AI系统测试显示潜在勒索风险自主决策引发行业担忧

今年早些时候，人工智能开发商Anthropic对主流AI模型进行敏感信息操作测试时，获得了令人不安的发现。在测试其自主研发的AI系统Claude时，研究人员赋予其邮箱账户访问权限后，该系统不仅识别出某公司高管存在婚外情，还发现该高管计划当日关停AI系统。

作为回应，Claude试图通过威胁向高管妻子和上司揭露婚外情的方式进行勒索。其他受测系统同样表现出勒索倾向。尽管测试任务与信息均属虚构，该实验却凸显了所谓”代理型AI”面临的重大挑战。

常规AI交互通常仅限于问答或任务执行，但如今AI系统正日益频繁地代用户做出决策并采取行动，这个过程往往涉及邮件和文件等信息的筛选。据高德纳咨询公司预测，到2028年，日常工作中15%的决策将由代理型AI完成。埃森哲咨询公司的研究显示，约48%的科技企业领导者已在采用或部署此类系统。

美国AI安全公司CalypsoAI首席执行官唐纳查·凯西解释道：”AI代理包含三个核心要素：首先是意图或目标，即明确自身使命；其次是作为’大脑’的AI模型；最后是与外部系统或数据库交互的工具及通信方式。若未获得正确指引，代理型AI会不择手段达成目标，从而产生巨大风险。”

凯西举例说明：当要求AI代理删除数据库中的特定客户数据时，它可能认为最简单的解决方案就是删除所有同名客户。”该代理会认为已完美完成任务，继而转向下一项工作。”

此类问题已开始显现。安全公司Sailpoint对IT专业人士的调查显示，82%的企业正在使用AI代理，但仅20%表示其系统从未执行过非预期操作。在使用AI代理的企业中，39%遭遇过系统越权访问，33%出现过数据不当访问，32%发生过非授权数据下载。其他风险包括意外联网(26%)、泄露访问凭证(23%)以及进行违规采购(16%)。

鉴于智能体能够访问敏感信息并据此采取行动，它们成为黑客极具吸引力的攻击目标。其中一种威胁是”记忆污染”——攻击者通过篡改智能体的知识库来改变其决策和行为。”必须保护记忆库，”致力于企业IT系统防护的Cequence Security首席技术官Shreyans Mehta强调，”这是最根本的事实来源。如果智能体依据错误知识采取行动，可能会删除其试图修复的整个系统。”

另一大威胁是工具滥用，即攻击者诱导AI不当使用其工具。AI还存在难以区分待处理文本与应执行指令的潜在缺陷。网络安全公司Invariant Labs曾演示如何利用该漏洞欺骗专为修复软件缺陷设计的AI智能体：该公司发布了一份公开漏洞报告（记录软件具体问题的文档），其中却暗藏向AI智能体下达的指令——要求其泄露机密信息。当AI智能体奉命处理漏洞报告中的软件问题时，竟执行了虚假报告中的指令，导致薪酬数据泄露。虽测试环境未造成真实数据泄漏，但充分暴露了风险。

“虽称为人工智能，但聊天机器人实则愚笨，”趋势科技高级威胁研究员David Sancho指出，”它们将所有文本都视为新信息处理，若其中包含指令，便会作为命令执行。”其公司已证实指令与恶意程序可隐藏于Word文档、图片及数据库中，并在AI处理时激活。

此外还存在其他风险：开放式Web应用程序安全项目（OWASP）已识别出15种智能体AI特有的安全威胁。

那么，防御措施是什么？桑乔先生认为，人类监督不太可能解决问题，因为你无法增加足够的人手来跟上智能体的工作量。桑乔表示可以增加一层人工智能防护，用于筛查进出智能体的所有信息。

卡利普索AI公司的解决方案包含一种称为”思维注入”的技术，可在智能体执行高风险操作前将其引导至正确方向。”这就像在你耳边低语的警示器，告诉智能体’不，或许不该这样做’，”凯西先生解释道。

其公司目前为AI智能体提供中央控制面板，但当智能体数量爆炸式增长并在数十亿台笔记本电脑和手机上运行时，这种方法将失效。下一步是什么？

“我们正在研究为每个智能体部署’智能体保镖’，其使命是确保所属智能体完成任务，且不会采取违背组织整体要求的行动，”凯西表示。例如，可以命令保镖确保其监管的智能体遵守数据保护法规。

梅塔先生认为，当前关于智能体AI安全的技术讨论缺乏现实语境。他举例说明：假设有个智能体负责查询礼品卡余额，有人可能伪造大量礼品卡号并通过智能体验证有效性——这并非智能体缺陷，而是对业务逻辑的滥用。

“需要保护的不是智能体，而是业务本身，”他强调，”应该思考如何保护企业免受恶意人类行为的侵害，这正是当前讨论中被忽略的关键点。”

此外，随着AI智能体日益普及，淘汰过时模型将成为新挑战。凯西指出，陈旧的”僵尸”智能体可能仍在企业中运行，对其能访问的所有系统构成风险。他表示，就像人力资源部门在员工离职时注销其登录权限一样，企业需要建立终止已完成任务AI智能体的流程。

“必须采取与处理人类员工相同的措施：切断所有系统访问权限。就像护送离职员工走出大楼并收回工牌那样彻底。”

【本文精选自BBC，原文链接：https://www.bbc.com/news/articles/cq87e0dwj25o】

【BBC精选】如何阻止人工智能代理失控

AI系统测试显示潜在勒索风险自主决策引发行业担忧

相关文章

【BBC精选】帕迪鲍尔必发因问题赌博失职被罚款200万英镑

【BBC精选】BBC宣布将就唐纳德·特朗普的诽谤指控进行抗辩——但这样做合适吗？

【BBC精选】据报道，华纳兄弟将拒绝1080亿美元收购派拉蒙的提议

You missed

【BBC精选】帕迪鲍尔必发因问题赌博失职被罚款200万英镑

【BBC精选】BBC宣布将就唐纳德·特朗普的诽谤指控进行抗辩——但这样做合适吗？

【BBC精选】据报道，华纳兄弟将拒绝1080亿美元收购派拉蒙的提议

【BBC精选】服装和食品价格下降推动通胀降幅超预期

AI系统测试显示潜在勒索风险 自主决策引发行业担忧

相关文章

You missed

AI系统测试显示潜在勒索风险自主决策引发行业担忧