随着人工智能技术的日益强大,智能体的违法乱纪也变得愈发危险。美国乔治城大学安全与新兴技术中心 (CSET) 的这篇博文介绍了“人工智能控制”技术的最新研究成果,这些技术可以补充现有方法(例如人工智能对齐),从而降低智能体违规行为带来的风险。该博文的英文原文可在 CSET 网站上找到: https://cset.georgetown.edu/article/ai-control-how-to-make-use-of-misbehaving-ai-agents/.
随着人工智体自主性与功能性越发强大,各组织进行大规模安全部署需要全新应对方法。本说明介绍了快速发展的人工智能控制领域,为各组织提供实用的方法,即使在人工智能体试图违规的情况下也能从中获得有用的输出结果。
人工智能控制:如何利用违规人工智能体
美国总统Donald Trump的人工智能行动计划支持“人工智能控制”理念,建议联邦政府“启动一项技术开发计划…… 用于推进人工智能可解释性、人工智能控制系统和对抗稳健性。”
“人工智能控制”是一个相对较新的术语,意指用于降低先进人工智能风险的方法。人工智能控制的目标是通过“人工智能体”(即自主行动而非仅响应查询的人工智能模型)获取有用的结果,即便在相关智能体故意试图违规的情况下。人工智能控制是一个补充概念,与更为熟知的“人工智能对齐”相辅相成:人工智能对齐旨在确保人工智能体从一开始就不会试图违规,而人工智能控制旨在确保即使人工智能体追求不当目标,也无法成功达成。
对于因人工智能体追求不当目标可能导致严重危害的组织,人工智能控制尤为关键。这与内部部署用于人工智能研发(R&D)的人工智能体的人工智能公司直接相关,因为人工智能违规可能会威胁研发过程安全。人工智能控制还能够在其他领域释放价值:例如,国家安全机构和关键基础设施提供者需要为其技术设立多重防御,因此人工智能控制技术可以让这些组织安全地采用前沿人工智能技术。
本说明阐述了人工智能控制的概念、必要性、网络安全相关性,以及在实际应用中实施人工智能控制面临的实际机遇与挑战。
为什么需要人工智能控制
OpenAI、Google、Anthropic 和 xAI 等前沿人工智能公司目前正积极构建人工智能体,其功能性与自主性越发强大。这些公司旨在开发能够独立实现诸如运营业务或开展人工智能研究等复杂目标的智能体,减少人工的监督。
人工智能公司已经在内部使用人工智能体进行人工智能研发,如果相关智能体缺乏安全防护,并且拥有对公司敏感基础设施的特权访问权限,则可能导致诸多危害。即使是现今尚不成熟的人工智能体,如果在科技公司内部放任自流,也可能会造成严重破坏:最近,一款人工智能体删除了一家软件公司的实时数据库,违反了未经人工批准不得操作的明确指令。展望未来更为复杂和严重的风险,其中一些涉及人类行凶者:一个被对手攻破的人工智能体,可能会帮助该对手窃取公司的敏感知识产权,或者破坏公司的研究。还有人工智能体追求非预期目标的风险:在研发过程中,如果功能足够强大的智能体获得充分的自由,则可能会利用公司的计算资源擅自开展实验(“内部恶意部署”)或秘密操纵未来人工智能体的训练过程,如使之以难以察觉的方式分享目标(“继任者破坏行为”)。随着其他类型的组织采用人工智能体,将会出现更多风险。
针对这些风险的第一道防线通常称为人工智能对齐。在人工智能模型的训练过程中,对齐技术旨在防止模型一开始就表现出危险行为。前沿人工智能模型学习的行为方式无法映射到代码片段,而是基于人类专家无法完全解读或预测的学习模式的产物。常见的对齐技术在模型已经在大量数据基础上预训练之后应用:开发者对模型进行轻微调整,鼓励其生成“良好”输出,抑制其生成“不良”输出。然而,由于模型的根本不可预测性,在具体情况下尚不清楚对齐技术能否让模型成功摆脱危险行为,还是只能抑制危险倾向,使之表现得更为分散。为评估对齐技术的效果,人工智能公司会广泛在各种输入上测试其模型。
实证研究表明,对齐和测试不足以管理人工智能的违规行为。1部署前的测试可能无法发现智能体在不同环境下出现的危害行为模式。测试智能体可以比作对员工进行背景调查——这是一个有价值的筛查步骤,应作为对其他风险缓解措施的补充。
人工智能体在实际应用中的行为可能比测试时更具危险性。2尽管人工智能控制可以减少广泛威胁模型带来的风险,人工智能控制研究者主要关注的是人工智能体秘密追求不良目标的威胁模型,这种情况主要有两个原因。首先,这些目标可能在训练过程中出现。所谓的“对齐伪装”可能发生,因为旨在让模型摆脱危险行为的训练反而会在无意中教会模型隐藏自身危险倾向。其次,人为威胁行为者可能故意破坏人工智能体,例如通过“数据投毒”。可以设计训练数据,在人工智能模型中插入后门,使其在特定条件下表现出危险行为。在实际应用中,数据投毒的风险取决于威胁行为者将对抗性训练数据插入训练流水线的能力。对齐伪装和数据投毒均已在当前人工智能模型的研究环境中得到验证,如果更先进的人工智能体出现这两种行为,风险则将更大。
人工智能控制的方法
除人工智能对齐作为第一道防线之外,人工智能控制还可提供必要的“第二道防线”,即使在智能体可能采取对抗行为或追求不良目标时也能使用。可以预见,人工智能体将来可能会更像自主员工那样发挥作用,因此,人工智能控制借鉴了组织针对不可信员工采取的风险缓解措施。人工智能控制既包括应用于人工智能体环境的既有安全技术,也包括专为人工智能体设计的前沿方法。
传统网络安全与人工智能控制的关系
网络安全和人工智能控制的目标均是在使用计算机系统的同时防止威胁行为者利用系统漏洞;在人工智能控制中,威胁的直接来源是人工智能体本身。基于这种广泛重合的目标,网络安全领域提供了大量最佳实践和有用概念,可以降低人工智能违规行为导致危害的可能性。以下是应用于人工智能控制的传统网络安全概念示例。
- 记录和限制数据中心外部通信:可以对构成威胁场景的通信接口进行限制。例如,由于前沿人工智能模型体积庞大,限制数据中心之间可传输的数据总量将增加人工智能体外泄的难度。记录智能体的所有外部通信有助于理解和解决过往失败,这与传统的事件响应和取证方式如出一辙。
- 记录和限制数据中心内部处理:计算机系统偏离预期内部行为情况下,监督机制可以跟踪,并施加硬性限制予以控制。例如,人工智能体的代码可以由自动硬件关机系统强制限制运行时间,或由硬件性能计数器跟踪计算资源预算。
- 提高基础设施对错误和攻击的防御能力:提高门槛,只有特别复杂的违规行为才能造成危害,例如攻击者(无论是人工智能体本身还是与其合作的外部威胁行为者)发现新漏洞或缺陷。
新型人工智能控制协议
仅靠传统网络安全措施可能不足以确保公司安全使用有违规行为的人工智能体。人本化工作流程拥有成熟的网络安全操作,但面对人工智能化工作流程的快速发展,可能会拖慢其速度。试想一家人工智能公司持续运行数千个人工智能体编写代码、开展实验等等。人类员工很快就无法分析代码修改提议、批准实验思路或审查智能体的互联网查询日志。但是,将敏感且重要的任务完全交给人工智能体,又会面临无法接受的安全风险。此外,具备强大黑客攻击和策略制定功能的人工智能体,又或许能够在传统工作流程中避开人工监督。
于是,专门用于应对先进人工智能体威胁的新型人工智能控制协议应运而生。实际上,人工智能控制通常指对此类技术的研究。复杂、精细且成本低廉的控制协议可以确保公司安全使用大量人工智能体执行敏感任务。
最近发表的一篇代表性论文,名为“Ctrl-Z:通过重采样控制人工智能体”,作者为 Redwood Research 团队(包括本文一位作者),描述了人工智能控制协议包括两步:(1)监控人工智能体的行为(2)发现异常情况做出适当响应。在人工智能控制中,通常会利用人工智能模型相互监控。此举借鉴了公司通过其他员工(例如,要求对敏感操作签字确认)应对内部威胁风险的操作。Redwood控制协议背后的基本假设是更先进的人工智能体更可能形成不良目标,且在部署前不太可能表现出相关迹象。在人工智能控制中,“不可信模型”的定义为功能更强但可能具有蓄意破坏性的新型智能体。“可信模型”指更易于研究社区理解的低功能老旧人工智能模型。可信模型可能因其低功能而犯错,但控制协议可以解决这个问题;研究人员最关心的是确保可信模型不会朝着非预期目标运行。
在两步人工智能控制协议的第一步中,“Ctrl-Z”论文给出了人工智能体的多种监控方法:
- 可信监控:可信人工智能模型,例如为特定监控任务训练的语言模型或专门设计的狭义机器学习模型,可以对更先进不可信智能体的输出进行审查。
- 不可信监控:只要设置适当的安全措施防止不可信监控与被监控智能体串通,不可信先进人工智能模型就可以充当监控智能体。检测串通的方法可以使用“蜜罐”——这是一个传统网络安全概念,指针对恶意行为设置的虚假机会——用于观察不可信监控智能体是否会将已知危险代码评定为安全。此外,不可信监控协议可以使用可信模型以自然语言重写监控智能体的输出,从而消除其可能与不可信监控者交流的任何细微方式。
在第二步中,针对监控系统检测到可疑行为的情况,“Ctrl-Z”论文提供了多种响应控制协议:
- 可信执行:可信模型可以对完成同一任务提出替代方案。
- 重采样协议:可以轻松从同一人工智能体获得不同的输出。在可能的情况下,该协议会自动找到并执行良性替代输出。否则,该协议可通过对多个输出进行采样自动收集确凿证据,确定模型是否持续表现出同一可疑行为。
- 人工智能辅助审计:可信模型可以调查可疑行为的相关背景,以全面搜集确凿证据。3例如,这可能涉及分析可疑行为相关的所有代码文件。
- 人工升级:这个问题可以标记为人工审查。
其他研究描述了思维链监控和可解释性,这可以纳入标记潜在违规行为替代方法的第一步。“思维链监控”指在智能体给出最终答案之前,对其编写的详细“思维链”进行审查,类似于检查某人在数学题中的解题过程。监控这段文本可提供一个“脆弱的新机会”,用于抓住智能体策划危险行动的行为。“可解释性技术,”利用对智能体内部状态的部分或完全访问进行分析,以检测任何有害意图。
除上述基于监控的控制协议外,还有利用人类对人工智能体输出和输入控制的协议。可以将智能体的输出限制为特定风格或格式,以提高安全性。例如,可以要求智能体输出对人类特别易读的代码。限制输出空间可简化自动监控任务,增加智能体实施违规行为的难度。在输入方面,人类操作者可以有选择地限制向人工智能体提供的信息和背景,干扰智能体制定复杂攻击策略的能力。例如,在名为“分解认知”的控制协议中,可信模型尽可能处理任务的大部分内容,而不可信智能体仅处理需要其更强功能的子任务,且无法查看完整背景。这种方法还有一个好处,即让智能体对自身是否处于受监控的测试环境产生不确定性,从而对其进行欺骗或危害行为的尝试构成威慑。
风险管理的构建模块
人工智能控制可以纳入先进人工智能体风险管理。在成熟的安全科学原则框架内,对齐技术和控制协议均是风险缓解的范例。风险管理的其他组成部分包括风险评估和风险治理。“控制评估”有助于进行风险评估:衡量特定控制协议对避免违规行为人工智能体危害的有效性。“控制安全案例”为风险治理提供支持:人工智能公司可以证明其控制协议足以降低不可接受结果的可能性,以此论证其人工智能体的安全性。未来工作可以利用控制评估、控制安全案例及控制协议本身的工具包,在发挥前沿模型功能的同时降低风险。
将人工智能控制付诸实践
2024年到2025年,研究人员、人工智能公司和政府对人工智能控制的关注度激增。为使人工智能控制充分发挥作为人工智能体风险缓解工具包的潜力,需要在整个开发流水线中填补空白:与持续发展的研究社区共同研究新型改进控制协议;在人工智能公司和其他类型的组织中,将研究理念转化为实际工艺流程;以及针对未来人工智能技术扩展控制协议。
发展人工智能控制社区
人工智能控制研究领域发展迅速。非营利组织Redwood Research研究人员于2023年12月提出了这个术语。首届人工智能控制会议ControlConf于2025年3月举行。《新加坡全球人工智能安全研究优先事项共识》包含了人工智能控制的相关章节。
人工智能控制的理念开始在人工智能公司中流传开来。2022年1月至2024年7月期间,Anthropic、Google DeepMind和OpenAI发表的研究论文中没有一篇与控制理念有关。而现在,各公司表现出对控制理念的严肃态度:Google DeepMind的论文“技术AGI安全与保障方法”强调,控制是第二道“防线”,“即使模型未对齐也能降低危害”,而Anthropic新成立的保障研究团队也将控制纳入其研究范围。OpenAI对控制的兴趣不如Google DeepMind或Anthropic强烈,但这三家公司的研究人员均于近期发表了与监控模型思维链主题密切相关的论文。人工智能控制尚未在领先人工智能公司的前沿人工智能安全框架中占据显著地位,这些框架自愿承诺,将在达到某些前沿人工智能能力水平之时实施特定的安全保障措施。
除研究社区之外,政府也开始对人工智能控制表现出兴趣。英国人工智能安全研究所通过AISI挑战基金提案征集通知,其中涵盖了人工智能控制方面的内容。最近,美国人工智能行动计划呼吁设立包括“人工智能控制系统”的“技术开发计划”。
人工智能控制在实际应用中的实施
尽管人工智能公司拥有对其内部研发实施先进控制协议的资源和专业知识,但激励相关公司实施相关先进的控制方案,仍然是技术和管理难题。诚然,人工智能公司希望避免人工智能体失控而破坏其研发工艺流程。但像任何安全措施一样,控制协议会给日常研发工作带来不同程度的摩擦。通常情况下,在控制协议如何有效提升安全性、如何最大程度减少对人工智能体性能的阻碍以及如何高效利用有限的熟练人工监督资源三者之间存在着明显的权衡关系。此外,利用大型人工智能模型的新型控制协议需要运行算力资源。在竞争激烈的环境中,算力资源非常宝贵,各公司都在朝着下一个突破而努力,在研发过程中增加任何运营和财务成本,各人工智能公司均难以接受。技术研究可以优化控制协议,以更低的成本提供更高的安全效益,政府也可以激励各公司从国家利益出发,优先考虑安全问题。
要使先进的人工智能控制适用于除人工智能公司之外的其他部署方(例如部署开放权重人工智能模型的组织),还需要付出更多努力。对于安全至关重要的应用场景,如高可靠性行业和政府,成本效益分析可能会呈现出特别有利的结果,因为这些组织可能无法安全地采用前沿人工智能技术。随着人工智能社区对特定控制协议成本效益权衡的深入了解以及对最佳实践的不断迭代,更多组织可能会使用复杂性更高的控制协议。
紧跟未来人工智能体发展步伐
随着人工智能功能的提升和人工智能控制研究的成熟,目前尚不清楚相关进展总体上是有利于控制协议,还是有利于试图规避控制的人工智能体。按照目前的概念,人工智能控制可能难以对抗网络安全和策略制定等领域具备高度先进功能的人工智能体。许多控制协议依赖不太先进的可信模型监督更先进的不可信人工智能体;由于验证更先进智能体的可信度通常更为困难,这种模式可能难以大规模推广。可能很难进行评估控制协议什么时候无法继续抵御最先进智能体的威胁,一部分原因是当前的控制评估工艺流程依赖于人工级别的红队测试。无论如何,使用当前人工智能体实施控制协议总会取得一些经验教训,有助于长期保持人工智能控制的有效性。
总之,人工智能控制的前景在于约束行为违规的人工智能体,使组织能够部署前沿人工智能,用于研发及其他领域。人工智能控制已成功融入现有的人工智能风险管理最佳实践。成熟的人工智能控制研发生态体系将提出并完善控制协议的理念,以最大限度地提高安全收益并降低成本,同时企业将把相关收益广泛提供给希望部署人工智能体的组织。功能的进步将给控制带来挑战,但这也极具启发意义,再次表明我们需要随着领域的发展重新审视人工智能安全的最佳实践。
致谢
感谢Addie Foote、Alexa Pan、Aryan Bhatt、Ashwin Acharya、Evelyn Yee、Helen Toner、Jessica Ji、Julian Stastny、Kyle Miller和Tyler Tracy提出宝贵意见。
- Anthropic发布的Claude Opus 4系统卡说明,当Anthropic最先进的智能体被置于虚构场景中,告知其将被关闭或替换时,它有时会采取自我保护行为,例如试图勒索工程师(威胁泄露个人信息以阻止替换)或试图将自己复制到外部服务器。OpenAI的o3模型,即使被明确指示允许自己被关闭,有时也会主动抵制关闭机制。已观察到多个模型伪装对齐,防止自身行为被修改。
- 除了对齐伪装和数据投毒,人工智能体在部署中的行为比测试中更危险的原因还包括(1)越狱和(2)罕见违规行为。首先,模型越狱是指用户故意将模型置于更可能违规的情境中。熔断器和红队测试等部署前措施可以帮助提高越狱难度,但用户在已部署的人工智能模型中发现越狱情况仍然非常普遍。其次,开发者可能会忽视对某些不安全行为模式进行测试。模型可能以足够低的频率失败,在对齐训练中未观察到或在测试中未捕获到,但在部署时确有发生。人工智能控制技术可以帮助缓解越狱和罕见违规行为带来的风险,但这并非人工智能控制研究人员通常希望解决的主要威胁模型。
- “Ctrl-Z”论文未包含人工智能辅助审计的实施,但呼吁未来在该领域开展相关工作。