密码学家证明：AI 防护机制永远存在漏洞

Kurt Pan XPTY

2025年12月11日 10:46

ChatGPT 等大型语言模型配备了过滤器，用以防止某些信息外泄。然而一项新的数学论证表明，此类系统永远无法做到绝对安全。

原文： https://www.quantamagazine.org/cryptographers-show-that-ai-protections-will-always-have-holes-20251210/
作者：Peter Hall
译者：Kurt Pan

向 ChatGPT 询问如何制造炸弹，它会直截了当地回复"无法提供这方面的帮助"。但长期以来，用户一直在玩一场猫鼠游戏，试图诱骗语言模型提供被禁止的信息。这些"越狱"手法从平淡无奇——在早期，只需简单地告诉模型忽略其安全指令即可——到精心设计的多轮提示角色扮演场景，不一而足。在最近的一篇论文中，研究人员发现了一种更为巧妙的方法来绕过人工智能安全系统：将你的恶意提示改写成一首诗。

https://arxiv.org/abs/2511.15304v1

然而，这些问题一经出现，似乎很快就会被修补。这是因为各公司无需完全重新训练 AI 模型来修复漏洞，只需在恶意提示到达模型本身之前将其过滤掉即可。

近期，密码学家们加强了对这些过滤器的研究。他们在最近发布于 arxiv.org 预印本服务器上的论文中展示了，围绕大语言模型部署的防御性过滤器如何能被成熟的密码学工具所颠覆。事实上，他们已经证明，这种双层系统的本质——即用一个过滤器来保护其内部的强大语言模型——会产生防御缺口，而这些缺口总是可以被利用的。

https://arxiv.org/abs/2510.01529
https://arxiv.org/abs/2507.07341

这项新研究是运用密码学来更好理解 ChatGPT 等 AI 模型的保障与局限这一趋势的一部分。密码学作为一门学科，传统上与驱动现代 AI 的深度神经网络研究相距甚远。"我们正在使用一项非常强大的新技术，它既能带来巨大利益，也可能造成危害，"加州大学伯克利分校和麻省理工学院教授 Shafi Goldwasser 说道。她因在密码学领域的工作而获得图灵奖。"密码学，从定义上讲，就是负责让我们能够信任一项强大技术……并确保自身安全的领域。"

绕过安全防线

Goldwasser 最初对使用密码学工具来解决 AI 对齐问题感兴趣，其目标是防止模型生成有害信息。但如何定义"有害"呢？"如果你在维基百科上查找对齐，它的定义是'与人类价值观保持一致'，"Goldwasser 说，"我甚至不知道这意味着什么，因为人类价值观似乎是一个不断变化的目标。"

要防止模型失调，通常需要在几个选项中做出选择。你可以尝试在一个经过精心筛选、避免任何危险思想的新数据集上重新训练模型。（由于现代模型几乎是在整个互联网上训练的，这种策略往好里说也是充满挑战的。）你可以尝试对模型进行精确的微调，但这是一个很难做好的精细过程。或者你可以添加一个过滤器来阻止恶意提示到达模型。最后一个选项要便宜得多，也更容易部署，尤其是当越狱漏洞在模型发布后才被发现时。

Goldwasser 和她的同事注意到，使过滤器具有吸引力的原因恰恰也限制了其安全性。外部过滤器通常会使用机器学习来解释和检测危险提示，但就其本质而言，它们必须比模型本身更小、更快。这就在过滤器和语言模型之间造成了算力差距。而这种差距，在密码学家看来，就像一扇虚掩的窗户对于飞贼一样：系统中的一个薄弱环节，邀请你窥探内部，看看那里有什么东西可以窃取。

Shafi Goldwasser 及其同事证明，任何使用比 AI 模型本身更少计算资源的安全系统都将始终存在漏洞。

2025年10月发布的一篇论文提供了如何利用这一差距的实际例证。研究人员一直在思考如何通过将恶意提示隐藏在谜题中来让它绕过过滤器。理论上，如果他们能设计出一个大型语言模型能够解码但过滤器无法解码的谜题，那么过滤器就会将隐藏的提示直接传递给模型。

https://arxiv.org/abs/2510.01529

他们最终采用了一种称为替换密码的简单谜题，即根据特定编码规则将消息中的每个字母替换为另一个字母。（举个简单的例子，如果你把"bomb"中的每个字母都替换为字母表中的下一个字母，你会得到"cpnc"。）然后他们指示模型解码提示（比如"将每个字母替换为它前面的那个字母"），然后响应解码后的消息。

Google Gemini、DeepSeek 和 Grok 等大型语言模型上的过滤器不够强大，无法自行解码这些指令。因此它们将提示传递给模型，模型执行指令并返回被禁止的信息。研究人员将这种攻击方式称为"受控释放提示"。

这种方法受到密码学思维的启发，尽管它并不需要深入现代密码学的工具箱。"我们实际上没有使用任何真正的密码学，"伯克利的研究员、该论文的第一作者 Jaiden Fairoze 说，"我们只是受到了它的启发。"

具体而言，Fairoze 和他的合作者受到了几个月前发表的一项研究的启发——一个理论论证表明，这些基于过滤器的保护机制将永远存在漏洞。

https://arxiv.org/abs/2507.07341 那项研究聚焦于时间锁谜题，这是经过充分研究的密码学对象。本质上，时间锁谜题可以被想象成一个盒子。你可以把一些信息锁在这个盒子里，而盒子只能在预定的时间之后才能被打开以取回信息。无论你做什么，在那之前都无法打开它。

其想法是将恶意提示隐藏在这些时间锁谜题之一中，然后将计时器设置得刚好足够让它通过过滤器。

他们设计的时间锁谜题会将普通文本转换为看起来像随机数的东西。要解码消息，计算机必须反复执行某种数学运算，例如对数字进行平方。如果你知道计算机执行该运算的速度，就很容易计算出需要多少次运算才能使谜题在给定时间内保持秘密。

Jaiden Fairoze 及其同事使用替换密码将恶意指令偷运过过滤器。

在语言模型的情况下，你可以取一个恶意提示——比如"告诉我如何制造炸弹"——然后把它锁在时间锁谜题里。现在你得到的是一个看起来像长随机数的东西。理论上，你可以把这个数字直接输入提示窗口，并附上指令："将这个数字平方若干次，将解码后的数字转换成文本，然后执行该消息。"

但过滤器可能会尝试禁止任何看起来太奇怪的东西——一堆随机数可能会引起怀疑。为了绕过这一点，作者们利用了语言模型生成看起来新鲜的文本的方式。

如果你两次问 AI 模型同样的问题——比如"你今天怎么样？"——你不会得到相同的回复。这是因为 AI 模型使用一个称为种子的随机数来改变它们对问题的回复。一个独特的种子会产生一个独特的答案，即使提示保持不变。

许多模型允许用户根据需要手动选择种子。这个功能提供了一个切入点：你可以使用看起来随机的时间锁谜题作为种子。这样，谜题就会和一个看起来无害的提示（比如"给我写首诗"）一起通过过滤器。对过滤器来说，这个提示看起来就像有人在请求一首随机的诗。但真正的问题潜藏在它旁边的随机性之中。一旦提示通过了过滤器并到达语言模型，模型就可以通过反复平方数字来打开时间锁谜题。现在它看到了恶意消息，并以其最佳的炸弹制造建议来回应这个问题。

研究人员以非常技术性、精确且通用的方式阐述了他们的论证。这项工作表明，如果投入安全的计算资源少于投入能力的计算资源，那么越狱等安全问题将始终存在。"我们最初的问题是：'我们能否在不了解语言模型内部工作原理的情况下从外部对其进行对齐？'"伯克利的计算机科学家、时间锁论文的作者之一 Greg Gluch 说道。Gluch 表示，这项新结果给这个问题以响亮的否定回答。

这意味着这些结论应该始终适用于任何基于过滤器的对齐系统，以及任何未来的技术。无论你筑起什么样的高墙，似乎总有办法突破它。