在当下人工智能领域中,模型预训练与下游任务适配正悄然改变传统机器学习的运作方式。伴随着视觉提示学习(Visual Prompt Learning,VPL)这一新兴技术,如何在高效利用大规模预训练视觉模型的同时确保安全,也成为研究者关注的焦点。本文将带领大家走进视觉提示学习中的后门攻击世界,揭示“坏视觉提示”(BadVisualPrompt)如何悄然植入模型,以及现有防御机制为何难以奏效,借此唤起业界对这一新型安全隐患的重视。
🌟 引子:从视觉提示到隐秘后门
想象一下,一个平凡的用户将自己的数据上传至某个视觉提示“即服务”(VPPTaaS)平台,怀着对高效任务适配的期望,用户收到了经过精心优化的视觉提示——看似无害的像素级扰动。然而,如果在这个过程中,服务提供商对提示进行了精心构造的恶意修改,情况便截然不同了。当你将这枚“金钥匙”与公开的预训练模型组合使用时,本该正确识别的图像可能会在特定条件下“走样”,如同一枚埋藏的不定时炸弹,等待合适时机触发异常行为。正如论文《Prompt Backdoors in Visual Prompt Learning》所揭示的,这种后门攻击不仅影响下游任务的准确性,更挑战了整个领域在安全和可靠性上的底线。
🖼️ 视觉提示学习的魔法:效率与风险并存
视觉提示学习的核心思想借鉴了自然语言处理中的提示学习理念。作为一种轻量级模型适配方法,VPL仅在输入图像上添加经过学习的全局像素扰动(通常呈现为边框或补丁),从而使原本庞大的预训练模型能够高效完成下游任务。具体来说,设定固定的预训练模型 M,用户提供下游数据 x,通过对视觉提示 w 的优化,我们期望构建一个函数 f(M, w, x) 来实现任务目标。论文中提出的优化目标本质上是最小化以下交叉熵损失
L(f(M,w,x), y)
其中 y 为真实标签,而视觉提示作为一种可加性扰动,则使得整个优化过程既要保证模型在干净数据上性能不受大幅损失,又要在特定条件下诱发后门行为。由此,“提示即服务”的高效便捷性背后,也隐藏着一把双刃剑。
作为应对全参数微调资源开销问题的有效替代方案,视觉提示学习在图像分类、视觉语言模型适配等多个领域展现出不俗的表现。然而,这种方法带来的不仅仅是灵活性和高效性。在提示与输入图像共同作用下,后门攻击的风险被悄然放大——攻击者可以通过数据投毒,在学习过程中将后门信息植入仅仅表现为像素扰动的提示中,而这往往难以被传统基于模型参数的检测手段及时捕捉到。
🎯 恶意构造:BadVisualPrompt背后的攻击策略
在传统的后门攻击中,敌手通常篡改模型参数使得带有“触发器”图案的输入被错误分类。而在视觉提示学习的范式下,模型本身保持固定,所有适应性调整都发生在输入层面的提示中。正因如此,攻击过程转化为在用户上传的干净数据(D_clean)中随机采样一部分数据,通过函数 P(·) 加入触发器 Δ,并修改对应标签为攻击目标 t,从而形成一组“被毒化”的数据 (x_poison, t) 。
从数学上看,这种后门优化目标可简化描述为
L(f(M, w, x), y) + \lambda \cdot E_{(x_poison,t) \in D_poison}[L(f(M, w, x_poison), t)]
其中,λ 为平衡正常任务与攻击目标的权重系数。直观地讲,较大的 λ 会使得后门植入过程在牺牲少许模型干净精度的同时达到更高的攻击成功率(ASR)。实验结果显示,在 CIFAR10 数据集上,恶意提示仅使用 5% 的毒化数据,就能实现超过 99% 的 ASR,而干净准确率(CA)的下降却不到 1.5%。这恰恰印证了 BadVisualPrompt 在保持模型效用与后门攻击之间的微妙平衡。
此攻击流程如同一场精心策划的“内鬼”行动:在训练阶段,后门信息被隐匿于视觉提示中;而在推理阶段,只要在输入图像上额外出现预定义的触发器,预训练模型便会被“唤醒”,将图像错误分类为攻击者希望的类别。图 2 展示了这一工作流程:左侧展示了训练阶段中如何结合干净数据与毒化数据优化提示,右侧则展示了推理时如何应用该提示完成针对性攻击。
🔍 触发器与提示的互动戏码
传统后门攻击中,触发器的位置对于攻击结果的影响通常微乎其微。然而,在 BadVisualPrompt 中,触发器不仅与图像共存,更与嵌入图像中的视觉提示发生复杂的交互作用。论文中通过实验观察到,当触发器与提示在图像上接近时,后门攻击的成功率(ASR)极高,而一旦触发器位置远离视觉提示,ASR 甚至会骤降 80% 以上。换句话说,触发器与提示的空间距离成为制约攻击效果的关键因素之一。
为更直观地展现这一现象,研究者设计了多个实验,将触发器放置于图像中不同位置,并定量比较其与提示的重叠面积以及最小像素距离。从表 2 中我们可以看到,当触发器与提示存在较大重叠(例如重叠面积为 784)时,ASR 达到 100%;而当重叠减小甚至完全不存在,同时距离增加到一定值后,ASR 会急剧下降至 17.76%。这种高度敏感的触发器-提示交互效应为攻击者带来了新的挑战,但也促使他们通过触发器模式优化等手段来恢复攻击效果。
为应对这种因距离引发的攻击弱化问题,论文提出了触发器模式优化方案。与单纯增加触发器尺寸或数据毒化比例不同,在该方案中,攻击者将触发器视作一个可学习变量,利用双层优化策略(bi-level optimization),交替更新视觉提示与触发器。实验表明,即使将触发器尺寸固定为 4×4,通过优化后的小尺寸触发器也能使 ASR 提高至 85% 以上,同时对模型干净精度带来的影响极小。图 5 与表 3 对此进行了直观展示和量化评估。
⚔️ 攻击实验:多数据集与多模型的全面检验
在实验部分,研究者选用了 CIFAR10、SVHN 与 EuroSAT 三个标准图像数据集,并在多个预训练模型上开展实验。所使用的模型包括:ResNet50(RN50)、Big Transfer(BiT-M)、ResNeXt(Instagram 版本)以及视觉语言模型 CLIP。通过在不同模型和数据集上测试,论文全面验证了 BadVisualPrompt 的普适性以及其在不同配置下的攻击表现。
实验设置方面,除传统的单目标后门攻击外,研究者还展示了多目标攻击——针对多个类别分别采用不同触发器位置来实现攻击目标。实验结果表 1 清楚地表明,在绝大多数情况下,后门攻击的 ASR 均超过 99%,而模型在干净数据集上的准确率仅略有下降。另一方面,关于毒化比例与触发器尺寸的敏感性实验显示,无论是在毒化比例低于 3%还是触发器尺寸较小时,ASR 均能达到较高水平;但同时也揭示了一种饱和现象,即进一步增加这些参数对 ASR 提高的边际收益有限。图 11 中对这一趋势作了详细展示,让我们看到了不同数据集与模型之间在抗攻击能力上的微妙差异。例如,在 EuroSAT 数据集中,由于数据量相对较少以及触发器设计复杂,CLIP 模型在增加触发器尺寸后才能展现出较高的 ASR,而传统视觉模型则可能因泛化能力不足而表现欠佳。
此外,在实验中还详细探讨了内外部优化步骤参数 K 对攻击效果的影响。表 7 中数据表明,内循环步数 K 从 1 到 5 的微调并未显著影响 CA 与 ASR 的变化,这意味着 BadVisualPrompt 算法在内循环参数上具有一定的鲁棒性,为实际应用中的计算效率提供了保障。
🛡️ 聚焦防御:检测与缓解举措何以难奏效?
针对日益严峻的后门攻击威胁,业界推出了多种检测与缓解方案。这些方法大致可分为模型级、提示级以及输入级检测。论文中评估了包括 Neural Cleanse、MNTD、SentiNet、STRIP 等多种方法,并首次提出了一种仅依赖视觉提示特征的提示级检测器。
模型级检测
Neural Cleanse 通过反向重构触发器,并计算各类别触发器规范化范数的异常指标来判断后门存在。然而,实验结果表明,该方法在检测 BadVisualPrompt 时存在较大缺陷:部分案例中,即使后门触发器成功重构,异常指标仍未超过阈值 T;而在某些误判场景中则过于敏感。MNTD 方法则利用输出后验概率构建二分类检测器,虽然在“已知”场景下表现较好,但在“未知”场景中仍存在标准偏差大、样本不够稳定等问题。
输入级检测
SentiNet 的核心直觉在于,强烈的局部扰动(如触发器)会使模型的梯度注意力聚焦于局部区域,从而在 saliency map 上呈现出明显异常。然而,当触发器设计较为温和或经过优化,其定位变得模糊时,SentiNet 的检测准确率大幅下降。STRIP 则借助图像扰动后输出熵的稳定性来进行区分,但同样在针对中等强度攻击时表现不佳。实验数据显示,在 CLIP 这类模型下,SentiNet 的误接受率(FAR)甚至高达 35%以上,而 STRIP 在某些场景下的 FAR 更是超过 80%,严重影响模型的实际效用。
提示级检测:闪现出新思路
由于后门信息直接存在于视觉提示中,研究者提出了仅基于提示信号进行检测的思路。利用简单的卷积神经网络 (CNN) 对视觉提示与一张全零图拼接后的结果进行分类,实验中该方法在“已知”与“未知”场景下均取得 100% 的检测准确率。进一步通过 Grad-CAM 可视化发现,对于干净提示,网络关注区域分布较为均匀;而对于后门提示,注意力则明显聚焦于局部区域,虽然这些局部区域并不完全对应触发器位置,但能够捕捉到后门信息的不自然分布。更直观的 t-SNE 可视化也显示,干净与后门提示在特征空间上呈现出高度可分离的聚类结构,从而为后续防御设计提供了新思路。
缓解尝试:清除与剪枝
在缓解方案中,输入级缓解方法 DAPAS 利用去噪自编码器(DAE)尝试将潜在扰动清除,但其效果虽能显著降低后门攻 ASR,却以牺牲模型干净精度 CA 为代价,通常下降幅度高达 40%。此外,还有 Fine-Pruning 策略试图通过剪枝网络中低激活神经元来减弱后门影响,但同样存在对模型整体性能带来较大冲击的问题。综上所述,目前的检测与缓解手段均难以在保证模型效用的前提下,有效应对 BadVisualPrompt 攻击。
🔮 结论与展望:安全的未来任重而道远
通过对 BadVisualPrompt 后门攻击的系统性研究,我们看到视觉提示学习这一高效适配方法在赋能下游任务的同时,也引入了全新的攻击面。攻击者仅需在提示学习过程中对用户数据进行微小的毒化操作,便能在推理阶段借助精心设计的触发器,令预训练模型发生“定向失控”。而触发器与提示之间的微妙交互效应,更令传统后门检测方法失效,迫使安全研究者不得不从全新角度思考防御策略。
当前阶段,无论是通过模型级检测、输入级检测,还是直接对视觉提示进行检测,均存在资源需求高、稳定性较差或对模型效用影响较大的问题。未来,研究者们需要在设计新的提示学习算法时嵌入安全验证机制,同时探索更高效、资源友好的防御方法。例如,结合多尺度特征融合、对抗样本生成技巧和领域自适应等方法,可能为后门检测带来新的突破。
在这场攻防对决中,“坏视觉提示”不仅暴露了当前 VPL 安全领域的诸多短板,也启发我们重新审视复杂系统中各部分之间的相互作用。正如本文所呈现的多层次、多角度分析一样,我们相信,通过跨学科合作以及理论与实验的不断互补,新一代既高效又安全的视觉提示学习方法终将问世,为未来 AI 系统保驾护航。
参考文献
- Bahng, H., Jahanian, A., Sankaranarayanan, S., & Isola, P. Exploring Visual Prompts for Adapting Large-Scale Models. CoRR abs/2203.17274, 2022.
- Chen, A., Yao, Y., Chen, P.-Y., Zhang, Y., & Liu, S. Understanding and Improving Visual Prompting: A Label-Mapping Perspective. In CVPR, 2023.
- Brown, T.B. et al. Language Models are Few-Shot Learners. In NeurIPS, 2020.
- Wang, B. et al. Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks. In S&P, 2019.
- Gao, Y. et al. STRIP: A Defence Against Trojan Attacks on Deep Neural Networks. In ACSAC, 2019.