在浩瀚的数据海洋中,基础模型凭借海量数据和强大表征能力成为当今人工智能的中流砥柱。与此同时,提示(Prompt)作为引领模型如何理解任务的“指挥棒”,也成为提升零样本与少样本学习性能的重要手段。然而,传统的固定提示方法如同一把千篇一律的钥匙,面对数据分布的微妙变化往往显得捉襟见肘。就在人们试图改良提示设计时,一种新颖的基于扩散模型的思路悄然登场:提示扩散(Prompt Diffusion)。本文将带您走进这一前沿技术的神奇世界,解密其如何在噪声的洗礼中炼就每个样本独一无二的“定制钥匙”,从而实现更加精准、鲁棒的分类与识别。
🌟 引言︰基础模型与提示学习的挑战
近年来,像 CLIP 这样的基础模型通过在大规模图像文本数据上预训练,打破了传统任务数据依赖的桎梏。然而,模型在处理零样本或少样本任务时,依赖提示模板进行图像与文本匹配。最初的提示设计大都依赖手工构造的固定模板,例如“a photo of a [CLASS]”,这种方法虽然在一定程度上有效,但面对细微的语义变化时,其鲁棒性和泛化能力常常捉襟见肘。换句话说,当训练数据与测试数据存在分布上的差异时,固定提示可能无法充分捕捉到每个测试样本的特性,从而导致识别精度下降。
于是,学界陆续提出了自动提示学习方法,如 CoOp、CoCoOp、VPT 以及 MaPLe 等,它们通过学习一组连续的上下文向量(prompt vectors),让提示具备一定的灵活性。但这些方法在训练时往往会对训练数据“过拟合”,难以在全新分布的数据上保持同样水准的表现。正如一把精雕细琢的万能钥匙,虽然可以完美地开启某扇门,却往往无法适用于其它门锁。
为了打破这一瓶颈,该论文提出了一种全新的“提示扩散”方法,它借鉴了近年来备受瞩目的扩散模型技术,通过一个逐步鉴别和降噪的过程,从随机初始化的提示向最终针对每个样本定制的“最佳提示”演进。该过程不仅在数学上具有严谨的理论支持,还能够在实际实验中显著提升基于文本、视觉乃至多模态提示学习的鲁棒性和泛化能力。
🔍 背景工作︰从固定提示到自适应漫游
传统的提示学习技术最初在自然语言处理领域崭露头角,而后被迅速推广到计算机视觉和多模态任务领域。以 CoOp 为代表的技术提出了将提示向量作为可学习的参数,通过有限的标注数据来微调 CLIP 模型,使其更好地适配特定任务。然而,这种方法虽然实现了针对少量样本的快速适应,但固定的提示向量在面对全新或跨分布的数据时,容易因“定制过度”而失去泛化能力。
人们将这种现象形象地比喻为“逐样本过拟合”:对于每个图像或者样本,我们可以通过梯度下降反复调整提示向量,直至获得能完美匹配该样本的“最优”提示;但这把钥匙往往只对当前那扇门有效,移植到另一扇门上效果大打折扣。因此,如何在不依赖测试时标签的前提下,生成具备足够“灵活性”的提示成为一大难题。
扩散模型正是在这一背景下闪亮登场。借助于扩散模型在图像生成、文本降噪等任务中的成功经验,文章提出将提示学习问题转化为扩散过程:从随机噪声向“过拟合提示”逐步逼近,由此使得每个测试样本能够生成其专属的定制提示,并改善模型在分布外数据上的性能。论文中详细讨论的技术背景涵盖了 CLIP 模型的基本原理、提示学习的数学描述和扩散模型的基本推导,形成了一个有机整体。
⚙️ 技术原理︰CLIP预训练与扩散过程重构
核心思想可以从两个方面理解:一是如何生成针对每个样本的最佳提示(过拟合提示),二是如何利用扩散模型从随机噪声生成与之对应的定制提示。
CLIP模型与提示机制
CLIP 模型由图像编码器 f_I 和文本编码器 g_T 组成,其目标是通过对比学习,使得图像和对应描述在语义空间内对齐。例如,在分类任务中,我们通常采用如下公式计算类别 i 的预测概率:
p(y=i|\mathbf{I})=\frac{\exp\left(\langle g_T(\mathbf{T}_i),f_I(\mathbf{I})\rangle/\tau\right)}{\sum_{j=1}^K \exp\left(\langle g_T(\mathbf{T}_j),f_I(\mathbf{I})\rangle/\tau\right)},
其中 \langle \cdot,\cdot \rangle 表示余弦相似度,\tau 为温度参数。提示 \mathbf{T}_i 通常被构造成由一系列可学习的上下文向量 \mathbf{V}=\{v_1,v_2,\dots,v_M\} 与类别标识符 c_i 连接而成。CoOp 模型便是在这一框架下,通过最小化交叉熵损失:
\mathcal{L}_{\rm{CE}}(\mathbf{V})=-\sum_{i} \mathbf{y}_i\log\,p(\mathbf{T}_i|\mathbf{I}),
来学习这一组上下文向量,使得提示能够在数个标注样本上达到较高的正确率。
扩散模型与提示生成
扩散模型是一类生成模型,它模拟数据逐步被加噪以及随后逆向去噪的过程。正如水滴在平静湖面上激起阵阵涟漪,扩散过程中变量 x_t 随着时间 t 的推进从初始分布逐步向高斯分布扩散,数学上描述为:
q(\mathbf{x}_T|\mathbf{x}_0)=\prod_{t=1}^{T}q(\mathbf{x}_t|\mathbf{x}_{t-1}),
其中每个 q(\mathbf{x}_t|\mathbf{x}_{t-1}) 都是 \mathcal{N}(\mathbf{x}_t;\sqrt{1-\beta_t}\mathbf{x}_{t-1}, \beta_t\mathbf{I}) 的形式。与之对应,扩散模型在采样阶段通过逆向过程逐步去噪,直至还原出干净的数据。本文的核心贡献在于,将这一过程巧妙地嵌入提示学习任务中,使得模型通过扩散逆过程,将随机初始化的提示向量“逐渐雕琢”成适应每个样本的个性化提示。
在训练期间,作者首先通过“逐样本过拟合”策略获得每个样本的最佳提示 \mathbf{V}^{*}。具体来说,对于每个输入图像 \mathbf{x},利用梯度下降对初始提示 \mathbf{V}=\{v_1,\dots,v_M\} 进行优化,直到获得能使分类概率达到理想效果的过拟合提示。接下来,通过扩散过程在提示空间中建立从噪声提示 \tilde{\mathbf{V}}_{T}\sim\mathcal{N}(0,\mathbf{I}) 到过拟合提示 \mathbf{V}^{*} 的生成路径。训练中的目标函数则是利用扩散模型对提示进行再造,具体形式为:
\mathcal{L}_{\rm{diff}} = \left\lVert \mathbf{V}^{*} - \tilde{\mathbf{V}}_{\theta}\left(\sqrt{\bar{\alpha}_{t}}\mathbf{V}^{*} + \sqrt{1-\bar{\alpha}_{t}}\bm{\epsilon},\pi, t\right) \right\rVert^2,
其中 \tilde{\mathbf{V}}_{\theta} 是由扩散变换器(diffusion transformer)所参数化的去噪函数,\pi 表示用来提取图像特征的轻量级网络,t 则为当前扩散时间步。
在测试阶段,由于没有标签信息,模型从随机噪声开始,通过快速的 ODE 基采样(仅用 5 步)生成定制提示,并通过文本编码器与图像特征传递给 CLIP 模型进行分类预测。整个过程如同经过一系列精雕细琢的手工艺,使得原本模糊的随机噪声,最终铸成含有样本特定信息的铁钥匙。
📝 方法论︰逐样本过拟合与提示扩散的魔法
逐样本过拟合:每张图片的私家定制
在传统提示学习中,无论是文本提示还是视觉提示,都难以做到针对每个样本生成专属的提示。而本文的方法首先利用有限的标签数据,通过多次迭代对每个样本的提示进行优化,这一过程类似于在众多钥匙中找出最契合特定门锁的那一把。
值得一提的是,此过程仅在训练时使用;测试阶段不可能针对每个测试样本再做梯度更新,因此,我们依赖扩散模型来学习这样一个生成过程,从而在测试时仅依靠随机噪声迅速生成个性化提示。
提示扩散:从无序噪声到精准钥匙
扩散过程在本文中充当了一位“魔法师”的角色。其工作机制类似于逆转时钟:从一开始的完全随机的提示表示 \tilde{\mathbf{V}}_{T}(在该阶段,提示向量正服从标准正态分布),模型逐步将其转变为接近“过拟合提示”\mathbf{V}^{*}的形态。过程中的每一步都注入了由图像特征 \pi 和时间步 t 编码的信息,从而使提示信息更好地融合了视觉内容。
下图(图 3)为我们直观展示了训练与测试阶段的扩散采样流程。训练阶段,噪声提示与过拟合提示之间通过扩散模型建立了“映射桥梁”;测试阶段,模型则从随机噪声一路采样还原到最终提示 \tilde{\mathbf{V}}_{0},并与扩散生成的文本上下文一起进入 CLIP 文本编码器。从整体上看,这一过程实现了“从无到有”的转化,正如雕塑家从一块毛坯中经过反复打磨最终呈现出栩栩如生的雕像。
此外,扩散模型还引入了一种快速的 ODE 基采样策略,使得测试时仅需极少的采样步数(如 5 步)即可高效完成提示生成,兼顾了计算效率与预测性能。
🚀 实験︰数据集挑战中的跨界之旅
论文在多样化的实验环境中验证了提示扩散的有效性。实验涵盖了三大场景:
- 基础类向新类的泛化(Base-to-new generalization)
- 跨数据集泛化(Cross-dataset generalization)
- 域泛化(Domain generalization)
基础类与新类的平衡
在传统场景中,提示学习方法往往在基础类上表现优异,但在新类上常常“掉链子”。加入提示扩散后,无论是 VPT、CoCoOp、MaPLe、PromptSRC 还是 CoPrompt,各项指标均实现了明显提升。实验数据表明,基于扩散生成的提示不仅能提升基础类准确率,同时对新类的适应能力也大大增强,两者的调和平均值(harmonic mean)有着明显优势。
例如,在 ImageNet 数据集上,CoCoOp 的基础类准确率从 75.98% 提升到 76.46%,新类从 70.43% 提升到 70.97%,调和均值由 73.10% 提升至 73.61%。这种提升充分证明了提示扩散在缓解“过拟合”的同时,也提高了模型对未见样本的识别能力。
跨数据集与域泛化
实验不仅局限于单一数据集,还在 11 个多样化数据集上进行了验证,涵盖了从通用物体分类(ImageNet、Caltech101)到细粒度分类(OxfordPets、StanfordCars)以及卫星图像和纹理、动作、场景等多种任务。令人耳目一新的结果显示,无论是在跨数据集还是域泛化场景下,提示扩散始终能够为各类提示学习方法带来稳健提升。
尤其是在域泛化任务中,面对自然图像与异常图像(如 ImageNet-A),大多数模型往往陷入模糊混淆之中。研究者发现,基于文本提示的 CoCoOp 较多保留了语义上下文信息,而采用扩散生成的个性化提示能更好地捕捉到图像的领域特征,提高了对异常样本的适应度。
🔄 消融实验与超参数敏感性︰数字背后的秘密
为了验证扩散模型确实是带来性能提升的核心组件,论文中还对比了利用 MLP、Transformer、GAN、VAE 和 Normalizing Flows 等不同生成方法对提示进行建模的效果。结果表明,纯粹借助扩散模型所构成的提示生成方案在准确率和调和均值上均明显优于其他生成模型。例如,在基于 CoCoOp 的场景下,使用扩散模型后准确率最高可达 81.35%(基础类)和 74.97%(新类),调和均值为 78.02%,比使用 GAN 等方法都高出近 2% 左右。
此外,论文中还研究了函数评估(NFE, number of function evaluations)与迭代次数对最终性能的影响。结果表明,在测试时仅需使用 5 步采样即能取得最佳平衡:既能保持预期的效果,又能大幅降低计算开销。类似于烹饪中火候的把握,过多的迭代可能会导致“过火”,而适当的步数恰如其分地释放了图像中的信息精髓。
图 4 与图 5 分别展示了不同函数评估次数与迭代次数对提示泛化能力的影响。图中数据表明,随着迭代次数增加,模型在新类的准确率稳步提升,但当超过某一临界值后,收益趋于平稳甚至略有下降;而扩散模型的采样步数控制在 5 步时,能兼顾速度与精度,充分体现了该方法在实际应用中的高效优势。
🎨 可视化解析︰扩散提示的图解奇观
技术的美往往在于其能够直观展示抽象数学背后的生动场景。论文中提供的图 7 就是一幅精彩的示意图,它不仅显示了整个提示扩散的计算图,也展示了扩散过程中提示从噪声状态逐步过渡到定制状态的演变过程。
在图中,我们可以看到图形中的“虚线箭头”代表了扩散过程的连续去噪步骤,而“实线箭头”则显示了在每个时间步中,图像特征与提示向量信息的交互。最终,生成的定制提示以形如“{𝑽₀, CLASS}”的形式,与图像描述共同进入文本编码器,完成最终的分类预测。这样的可视化不仅增进了我们对模型内部运行机制的理解,也彰显了扩散模型在提示生成过程中对领域信息自适应捕捉的能力。
另外,论文还通过对比实验,将传统提示生成与扩散提示生成的差异图示化,让我们直观感受到扩散提示在捕捉类别特征(比如将真实类别名称与图像中的局部细节相结合)方面表现出的独特优势。这一过程仿佛是一场“定制工坊”的魔术秀,每个产品都经过精心雕琢,体现了数据自身的独特风采。
🌐 结论与展望︰开启提示学习的新纪元
总的来说,该论文以一种创意十足且数学严谨的方式,将扩散模型引入了提示学习领域。通过逐样本过拟合与提示扩散的结合,不仅有效提升了模型对基础类和新类的泛化能力,也在跨数据集和域泛化任务中展示了卓越的性能。研究成果表明,扩散模型能够在训练和测试过程中捕捉到每个样本的独特信息,在噪声与信号之间构建起一座信息传递的桥梁,从而大幅提升了模型在分布外情况中的鲁棒性。
此外,由于该方法具有通用性和模态无关性,既可以应用于文本提示学习,也可扩展至视觉或多模态提示学习,这无疑为未来各类基础模型的“提示工程”带来了全新的思路与可能性。可以预见,随着研究的不断深入,提示扩散技术将在更多领域中扮演重要角色,从图像识别、目标检测到视频生成,甚至在自然语言处理任务中都有潜在的应用前景。
我们期待未来能够看到更多关于如何利用扩散过程改善提示生成的研究,或许在不久的将来,一套自动化的提示扩散系统将成为各种 AI 应用的标配,为智能系统赋予更多人性化、个性化的能力。
参考文献
- Zhou, K., Yang, J., Loy, C.C., & Liu, Z. (2022a). Conditional prompt learning for vision-language models. In CVPR.
- Jia, M., Tang, L., Chen, B.-C., et al. (2022). Visual prompt tuning. arXiv preprint arXiv:2203.12119.
- Song, J., Meng, C., & Ermon, S. (2020). Denoising diffusion probabilistic models. In NeurIPS.
- Radford, A., Kim, J.W., Hallacy, C., et al. (2021a). Learning transferable visual models from natural language supervision. In ICML.
- Khattak, M.U., Rasheed, H., Maaz, M., et al. (2023a). MaPLe: Multi-modal prompt learning. In CVPR.