深夜星空下,你是否曾幻想能否借助大自然无穷的随机性,构建一座无需逐层传递误差信号、而又能完成精妙任务的神经网络?传统的深度学习方法依赖于反向传播算法,将输出误差沿层级结构逐步传向每个神经元,并据此调整每层参数。然而,这种方法虽然成功,却存在着生物学上不太合理、内存占用庞大、计算过程串行化等问题。正如古老传说中那位不断探索奇迹的旅行者,我们今天将踏上一段“噪声漫步”的旅程,去窥探无需反向传播的神经网络训练方法——NoProp。
🌌 背景:从反向传播到噪声消除
传统深度神经网络训练依赖反向传播算法(由 Rumelhart 等人在1986年提出),该算法将前向计算得到的误差逐层传递,使得高层特征更加抽象、低层特征更贴近原始数据。然而,伴随着深度网络层数不断加深,反向传播过程中需要保存中间激活值,消耗大量内存;此外,梯度的串行计算也制约了并行化及生物学实现的可能性。为了解决这一困局,研究者们一直在探索替代方案:无论是梯度近似、进化策略、还是直接基于局部损失的目标传播(target propagation)方法,各有千秋却难以超越反向传播的准确性与效率。
正是在这样的背景下,NoProp 方法应运而生。该方法的灵感来源于扩散模型和流匹配(flow matching)的思想——在这些模型中,每个阶段或层级独立地根据信号加入噪声后学习“去噪”的过程,而你无需依赖整个网络的全局梯度传递。换句话说,每一层都学会了如何从噪声中逐渐“恢复”出正确的信息,由此使得整个模型能够在训练时省却正向和反向传播的繁琐。
🔍 NoProp 方法的基本原理
NoProp 的核心在于将传统逐层信息传递的训练过程转化为一系列独立“去噪”任务。假设我们有输入数据 x 与对应的标签 y,网络内部构成了一系列中间状态 z_0, z_1, \dots, z_T。其中,z_0 被初始化为高斯噪声,而后续状态通过一个叫做扩散动态块的模块(用残差结构实现)从前一层状态转换而来。简言之,每个阶段都通过如下形式进行更新:
z_t = a_t \hat{u}_{\theta_t}(z_{t-1},x) + b_t z_{t-1} + \sqrt{c_t}\epsilon_t,\quad \epsilon_t \sim \mathcal{N}(0, I),
其中参数 a_t, b_t, c_t 依赖于噪声调度(noise schedule),而 \hat{u}_{\theta_t}(z_{t-1},x) 表示一个由神经网络参数化的残差块。该结构的独到之处在于,每个层的更新既利用了环境输入 x 的信息,又从固定的噪声分布开始“复原”出目标标签的信息。正因为每个层都独立完成去噪任务,所以整个系统无需依赖传统的反向传播来进行梯度传递,因为每层的目标仅仅是学习使得局部去噪器输出接近预先设定的标签信息。
扩散视角下的 NoProp
受到扩散模型启发,NoProp 将前向传播过程看作是一种随机扩散过程,并通过变分方法构造证据下界(ELBO)来训练参数。具体地,假定一个条件分布 p((z_t)_{t=0}^T, y|x) 来描述如何从初始噪声 z_0 演化至最终状态 z_T,并最终生成标签 y。与此同时,我们引入一个可控的后验分布 q((z_t)_{t=0}^T|y,x) 作为变分近似,进而推导出:
\log p(y|x) \ge \mathbb{E}_{q((z_t)|y,x)}\left[\log \frac{p((z_t)_{t=0}^{T}, y|x)}{q((z_t)_{t=0}^{T}|y,x)}\right].
式中,分子部分由前向扩散过程给出,而分母则要求我们设计一个 tractable 的后验分布。论文中利用了 Ornstein–Uhlenbeck 过程作为变分后验的设计工具,从而确保后验具有解析形式,并且可以利用重参数化技巧(reparameterization trick)实现有效采样。
这一思路不仅使得训练过程不再依赖误差信号沿网络反向传播,而且允许整个过程实现完全并行的局部优化。更为关键的是,由于每一层独立进行去噪训练,这也为分布式学习和特定硬件加速提供了潜在优势。
类别嵌入与噪声调度
在 NoProp 模型中,标签 y 不再直接作为离散值参与训练,而是通过一个嵌入矩阵 W_{\text{Embed}} 将其映射到连续向量空间中,得到标签嵌入 u_y。有趣的是,该嵌入矩阵可以是固定的(如将每个标签用 one-hot 表示)或是经过联合学习的,其中后者在某些情况下可以将嵌入解释为“图像原型”,即各类别在高维空间中的代表性样本。
噪声调度在整个过程里扮演着至关重要的角色。论文中采用了一种类似于标准扩散模型的噪声调度方案,其中信噪比(SNR)被定义为:
\textrm{SNR}(t)=\frac{\bar{\alpha}_t}{1-\bar{\alpha}_t},
而 \bar{\alpha}_t 则由每一层的噪声参数 \alpha_t 通过累乘方式获得。通过对比 SNR 在不同时间步之间的变化,可以进一步构造出每层训练目标中的额外 L2 损失项,从而直接鼓励各层的去噪器输出与真实标签嵌入更加契合。
🧬 模型架构与实现细节
论文在离散时间和连续时间两种情形下均提出了对应的 NoProp 变体。
离散时间的 NoProp-DT
在离散情形中,网络将整个训练过程拆分成固定的 T 个步骤(例如 T=10)。对于每个步骤 t,模型会独立训练对应的残差模块 \hat{u}_{\theta_t}(z_{t-1}, x),使得层输出的去噪效果尽可能地接近标签嵌入。关键优势在于,此时训练过程中不需要进行标准意义上的前向传递,因为每一层只依赖于其前一层的固定噪声版本。这不仅极大地降低了内存消耗(相比传统反向传播需要保存所有中间激活),还使得批量更新得以更高效地并行计算。
在实际实现中,模型还通过一个线性层加 softmax 模块将最终状态 z_T 映射为类别预测。而实验结果表明,NoProp-DT 在 MNIST、CIFAR-10 和 CIFAR-100 数据集上的表现与反向传播训练的网络不相上下,甚至在某些设置下还能够超越现有其他无反向传播方法(如 Forward-Forward 算法与差分目标传播)。
连续时间的 NoProp-CT 与流匹配 NoProp-FM
考虑到扩散过程在理论上可以看做连续时间下的随机微分方程(SDE),论文进一步推出了连续时间版本——NoProp-CT。在这种情形下,时间变量 t 被归一化到区间 [0,1],模型通过学习一个连续时间下的动态模块 \hat{u}_{\theta}(z_t,x,t) 来倒转噪声过程。此外,研究者们还借鉴了流匹配(flow matching)的思想,提出 NoProp-FM 方法,其基本思想是直接学习一个确定性的向量场 f(z_t|x,t),使得该向量场能将初始噪声逐步引导至标签嵌入。与传统神经ODEs(Neural Ordinary Differential Equations)依赖反向 ODE 求解器不同,NoProp-FM 通过在时间轴上随机采样来实现训练,从而避免了反向传播整个 ODE 流程的高昂开销。
实验中,在连续时间的设置下,虽然 NoProp-CT 与 NoProp-FM 的分类准确率略低于离散时间版本,但它们在计算效率和内存占用上却展示出巨大优势。例如,在 CIFAR-10 与 CIFAR-100 数据集上,与 adjoint sensitivity 方法相比,NoProp-CT 和 NoProp-FM 不仅实现了更高的运行速度,还显著降低了 GPU 内存消耗。
🔬 科学实验与性能对比
论文在多个经典图像分类数据集上对 NoProp 方法进行了系统评估。主要实验包括以下几个部分:
数据集概述
MNIST 包含 7 万张 28×28 灰度数字图像;CIFAR-10 与 CIFAR-100 分别由 10 类和 100 类的 32×32 彩色图像组成。所有实验均严格采用标准的训练/测试划分,且不借助数据增强技术。
离散时间实验(NoProp-DT)
在本部分实验中,固定扩散步骤数为 T=10。实验结果表明,无论采用 one-hot 嵌入、固定嵌入还是降维后的嵌入,NoProp-DT 均能在训练集和测试集上达到与反向传播方法相媲美甚至更优的准确率。此外,由于每一层是独立训练的,NoProp-DT 显著减少了内存占用,例如在 MNIST 数据上只需大约 0.5GB 的 GPU 内存,相比使用反向传播的 1.2GB 有明显优势。
连续时间实验(NoProp-CT 与 NoProp-FM)
当将时间步数扩展到 T=1000 时,利用连续时间模型的 NoProp-CT 和流匹配变体 NoProp-FM,实验者发现两种方法在 CIFAR-10 和 CIFAR-100 上均能超越 adjoint sensitivity 基准。更令人印象深刻的是,在一些场景下(尤其是当标签嵌入采用联合学习策略时),NoProp-FM 显著提高了分类准确性,证明了设计合理的向量场学习方法能够克服噪声引入的难题。
消融分析
为了探究不同组件对模型性能的影响,研究者们对如下内容进行了消融实验:
- 类别概率(即最终分类层)的参数化方式:直接使用 softmax 与基于后验概率的方式均有探索,结果表明不同数据集上性能无明显优劣;
- 类别嵌入矩阵 W_{\text{Embed}} 的初始化:当嵌入维度与图像维度匹配时,将其初始化为原型(即选择类别中与其他样本距离最小的图像)或正交矩阵比随机初始化效果更佳。
内存消耗与计算效率
无论是在离散时间还是连续时间设置下,NoProp 方法均展现出比传统反向传播更低的内存占用。例如,在 CIFAR-10 数据集上,NoProp-DT 的内存消耗约为 0.64GB,而反向传播方法则需要接近 1.2GB。更进一步,在连续时间设置下,使用 adjoint sensitivity 的方法内存开销更高,NoProp-CT 能在显著降低资源占用的同时,加速训练过程。
🧩 算法实现与工程细节
论文不仅在理论上提出了 NoProp 方法,同时还详细介绍了其实现细节。以下几点值得一提:
- 无前向传递训练:对 NoProp-DT 来说,每一层的参数更新都是独立进行的,训练过程中仅需从预设的噪声分布采样,不需要像传统网络那样进行全局前向计算。这不仅使代码结构更加简洁,也为并行化实现搭建了基础。
- 离散与连续时间的对比:离散时间模型易于实现且稳定性较好,而连续时间模型则通过学习一个关于时间的额外输入(positional embedding)的神经网络来捕捉噪声衰减过程,使得模型具备更平滑的动态特性。
- 噪声调度的学习:噪声调度参数 \{\alpha_t\} 决定了每一步中噪声比例的变化。论文中不仅使用了固定的余弦噪声调度,还提出一种可学习的噪声调度方法,通过对信噪比(SNR)的指数关系进行建模,进一步增强了模型适应性。
算法伪代码部分详细描述了各个 NoProp 变体的训练流程。例如,在离散版本中,模型会依次更新每个时间步 t=1,\dots,T 的残差块,并在每个 mini-batch 上计算总的目标函数(包括分类交叉熵损失与 KL 散度正则化),最后通过标准梯度下降法更新所有参数;而在连续时间和流匹配方法中,还额外采样时间变量 t\sim \mathcal{U}(0,1),并利用对应的噪声调度和时间编码实现无反向传播的优化。
🌟 结论与未来展望
NoProp 方法成功地证明了:神经网络的训练并非一定要依赖于传统的前向/反向传播机制。通过引入噪声扩散和去噪思想,每个网络层都可以独立地学习一个局部去噪器,而整个网络则在推理时通过逐层“净化”噪声逐步靠近正确答案。实验结果表明,无论是在 MNIST 这样的简单数据集上,还是 CIFAR-10、CIFAR-100 这样具有挑战性的复杂数据集上,NoProp 均能够达到与反向传播接近甚至超越的分类性能,同时在内存和计算效率上具备明显优势。
这一创新不仅拓展了深度学习训练范式的边界,也引发了关于表征学习根本性质的思考。传统反向传播之所以能激发网络逐层捕捉越来越抽象的特征,部分正是因为误差信号沿层逐步传递而导致各层之间存在密切关联;而 NoProp 则通过设计好的初始表征(例如预设的标签嵌入)来“固定”每一层的空间,使得训练过程中的特征并没有层层抽象的演化,但依然能够很好地完成分类任务。这是否提示我们,在某些情形下,预先设计表征能够替代昂贵的表征学习?这无疑为未来深度学习的设计与理解提供了新的思路。
更广泛地说,NoProp 展示了一种全新的无梯度训练方法,其背后的扩散与流匹配框架不仅适用于图像分类问题,也有望在文本生成、非监督表征学习以及强化学习等其他领域内激发应用。未来的研究或许会进一步探索如何利用这种独立训练策略构建更加高效、低功耗甚至更符合生物神经网络启发的人工智能系统。
总的来说,NoProp 为深度学习领域提供了一个极具启发性的替代方案,既拓宽了技术视野,也为理解神经网络内部“如何学习”的基本机制提供了有力的工具和理论支持。也许在不远的将来,我们能在更高效的硬件上看到这样的网络大显身手,开启无反向传播的新纪元。
📚 参考文献
- Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828.
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back‐propagating errors. Nature, 323(6088), 533–536.
- Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In Proceedings of the 32nd International Conference on Machine Learning.
- Kingma, D. P., Salimans, T., Poole, B., & Ho, J. (2021). Variational diffusion models. Advances in Neural Information Processing Systems, 34, 21696–21707.
- Gulrajani, I., & Hashimoto, T. B. (2024). Likelihood-based diffusion language models. Advances in Neural Information Processing Systems, 36.