🌌 序章:物理世界的谜题与AI的召唤
在科学的浩瀚星空下,物理推理如同一场永无止境的探险。我们渴望预测、解释、甚至重建那些看似混沌却又暗藏秩序的动态系统。传统的机器学习模型,往往像是只会背诵课本的学生,记住了数据,却难以领悟物理的灵魂。科学机器学习的使命,就是让AI不仅会“算”,更要懂“理”——让它们在神经网络的黑盒中,嵌入物理的铁律。
但现实总是比理想复杂。现有的物理神经网络,尤其是哈密顿神经网络(HNN),虽然能守住能量守恒的底线,却常常只盯着“下一步”,忽略了时间长河中更深远的联系。它们擅长一步步模拟,却难以应对“补全轨迹”“超分辨率插值”或“参数反推”等更高阶的物理推理任务。
于是,去噪哈密顿网络(DHN)横空出世,带着三把魔法钥匙,试图打开物理推理的新大门。
🧠 哈密顿神经网络的前世今生
1. 哈密顿力学的AI化身
哈密顿力学,是物理学中描述动力系统演化的黄金法则。它用 (q, p)(广义坐标与动量)和哈密顿量 \mathcal{H}(q, p),刻画了系统的能量与演化轨迹。其核心方程:
\frac{dq}{dt} = \nabla_p \mathcal{H}, \quad \frac{dp}{dt} = -\nabla_q \mathcal{H}
HNN 的妙处在于:它用神经网络来拟合 \mathcal{H},并通过最小化如下损失函数,让网络学会物理规律:
\mathcal{L}_{\text{HNN}}(\theta) = \left\|\nabla_p \mathcal{H} - \frac{dq}{dt}\right\| + \left\|\nabla_q \mathcal{H} + \frac{dp}{dt}\right\|
2. 物理约束的多样化尝试
除了HNN,科学家们还尝试了Lagrangian神经网络(LNN)、物理信息神经网络(PINN)、傅里叶神经算子(FNO)等方法,把偏微分方程(PDE)直接嵌入网络。但这些方法往往只适合局部、连续、规则采样的动力系统,对于离散、异质、稀疏观测的物理世界,显得力不从心。
🧩 去噪哈密顿网络:三重魔法的炼成
1. 非局部的物理关系建模
DHN 不再拘泥于“下一步”,而是把一组状态当作“块”(block),用块与块之间的关系来建模。这就像是把时间轴切成一段段,每段都能互相对话,捕捉更长程的物理联系。
块式离散哈密顿公式
定义状态块:
Q_t^{t+b} = [q_t, \cdots, q_{t+b}], \quad P_t^{t+b} = [p_t, \cdots, p_{t+b}]
块式哈密顿关系:
Q_{t+s}^{t+s+b} = \nabla_P H^+(Q_t^{t+b}, P_{t+s}^{t+s+b}) \\
P_t^{t+b} = \nabla_Q H^+(Q_t^{t+b}, P_{t+s}^{t+s+b})
这种设计让网络能“远眺”时间,理解全局物理规律。
2. 去噪机制:物理推理的自我修正
受去噪扩散模型启发,DHN在训练时会随机遮蔽或加噪部分状态,让网络学会从“残缺”或“污染”的观测中,逐步还原出物理合理的轨迹。其输入构造如下:
\widetilde{Q} = (1 - A') \cdot Q + A' \cdot \mathcal{E}
其中 A' 控制每个状态的噪声强度,\mathcal{E} 是高斯噪声。
推理时,DHN像“物理侦探”一样,逐步去除噪声,逼近真实轨迹。这种机制不仅提升了长期预测的稳定性,还让模型能灵活应对各种观测缺失、噪声污染的场景。
3. 全局条件化:一网打尽多系统
现实世界的物理系统千差万别。DHN引入了“全局潜码”z,为每条轨迹分配一个可学习的向量,作为系统参数(如质量、摆长等)的“身份证”。这样,DHN就能在同一个网络中,泛化建模多种物理系统,既保持物理归纳偏置,又能灵活适应异质系统。
🏗️ 网络结构:物理与AI的混血引擎
1. 解码器式Transformer
DHN采用了GPT风格的解码器Transformer,但没有因果掩码,允许所有输入状态(包括Q、P和z)自由交流。每个状态的噪声强度也被编码进位置嵌入,帮助网络区分“已知”与“未知”。
2. 自解码(Autodecoding)
与其用编码器推断z,DHN直接为每条轨迹维护一个可学习的z,训练时与网络参数一起优化。推理新轨迹时,网络参数冻结,只需优化z,高效又灵活。
🧪 实验奇旅:单摆与双摆的物理考验
1. 实验设置
- 单摆:周期系统,考察能量守恒。
- 双摆:混沌系统,考察泛化与参数识别。
每个系统1000条训练轨迹、200条测试轨迹,每条128步。双摆实验中,摆长l_2在[0.5, 1.5]间变化,考验模型对参数变化的适应力。
2. 三大物理推理任务
(1) 前向模拟(Autoregression)
给定初始状态,逐步预测未来轨迹。DHN通过遮蔽最后若干状态,训练网络学会“补全”未来。
(2) 参数识别(Representation Learning)
用随机遮蔽训练,让网络学会从部分观测中推断系统参数(如双摆的l_2/l_1)。训练后冻结网络,仅用线性回归读取z,检验其物理可解释性。
(3) 轨迹插值(Super-Resolution)
通过遮蔽中间状态,训练网络插值补全稀疏观测,实现轨迹的超分辨率重建。
📊 实验结果与图表
图1:DHN架构总览
DHN架构总览
DHN将哈密顿力学推广为神经算子,兼顾物理约束与神经网络的灵活性。
图2:物理建模三种范式
方式 | 描述 | 适用范围 |
(I) 全局解析解 | 闭式解,适合简单系统 | 课本例题 |
(II) PDE+数值积分 | 局部递推,逐步模拟 | 复杂系统 |
(III) 全局物理关系 | 利用守恒定律直接推断 | 特定系统 |
图3:离散哈密顿网络结构
输入 | 输出 | 说明 |
(q_t, p_t) | (q_{t+1}, p_{t+1}) | 邻接时刻状态递推 |
图4:块式哈密顿结构
块大小 b | 步长 s | 输入 | 输出 |
1 | 1 | [q_t, p_t] | [q_{t+1}, p_{t+1}] |
4 | 2 | [q_t, ..., q_{t+3}] | [q_{t+2}, ..., q_{t+5}] |
图5:去噪与遮蔽机制
方式 | 说明 |
遮蔽 | 随机遮蔽部分状态 |
加噪 | 随机加高斯噪声 |
图6:不同遮蔽模式
任务 | 遮蔽方式 | 应用场景 |
自回归 | 遮蔽末尾 | 前向模拟 |
超分辨率 | 遮蔽中间 | 插值重建 |
随机遮蔽 | 随机 | 参数识别 |
图7:Transformer结构
输入 | 嵌入 | 输出 |
[Q, P, z] | 位置+噪声 | 哈密顿量\mathcal{H} |
图8:自解码机制
图9:前向模拟结果(单摆/双摆)
模型 | 单摆MSE | 单摆能量误差 | 双摆MSE |
HNN | 较高 | 能量漂移 | 较高 |
DHN (b=2) | 最低 | 能量稳定 | 最低 |
DHN (b=8) | 稍高 | 能量波动 | 稍高 |
图10:新轨迹补全
模型 | 状态预测误差 | 能量守恒 |
HNN | 高 | 能量漂移 |
DHN | 低 | 能量稳定 |
图11/12:参数识别与块参数影响
块大小/步长 | 线性回归MSE | 说明 |
b=4, s=2 | 最优 | 适中重叠最佳 |
b=8, s=4 | 稍高 | 重叠过大/过小均不佳 |
图13/14:轨迹插值(超分辨率)
测试集 | DHN MSE | CNN MSE | 说明 |
同初始 | 低 | 更低 | CNN易过拟合 |
新初始 | 低 | 高 | DHN泛化强 |
图16:块式哈密顿物理解释
块内每个状态可视为独立系统在不同时间的快照,守恒量为总能量之和。
图17:推理时的迭代去噪流程
DHN通过多步去噪,逐步还原未知状态,类似扩散模型的逆过程。
图18:实验物理系统示意
系统 | 变量 | 参数范围 | 说明 |
单摆 | q=\theta | l\in[0.5,1.0] | 能量守恒 |
双摆 | q=(\theta_1,\theta_2) | l_2\in[0.5,1.5] | 混沌系统 |
🧭 物理推理的未来:从局部到全局的统一范式
DHN的故事告诉我们:物理推理不应止步于“下一步”,而要勇敢迈向全局、跨越时空的推断。它用去噪机制自我修正,用块式结构捕捉长程依赖,用全局潜码拥抱多样系统。正如NLP和视觉领域的Transformer统一了多任务,DHN也在探索物理推理的“大一统”之路。
未来,物理AI或许会像自监督学习那样,成为科学发现的得力助手。但正如作者所言,物理约束虽能提升可信度,却不能替代严谨的科学验证。AI的物理推理,仍需与实验和理论携手前行。
📚 参考文献
- Greydanus, S., Dzamba, M., & Yosinski, J. (2019). Hamiltonian neural networks. Neural Information Processing Systems.
- Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. J. Comput. Phys., 378:686–707.
- He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. CVPR.
- Toth, P., Rezende, D. J., Jaegle, A., Racanière, S., Botev, A., & Higgins, I. (2019). Hamiltonian generative networks. arXiv:1909.13789.
- Gonzalez, O. (1996). Time integration and discrete Hamiltonian systems. Journal of Nonlinear Science, 6:449–467.