019、SDE与ODE:用微分方程统一扩散模型框架

张开发
2026/4/11 19:11:09 15 分钟阅读

分享文章

019、SDE与ODE:用微分方程统一扩散模型框架
从训练时的数值不稳定说起上周调试扩散模型时遇到个怪事:同样的网络结构,在A100上训练稳定,到3090上就数值爆炸。损失函数曲线像心电图一样乱跳,生成的图像全是噪声。熬了两个通宵查数据流,最后发现问题出在离散采样步长上——不同硬件浮点精度差异被扩散过程放大,导致结果天差地别。这个坑让我意识到,只把扩散模型理解成“加噪-去噪”的离散过程远远不够。真正要驾驭它,得回到连续视角看问题。今天我们就聊聊如何用微分方程给扩散模型一个统一的数学框架。扩散过程:随机微分方程视角传统理解里,前向扩散就是一步步加高斯噪声:# 离散版本 - 容易数值不稳定defforward_discrete(x,beta_t):noise=torch.randn_like

更多文章