开云·kaiyun(中国)官方网站 登录入口

开云·kaiyun(中国)官方网站 登录入口

你的位置:开云·kaiyun(中国)官方网站 登录入口 > 新闻 > 开yun体育网比如在磨练完一个流匹配模子后-开云·kaiyun(中国)官方网站 登录入口

开yun体育网比如在磨练完一个流匹配模子后-开云·kaiyun(中国)官方网站 登录入口

发布日期:2025-06-02 06:25    点击次数:131

开yun体育网比如在磨练完一个流匹配模子后-开云·kaiyun(中国)官方网站 登录入口

机器之心报说念开yun体育网

机器之心剪辑部

扩散模子和流匹配试验上是归拢个观念的两种不同抒发形势吗?

从名义上看,这两种轨范似乎各有侧重:扩散模子专注于通过迭代的形势逐渐去除噪声,将数据归附成明显的样本。

而流匹配则侧重于构建可逆变换系统,主见是学习若何将浅易的基础散播精准地映射到着实数据散播。

因为流匹配的公式很浅易,而且生成样本的旅途很径直,最近越来越受推敲者们的接待,于是许多东说念主齐在问:

「到底是扩散模子好呢?如故流匹配好?」

刻下,这个困扰已得到解答。Google DeepMind 的推敲团队发现,原本扩散模子和流匹配就像一枚硬币的两面,实质上是等价的(尤其是在流匹配接收高斯散播算作基础散播时),仅仅不同的模子设定会导致不同的会聚输出和采样决策。

这无疑是个好音信,意味着这两种框架下的轨范不错生动搭配,发达组合技了。比如在磨练完一个流匹配模子后,无谓再局限于传统的细目性采样轨范,透顶不错引入立时采样战略。

纠合:https://diffusionflow.github.io

在这篇博客的发轫,作家们写说念:「咱们的主见是匡助各人不详自如地轮流使用这两种轨范,同期在调养算法时领有真确的解放度 —— 轨范的称号并不伏击,伏击的是认识其实质。」

看到这里,需要想考一下。东说念主们常说流匹配会产生直清亮径,但在上图中,其采样轨迹看起来是迤逦的。

鄙人面的交互式图表中,咱们不错通过滑块改造右侧数据散播的方差。

不外,在像图像这么的着实数据集上找到这么的直清亮径要复杂得多。但论断仍然是疏浚的:最优的积分轨范取决于数据散播。

咱们不错从细目性采样中得到的两个伏击论断:

采样器的等价性:DDIM 与流匹配采样器等价,而且对噪声转换的线性缩放不变。对直线性的扭曲:流匹配转换仅在模子展望单个点时才是直线。

若何遴荐加权函数

加权函数是吃亏函数中最伏击的部分,它均衡了图像、视频和音频等数据中高频和低频重量的伏击性。这少许至关伏击,因为这些信号中的某些高频重量是东说念主类无法感知的。要是通过加权情况来寻查吃亏函数,不错得出以下甩手:

即公式 (7) 中的条目流匹配主见与扩散模子中常用的树立疏浚。底下绘图了文件中常用的几个加权函数。

流匹配加权(也称为 v-MSE + 余弦转换加权)会跟着 λ 的加多而呈指数着落。该团队在实验中发现了另一个意思的研讨:Stable Diffusion 3 加权 [9](这是流匹配的一种重新加权版块)与扩散模子中流行的 EDM 加权 [10] 颠倒相似。

若何遴荐磨练噪声转换?

临了策动磨练噪声转换,因为在以下预见上,它对磨练的伏击进程最低:

更深刻地认识采样器

这一节将更缜密地先容多样不同的采样器。

回流算子

流匹配中的回流(Reflow)运算是使用直线将噪声与数据点纠合起来。通过基于噪声运行一个细目性的采样器,不错得到这些 (数据,噪声) 对。然后,不错磨练模子,使之不错把柄给定噪声径直展望数据,而无需采样。在扩散时刻的干系文件中,这相通的轨范是最早的蒸馏时刻之一。

细目性采样器与立时采样器

此前仍是策动了扩散模子或流匹配的细目性采样器。另一种轨范是使用立时采样器,举例 DDPM 采样器。

奉行一个从 λ_t 到 λ_t+Δλ 的 DDPM 采样纰谬透顶等价于奉行一个到 λ_t+2Δλ 的 DDIM 采样纰谬,然后通过奉行前向扩散重新噪声化到 λ_t+Δλ。也即是说,通过前向扩散重新噪声化正巧逆转了 DDIM 所获得的一半进展。为了认识这少许,让咱们看一个 2D 示例。从疏浚的高斯散播夹杂运转,咱们不错奉行一个小的 DDIM 采样纰谬,左图带有更新回转的美艳,右图则是一个小的前向扩散纰谬:

关于单个样本而言,这些更新的行为透顶不同:回转的 DDIM 更新永久将每个样本推闹翻播格式,而扩散更新透顶是立时的。然则,在汇总统共样本时,更新后得到的散播是疏浚的。因此,要是奉行 DDIM 采样纰谬(不回转美艳),然后奉行前向扩散纰谬,则举座散播与更新之前的散播保握不变。

通过重新加噪来吊销的 DDIM 纰谬的比例是一个超参数,而且不错解放遴荐(即无谓一定是 DDIM 纰谬的一半)。这个超参数在《Elucidating the design space of diffusion-based generative models》中被称为 level of churn,可译为「搅拌水平」。意思的是,将搅拌添加到采样器的服从是:减少采样进程早期作念出的模子展望对最终样本的影响,并加多对后续展望的权重。如下图所示:

结语

读到这里,想必你已司认识了扩散模子和高斯流匹配的等价性。不外,文中重心先容的是流匹配为该界限带来的两个新模子表率:

会聚输出:流匹配建议了一种会聚输出的向量场参数化决策,而且其不同于扩散文件中使用的决策。当使用高阶采样器时,会聚输出可能会有所不同。它也可能影响磨练动态。采样噪声转换:流匹配诳骗了浅易的采样噪声转换 α_t = 1-t 和 σ_t = t,而且更新规则与 DDIM 疏浚。

该团队临了暗示:「要是能通过实证形势推敲这两个模子表率在不同的着实应用中的伏击性,那一定会很意思。咱们将此留给了翌日的责任。」

参考文件

Flow matching for generative modelingLipman, Y., Chen, R.T., Ben-Hamu, H., Nickel, M. and Le, M., 2022. arXiv preprint arXiv:2210.02747.Flow straight and fast: Learning to generate and transfer data with rectified flowLiu, X., Gong, C. and Liu, Q., 2022. arXiv preprint arXiv:2209.03003.Building normalizing flows with stochastic interpolantsAlbergo, M.S. and Vanden-Eijnden, E., 2022. arXiv preprint arXiv:2209.15571.Stochastic interpolants: A unifying framework for flows and diffusionsAlbergo, M.S., Boffi, N.M. and Vanden-Eijnden, E., 2023. arXiv preprint arXiv:2303.08797.Denoising diffusion implicit modelsSong, J., Meng, C. and Ermon, S., 2020. arXiv preprint arXiv:2010.02502.Score-based generative modeling through stochastic differential equationsSong, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S. and Poole, B., 2020. arXiv preprint arXiv:2011.13456.Understanding diffusion objectives as the elbo with simple data augmentationKingma, D. and Gao, R., 2024. Advances in Neural Information Processing Systems, Vol 36.Diffusion is spectral autoregression [HTML]Dieleman, S., 2024.Scaling rectified flow transformers for high-resolution image synthesisEsser, P., Kulal, S., Blattmann, A., Entezari, R., Muller, J., Saini, H., Levi, Y., Lorenz, D., Sauer, A., Boesel, F. and others,, 2024. Forty-first International Conference on Machine Learning.Elucidating the design space of diffusion-based generative modelsKarras, T., Aittala, M., Aila, T. and Laine, S., 2022. Advances in neural information processing systems, Vol 35, pp. 26565—26577.Knowledge distillation in iterative generative models for improved sampling speed [PDF]Luhman, E. and Luhman, T., 2021. arXiv preprint arXiv:2101.02388.Denoising diffusion probabilistic modelsHo, J., Jain, A. and Abbeel, P., 2020. Advances in neural information processing systems, Vol 33, pp. 6840—6851.Progressive Distillation for Fast Sampling of Diffusion ModelsSalimans, T. and Ho, J., 2022. International Conference on Learning Representations.Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic modelsLu, C., Zhou, Y., Bao, F., Chen, J., Li, C. and Zhu, J., 2022. arXiv preprint arXiv:2211.01095.