当前位置: 首页> 汽车> 行情 > 对网页设计的认识和理解_日照最新消息今日_怎样注册自己的网站_江苏企业网站建设

对网页设计的认识和理解_日照最新消息今日_怎样注册自己的网站_江苏企业网站建设

时间:2025/7/8 19:36:36来源:https://blog.csdn.net/xhhgffd/article/details/148960824 浏览次数: 0次
对网页设计的认识和理解_日照最新消息今日_怎样注册自己的网站_江苏企业网站建设

潜在扩散模型一种扩散模型优化版本文生图多模态领域表现出色然而背后原理复杂难懂涉及复杂数学公式本文原理剖析潜在扩散模型主要解答以下几个问题

  1. 潜在扩散模型做了什么解决什么问题
  2. 潜在扩散模型训练过程是什么目标函数是什么
  3. 为什么这样目标函数可以优化生图质量
  4. 为什么潜在扩散模型解码网络使用U-Net

参考资料:https://zhouyifan.net/2023/07/07/20230330-diffusion-model/

首先抛出一张LDM架构

讲清楚潜在扩散模型我们需要理解扩散模型

扩散模型

编码过程

我们知道(假定..),VAE我们开始一张图像映射潜在空间正态分布不是一个潜在空间这样模型可以学习不同图像相似特征信息因为分布交叉那么既然如此,反正图像最终都要映射一个正态分布一个步骤VAE编码模型干脆固定方法图像映射正态分布简单办法就是叠加多个正态分布

参考:https://blog.csdn.net/xhhgffd/article/details/148935798?spm=1001.2014.3001.5501

于是扩散模型规定t用于扩散每一步扩散就是上一步图像叠加正态分布的噪声。

x_tt时刻图像x_t-1t-1时刻图像x_t均值x_t-1均值μ_t一个固定系数除此之外方差也是一个固定常数I单位矩阵

这么一看其实这是一个马尔科夫过程因为当前状态依赖时刻状态注意,马尔科夫状态很有可能会引入条件概率,也很有可能会因此引入贝叶斯公式

然后扩散模型一般上面采样分布改写如下形式

乍一看上面很大差别实际就是几个固定系数变成了互相关常数而已这么设置实际为了直观控制信息源于噪声比例使得协方差矩阵为单位阵,等一下我们将会看到这一点

那么论文是如何采样的呢?

采样公式如下

从这个可以看到x_t-1方差单位那么x_t也可以保持相同方差

其次每次β_t噪声形成新的分布随着时间递增初始样本高斯噪声填充现在公式角度说明这一点

由于ε始终代表(0,1)分布噪声因子所以噪声均值都是0只有方差变化那么可以方差写在一起

如果往前

这里我们可以发现规律我们一直x_0式子变成

这里就能看到由于β是一个大于0小于1时间足够x_0这一项就会因为系数趋近0整体趋近0取而代之后面那个标准正态分布噪声

这样我们就能固定函数输入x转换正态分布从而降低模型训练的复杂困难

解码过程

那么解码过程实际一个去噪过程,从时间步t到时间步1渐渐地找到噪声并去掉:

去噪过程等价于添加噪声噪声从而噪声抵消数学原理表明噪声方差足够,添加逆噪声之后的结果也满足正态分布

只不过我们目前不知道均值方差多少否则我们可以直接采样一个作为时间步t-1解码结果

那么如何计算均值和方差呢?

这里由于并不知道x_t概率所以只有x_tx_t-1没法贝叶斯公式计算

于是需要引入一个x_0变量

这样左边我们待求右边已知

q(xt | xt-1,x0)可以马尔科夫转换xtxt-1之间关系

q(xt-1 | x0)和q(xt | x0)可以之前递推

于是化简之后得到

这里可以观察方差我们知道因为αβ都是已知常数

但是我们不知道均值因为均值里面涉及噪声因子ε但均值里面的x_t我们是知道的这个噪声因子我们没法确定

于是模型作用出来解码器可以利用模型拟合噪声从而预测噪声用于计算均值通过已经计算均值方差采样去噪图像

这就是为什么损失函数使用

这就是输入x_t,t模型拟合噪声

潜在扩散模型

潜在扩散模型做了什么呢?

我们发现扩散模型虽然能够模型拟合噪声总归来说模型没有学习图像里面真正内容是什么也就是说,模型只能自发的生成很多与训练数据集很像的图像,但是没法按你的要求生成图像。

一张轮船照片一张照片扩散模型给你生成一张类似照片给你生成一张类似轮船照片没法给你生成一张站在轮船甲板照片因为不知道那是不知道那是轮船训练过程从始至终没有给到模型语义相关信息

所以潜在扩散模型首先添加文本信息从而文本信息指导模型去噪

其次扩散模型噪声去噪都是直接针对图像像素空间以前图像比较时候分辨率比较时候可以现在随着图像清晰度越来越高图像像素空间加噪/去噪不合适于是人们想到潜在空间向量加噪去噪从而加速计算

一般输入用VAE编码器转换为潜在空间向量,然后添加噪声,然后在去噪过程中,用语义向量指导去噪,一般来说语义向量是Clip这样的多模态预训练模型的文本编码器加上一个投影层对文本编码得到的,而输出的潜在向量会经过VAE的解码器再解码成图像。

之所以解码过程使用U-Net因为往往训练数据视频数据本身patch基于时空采样得到包含多帧图像信息编码出来潜在向量也是多个通道所以U-Net这种结构网络利于模型感知潜在向量包含时空信息

关键字:对网页设计的认识和理解_日照最新消息今日_怎样注册自己的网站_江苏企业网站建设

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: