当前位置: 首页> 房产> 建材 > 杭州建设网站设计的公司_视频永久免费生成二维码_昆山优化外包_今日国内新闻热点

杭州建设网站设计的公司_视频永久免费生成二维码_昆山优化外包_今日国内新闻热点

时间:2025/7/13 17:02:45来源:https://blog.csdn.net/qq_61706514/article/details/144138525 浏览次数:0次
杭州建设网站设计的公司_视频永久免费生成二维码_昆山优化外包_今日国内新闻热点

图解:

代码:

class Mlp(nn.Module):"""MLP as used in Vision Transformer, MLP-Mixer and related networks"""def __init__(self, in_features,               #输入特征的维度hidden_features=None,      #隐藏层特征的维度,默认为noneout_features=None,         #输出特征的维度,默认为noneact_layer=nn.GELU,         #激活函数层,默认使用nn.GELUdrop=0.):                  #丢弃率,默认值为 0,表示不进行丢弃操作super().__init__()out_features = out_features or in_features
#如果输出特征的维度没有指定则默认与输入特征维度相同。hidden_features = hidden_features or in_features
#如果隐藏层特征的维度没有指定则默认与输入特征维度相同。self.fc1 = nn.Linear(in_features, hidden_features)self.act = act_layer()
#默认使用nn.GELUself.fc2 = nn.Linear(hidden_features, out_features)self.drop = nn.Dropout(drop)def forward(self, x):x = self.fc1(x)x = self.act(x)x = self.drop(x)x = self.fc2(x)x = self.drop(x)return x

GELU函数的优点:

  1. 平滑性:提供平滑的激活曲线(处处可导且导数平滑),有助于梯度流动,减少梯度消失问题。
  2. 自适应门控:基于输入自动调整激活量,增强模型对特征的自适应能力。
  3. 非饱和性:避免梯度消失,保持网络深层的激活和梯度。
  4. 非单调性:能够捕获更复杂的数据模式,提高模型的表达能力。
  5. 性能提升:在多种深度学习模型中,GELU已被证明能提升性能和泛化能力。

GELU函数:

公式:GELU\left ( x \right )=x\times \Phi \left ( x \right )

图像:

官方文档:GELU — PyTorch 1.9.1 documentation

关键字:杭州建设网站设计的公司_视频永久免费生成二维码_昆山优化外包_今日国内新闻热点

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: