新疆建设工程信息网网址_怎么设计公司商标_b站视频未能成功转码_网站搜索优化排名

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**
>- **🍖 原作者：[K同学啊]**

本人往期文章可查阅：深度学习总结

文件路径: …\ultralytics-main\ultralytics\nn\modules \ ***
该文件夹下的文件与YOLOv5中的 common.py 是起到相同作用的，是实现YOLOv8算法中各个模块的地方，如果我们需要修改某一模块(例如C3)，那么就需要修改这个文件夹中相应文件中对应模块的的定义。这里仅仅介绍YOLOv8中涉及的主要模块，未讲解到的可查看之前YOLOv5中的介绍。由于YOLOv8版本问题，同一个模块你可能会看到不同的版本，这都是正常的，以官网为主即可。

以文件 …\ultralytics-main\ultralytics\nn\modules\conv.py 为例，开头列举了该文件中定义的所有模型，如果你需要新加一个模块，记得在该文件开头这里将其名称加入。(这是YOLOv8新增的一个类似声明的内容)

# Ultralytics YOLO 🚀, AGPL-3.0 license
"""Convolution modules."""import mathimport numpy as np
import torch
import torch.nn as nn__all__ = ("Conv","Conv2","LightConv","DWConv","DWConvTranspose2d","ConvTranspose","Focus","GhostConv","ChannelAttention","SpatialAttention","CBAM","Concat","RepConv",
)

Conv：这是一个标准的卷积层，用于图像的特征提取。

Conv2：这是一个扩展的卷积层。

LightConv：这是一个轻量级的卷积层，旨在减少模型的计算量和参数数量。

DWConv：深度可分离卷积（Depthwise Separable Convolution），它将标准卷积分解为深度卷积和点卷积，以减少参数和计算量。

DWConvTranspose2d：深度可分离转置卷积，用于上采样操作，常用于生成高分辨率特征图。

ConvTranspose：转置卷积（或反卷积），用于上采样和特征图的尺寸增加。

Focus：这是一个特殊的模块，用于减少图像的分辨率同时增加其深度，有助于网络关注更细粒度的特征。

GhostConv：Ghost卷积，一种高效的卷积方式，通过廉价操作生成更多的特征图。

ChannelAttention：通道注意力机制，用于增强网络对重要通道的关注。

SpatialAttention：空间注意力机制，用于增强网络对重要空间位置的关注。

CBAM：结合通道注意力和空间注意力，共同增强网络对特征的关注。

Concat：这是一个简单的连接模块，用于合并多个特征图。

1、autopad

文件路径：\ultralytics-main\ultralytics\nn\modules\conv.py

模块定义文件路径: …\ultralytics-main\ultralytics\nn\modules\conv.py

功能:返回pad的大小，使得padding后输出张量的大小不变。

参数说明：

k：卷积核(kernel)的大小。可以是单个整数 int，也可以是整数列表（对于不同维度的卷积核）。

p：填充(padding)大小。如果未提供，即默认为None，函数将自动计算。

d：膨胀率（dilation rate），默认为1。普通卷积的扩张率为1，空洞卷积的扩张率大于1。

autopad 函数在实现卷积神经网络时非常有用，特别是在需要保持特征图尺寸不变的情况下。通过自动计算填充大小，它简化了卷积层的实现过程。

def autopad(k, p=None, d=1):  # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-padreturn p

2、Conv

模块定义文件路径: …\ultralytics-main\ultralytics\nn\modules\conv.py

功能：标准卷积模块
参数：输入通道数( c1 )，输出通道数( c2 )，卷积核大小( k，默认是 1 )，步长( s，默认是 1 )，填充( p，默认为 None),组( g，默认为 1)，扩张率( d，默认为 1 )，是否采用激活函数（ act，默认为True,且采用SiLU为激活函数)

class Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU()  # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))

Conv 类，继承自 nn.Module 。它实现了标准的卷积操作，具有一些参数( ch_in、ch_out、kernel、stride、padding、groups、dilation、activation)来定义卷积层的行为。

1.在conv 类的初始化方法__init__中，首先调用了父类 nn.Module的初始化方法 super().init ()。

2.使用 nn.conv2d 创建了一个卷积层 self.conv，其中包括输入通道数 c1、输出通道数 c2、卷积核大小 k、步长 s、填充 p、分组数 g、膨胀率 d、偏置 bias 等参数。
3.创建了批归一化层 self.bn，用于对卷积结果进行归一化处理。
4.根据 act 参数的类型，确定激活函数 self.act，默认为 nn.siLu()。

在前向传播方法 forward 中，首先对输入张量 x 进行卷积操作 self.conv(x)，然后对卷积结果进行批归一化 self.bn ，最后使用激活函数 self.act进行激活，并返回结果。

forward_fuse 方法用于执行转置卷积操作。它对输入张量 x 执行卷积操作 self.conv(x)，然后使用激活函数 self.act 进行激活，并返回结果。

3、Focus

模块定义文件路径: …\ultralytics-main\ultralytics\nn\modules\conv.py
Focus模块是作者自己设计出来，为了减少浮点数和提高速度，而不是增加feature map的，本质就是将图像进行切片，类似于下采样取值，将原图像的宽高信息切分，聚合到channel通道中。结构如下所示:

class Focus(nn.Module):"""Focus wh information into c-space."""def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):"""Initializes Focus object with user defined channel, convolution, padding, group and activation values."""super().__init__()self.conv = Conv(c1 * 4, c2, k, s, p, g, act=act)# self.contract = Contract(gain=2)def forward(self, x):"""Applies convolution to concatenated tensor and returns the output.Input shape is (b,c,w,h) and output shape is (b,4c,w/2,h/2)."""return self.conv(torch.cat((x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]), 1))# return self.conv(self.contract(x))

4、C2f

模块定义文件路径: …\ultralytics-main\ultralytics\nn\modules\block.py

class C2f(nn.Module):"""Faster Implementation of CSP Bottleneck with 2 convolutions."""def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):"""Initializes a CSP bottleneck with 2 convolutions and n Bottleneck blocks for faster processing."""super().__init__()self.c = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, 2 * self.c, 1, 1)self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)self.m = nn.ModuleList(Bottleneck(self.c, self.c, shortcut, g, k=((3, 3), (3, 3)), e=1.0) for _ in range(n))def forward(self, x):"""Forward pass through C2f layer."""y = list(self.cv1(x).chunk(2, 1))y.extend(m(y[-1]) for m in self.m)return self.cv2(torch.cat(y, 1))def forward_split(self, x):"""Forward pass using split() instead of chunk()."""y = self.cv1(x).split((self.c, self.c), 1)y = [y[0], y[1]]y.extend(m(y[-1]) for m in self.m)return self.cv2(torch.cat(y, 1))

该模块包含了两个卷积层和一些 Bottleneck 模块的组合，下面是该类的主要成员和功能：

__ init__(self，c1，c2，n=1，shortcut=False，g=1，e=0.5):初始化函数，接受输入通道数 c1、输出通道数 c2、重复次数 n、是否使用 shortcut 连接
shortcut 、分组卷积的组数g、扩展因子 e 等参数。在初始化过程中创建了包含了两个卷积层和一些 Bottleneck 模块的组合。

forward(self，x)：前向传播函数，接受输入张量 x 。在前向传播过程中，首先通过一个卷积层 self.cv1 对输入进行卷积操作，然后将输出分成两部分。接下来，通过一系列的 Bottleneck 模块 self.m 对其中一部分进行处理，并将处理后的结果与另一部分进行拼接。最后，通过另一个卷积层 self.cv2 对拼接后的结果进行卷积操作，并返回输出张量。

forward_split(self，x)：与 forward(self，x) 类似的前向传播函数，但在处理输入分成两部分时，使用了 split() 方法代替了 chunk() 方法。其余部分的功能与 forward(self, x) 相同。

5、心得体会

整体理解了YOLOv8中的几个重要模块，尤其对C2f模块的结构有了更深的理解。