学习资源站

RT-DETR改进策略【卷积层】SPD-Conv针对小目标和低分辨率图像的检测任务_spdconvrtdetr-

RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务

一、本文介绍

本文记录的是 利用 SPD-Conv 优化RT-DETR的目标检测网络模型 。在利用 SPD-Conv 在进行下采样特征图时保留了所有信息, 避免了传统步长卷积和池化操作导致的细粒度信息丢失问题 ,从而使得神经网络能够学习到更有效的特征表示。在实际应用中能够显著提高检测和分类的准确性,尤其是在处理 小对象和低分辨率图像 时表现更为突出。



二、SPD - Conv介绍

SPD-Conv 是一种新的 CNN 构建模块,用于替代传统 CNN 架构中使用的 步长卷积(strided convolution) 池化(pooling)层 ,它由 空间到深度(Space-to-depth,SPD)层 非步长卷积(non - strided convolution)层 组成。

2.1、SPD - Conv模块的设计原理

2.1.1 SPD层

SPD层 对特征图进行下采样,同时在通道维度上保留所有信息,从而不会造成信息损失。具体来说,对于任何中间特征图X(大小为S×S×C1), SPD层 将其切分为一系列子特征图。例如,子图f0,0 = X[0 : S : scale, 0 : S : scale],f1,0 = X[1 : S : scale, 0 : S : scale]等。一般地,给定原始特征图X,子图fx,y由所有满足i + x和j + y能被scale整除的条目X(i, j)形成。因此,每个子图将X下采样为原来的1/scale。以scale = 2为例,会得到四个子图f0,0, f1,0, f0,1, f1,1,每个子图的形状为(S / 2, S / 2, C1),将X下采样了2倍。然后,将这些子特征图沿通道维度进行拼接,得到一个特征图X’,其空间维度减小了scale倍,通道维度增加了scale²倍。换句话说, SPD 将特征图X(S, S, C1)转换为中间特征图X’(S / scale, S / scale, scaleC1)。

2.1.2 非步长卷积层

SPD 特征转换层之后,添加一个非步长(即步长为1)卷积层,该卷积层具有C2个滤波器,其中C2 < scale²C1,进一步将X’(S / scale, S / scale, scaleC1)转换为X’‘(S / scale, S / scale, C2)。使用非步长卷积的原因是为了尽可能保留所有的判别特征信息。否则,例如使用步长为3的3×3滤波器,特征图会“缩小”,但每个像素仅被采样一次;如果步长为2,则会出现不对称采样,偶数行/列和奇数行/列将在不同时间被采样。一般来说,步长大于1会导致信息的无差别丢失,尽管表面上它似乎也能将特征图X(S, S, C1)转换为X’‘(S / scale, S / scale, C2)(但没有中间的X’)。

在这里插入图片描述

2.2、SPD - Conv模块的优势

  • 通用性和统一性 SPD-Conv 可以应用于大多数CNN架构,并且以相同的方式替换步长卷积和池化操作。
  • 提高准确性 :通过在 YOLOv5 ResNet 中应用 SPD-Conv 并进行实验,结果表明在对象检测和图像分类任务中, SPD-Conv 能够显著提高检测和分类的准确性,尤其是在处理小对象和低分辨率图像时表现更为突出。例如,在对象检测任务中,与其他基线模型相比,使用 SPD-Conv YOLOv5-SPD 在AP(平均精度)和APS(小对象的AP)指标上有明显提升;在图像分类任务中, ResNet18-SPD ResNet50-SPD 在Top-1准确率上明显优于其他基线模型。
  • 保留信息 SPD-Conv 通过 SPD层 下采样特征图时保留了所有信息,避免了传统步长卷积和池化操作导致的细粒度信息丢失问题,从而使得神经网络能够学习到更有效的特征表示。
  • 易于集成 SPD-Conv 可以轻松集成到流行的深度学习库如PyTorch和TensorFlow中,有可能产生更大的影响。

在这里插入图片描述

论文: https://arxiv.org/pdf/2208.03641v1.pdf
源码: https://github.com/LabSAINT/SPD-Conv

三、SPDConv的实现代码

SPDConv模块 的实现代码如下:

import torch
import torch.nn as nn
 
def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p
 
class SPDConv(nn.Module):
    """Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""
    default_act = nn.SiLU()  # default activation
 
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given arguments including activation."""
        super().__init__()
        c1 = c1 * 4
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()
 
    def forward(self, x):
        x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)
        """Apply convolution, batch normalization and activation to input tensor."""
        return self.act(self.bn(self.conv(x)))
 
    def forward_fuse(self, x):
        """Perform transposed convolution of 2D data."""
        x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)
        return self.act(self.conv(x))



四、添加步骤

4.1 修改一

① 在 ultralytics/nn/ 目录下新建 AddModules 文件夹用于存放模块代码

② 在 AddModules 文件夹下新建 SPDConv.py ,将 第三节 中的代码粘贴到此处

在这里插入图片描述

4.2 修改二

AddModules 文件夹下新建 __init__.py (已有则不用新建),在文件内导入模块: from .SPDConv import *

在这里插入图片描述

4.3 修改三

ultralytics/nn/modules/tasks.py 文件中,需要在两处位置添加各模块类名称。

首先:导入模块

在这里插入图片描述

其次:在 parse_model函数 中的注册 SPDConv 模块

在这里插入图片描述

在这里插入图片描述


五、yaml模型文件

5.1 模型改进版本⭐

此处以 ultralytics/cfg/models/rt-detr/rtdetr-l.yaml 为例,在同目录下创建一个用于自己数据集训练的模型文件 rtdetr-l-SPDConv.yaml

rtdetr-l.yaml 中的内容复制到 rtdetr-l-SPDConv.yaml 文件下,修改 nc 数量等于自己数据中目标的数量。

📌 模型的修改方法是对卷积层进行修改。

# Ultralytics YOLO 🚀, AGPL-3.0 license
# RT-DETR-l object detection model with P3-P5 outputs. For details see https://docs.ultralytics.com/models/rtdetr

# Parameters
nc: 1 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n-cls.yaml' will call yolov8-cls.yaml with scale 'n'
  # [depth, width, max_channels]
  l: [1.00, 1.00, 1024]

backbone:
  # [from, repeats, module, args]
  - [-1, 1, HGStem, [32, 48]] # 0-P2/4
  - [-1, 6, HGBlock, [48, 128, 3]] # stage 1

  - [-1, 1, SPDConv, [128]] # 2-P3/8
  - [-1, 6, HGBlock, [96, 512, 3]] # stage 2

  - [-1, 1, SPDConv, [512]] # 4-P4/16
  - [-1, 6, HGBlock, [192, 1024, 5, True, False]] # cm, c2, k, light, shortcut
  - [-1, 6, HGBlock, [192, 1024, 5, True, True]]
  - [-1, 6, HGBlock, [192, 1024, 5, True, True]] # stage 3

  - [-1, 1, SPDConv, [1024]] # 8-P5/32
  - [-1, 6, HGBlock, [384, 2048, 5, True, False]] # stage 4

head:
  - [-1, 1, Conv, [256, 1, 1, None, 1, 1, False]] # 10 input_proj.2
  - [-1, 1, AIFI, [1024, 8]]
  - [-1, 1, Conv, [256, 1, 1]] # 12, Y5, lateral_convs.0

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [7, 1, Conv, [256, 1, 1, None, 1, 1, False]] # 14 input_proj.1
  - [[-2, -1], 1, Concat, [1]]
  - [-1, 3, RepC3, [256]] # 16, fpn_blocks.0
  - [-1, 1, Conv, [256, 1, 1]] # 17, Y4, lateral_convs.1

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [3, 1, Conv, [256, 1, 1, None, 1, 1, False]] # 19 input_proj.0
  - [[-2, -1], 1, Concat, [1]] # cat backbone P4
  - [-1, 3, RepC3, [256]] # X3 (21), fpn_blocks.1

  - [-1, 1, SPDConv, [256]] # 22, downsample_convs.0
  - [[-1, 17], 1, Concat, [1]] # cat Y4
  - [-1, 3, RepC3, [256]] # F4 (24), pan_blocks.0

  - [-1, 1, SPDConv, [256]] # 25, downsample_convs.1
  - [[-1, 12], 1, Concat, [1]] # cat Y5
  - [-1, 3, RepC3, [256]] # F5 (27), pan_blocks.1

  - [[21, 24, 27], 1, RTDETRDecoder, [nc]] # Detect(P3, P4, P5)


六、成功运行结果

打印网络模型可以看到颈部网络已经修改完成,并可以进行训练了。

rtdetr–SPDConv

rtdetr-l-SPDConv summary: 679 layers, 37,446,211 parameters, 37,446,211 gradients, 114.2 GFLOPs

                   from  n    params  module                                       arguments                     
  0                  -1  1     25248  ultralytics.nn.modules.block.HGStem          [3, 32, 48]                   
  1                  -1  6    155072  ultralytics.nn.modules.block.HGBlock         [48, 48, 128, 3, 6]           
  2                  -1  1     65792  ultralytics.nn.AddModules.SPDConv.SPDConv    [128, 128]                    
  3                  -1  6    839296  ultralytics.nn.modules.block.HGBlock         [128, 96, 512, 3, 6]          
  4                  -1  1   1049600  ultralytics.nn.AddModules.SPDConv.SPDConv    [512, 512]                    
  5                  -1  6   1695360  ultralytics.nn.modules.block.HGBlock         [512, 192, 1024, 5, 6, True, False]
  6                  -1  6   2055808  ultralytics.nn.modules.block.HGBlock         [1024, 192, 1024, 5, 6, True, True]
  7                  -1  6   2055808  ultralytics.nn.modules.block.HGBlock         [1024, 192, 1024, 5, 6, True, True]
  8                  -1  1   4196352  ultralytics.nn.AddModules.SPDConv.SPDConv    [1024, 1024]                  
  9                  -1  6   6708480  ultralytics.nn.modules.block.HGBlock         [1024, 384, 2048, 5, 6, True, False]
 10                  -1  1    524800  ultralytics.nn.modules.conv.Conv             [2048, 256, 1, 1, None, 1, 1, False]
 11                  -1  1    789760  ultralytics.nn.modules.transformer.AIFI      [256, 1024, 8]                
 12                  -1  1     66048  ultralytics.nn.modules.conv.Conv             [256, 256, 1, 1]              
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14                   7  1    262656  ultralytics.nn.modules.conv.Conv             [1024, 256, 1, 1, None, 1, 1, False]
 15            [-2, -1]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 16                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 17                  -1  1     66048  ultralytics.nn.modules.conv.Conv             [256, 256, 1, 1]              
 18                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 19                   3  1    131584  ultralytics.nn.modules.conv.Conv             [512, 256, 1, 1, None, 1, 1, False]
 20            [-2, -1]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 21                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 22                  -1  1    262656  ultralytics.nn.AddModules.SPDConv.SPDConv    [256, 256]                    
 23            [-1, 17]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 24                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 25                  -1  1    262656  ultralytics.nn.AddModules.SPDConv.SPDConv    [256, 256]                    
 26            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 27                  -1  3   2232320  ultralytics.nn.modules.block.RepC3           [512, 256, 3]                 
 28        [21, 24, 27]  1   7303907  ultralytics.nn.modules.head.RTDETRDecoder    [1, [256, 256, 256]]          
rtdetr-l-SPDConv summary: 679 layers, 37,446,211 parameters, 37,446,211 gradients, 114.2 GFLOPs