学习资源站

12-YOLOv5源码逐行超详细注释与解读——网络结构(1)

YOLOv5源码逐行超详细注释与解读(6)——网络结构(1)yolo.py

🚀一、 导包和基本配置

1.1 导入安装好的python库 

  1. '''======================1.导入安装好的python库====================='''
  2. import argparse # 解析命令行参数模块
  3. import sys # sys系统模块 包含了与Python解释器和它的环境有关的函数
  4. from copy import deepcopy # 数据拷贝模块 深拷贝
  5. from pathlib import Path # Path将str转换为Path对象 使字符串路径易于操作的模块

首先,导入一下常用的python库

  • argparse:  它是一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,argparse 将会从 sys.argv 中解析出这些参数,并自动生成帮助和使用信息
  • sys: 它是与python解释器交互的一个接口,该模块提供对解释器使用或维护的一些变量的访问和获取,它提供了许多函数和变量来处理 Python 运行时环境的不同部分
  • copy:  Python 中赋值语句不复制对象,而是在目标和对象之间创建绑定关系。copy模块提供了通用的浅层复制和深层复制操作
  • pathlib:  这个库提供了一种面向对象的方式来与文件系统交互,可以让代码更简洁、更易读

1.2 获取当前文件的绝对路径

  1. '''===================2.获取当前文件的绝对路径========================'''
  2. FILE = Path(__file__).resolve() # __file__指的是当前文件(即val.py),FILE最终保存着当前文件的绝对路径,比如D://yolov5/modles/yolo.py
  3. ROOT = FILE.parents[1] # YOLOv5 root directory 保存着当前项目的父目录,比如 D://yolov5
  4. if str(ROOT) not in sys.path: # sys.path即当前python环境可以运行的路径,假如当前项目不在该路径中,就无法运行其中的模块,所以就需要加载路径
  5. sys.path.append(str(ROOT)) # add ROOT to PATH 把ROOT添加到运行路径上
  6. # ROOT = ROOT.relative_to(Path.cwd()) # relative ROOT设置为相对路径

这段代码会获取当前文件的绝对路径,并使用Path库将其转换为Path对象。

这一部分的主要作用有两个:

  • 将当前项目添加到系统路径上,以使得项目中的模块可以调用。
  • 将当前项目的相对路径保存在ROOT中,便于寻找项目中的文件。

1.3 加载自定义模块

  1. '''===================3..加载自定义模块============================'''
  2. from models.common import * # yolov5的网络结构(yolov5)
  3. from models.experimental import * # 导入在线下载模块
  4. from utils.autoanchor import check_anchor_order # 导入检查anchors合法性的函数
  5. from utils.general import LOGGER, check_version, check_yaml, make_divisible, print_args # 定义了一些常用的工具函数
  6. from utils.plots import feature_visualization # 定义了Annotator类,可以在图像上绘制矩形框和标注信息
  7. from utils.torch_utils import (copy_attr, fuse_conv_and_bn, initialize_weights, model_info, scale_img, select_device,
  8. time_sync) # 定义了一些与PyTorch有关的工具函数
  9. # 导入thop包 用于计算FLOPs
  10. try:
  11. import thop # for FLOPs computation
  12. except ImportError:
  13. thop = None

这些都是用户自定义的库,由于上一步已经把路径加载上了,所以现在可以导入,这个顺序不可以调换。具体来说,代码从如下几个文件中导入了部分函数和类:

  • models.common:  这个是yolov5的网络结构
  • models.experimental:  实验性质的代码,包括MixConv2d、跨层权重Sum等
  • utils.autoanchor:  定义了自动生成锚框的方法
  • utils.general:   定义了一些常用的工具函数,比如检查文件是否存在、检查图像大小是否符合要求、打印命令行参数等等
  • utils.plots:    定义了Annotator类,可以在图像上绘制矩形框和标注信息
  • utils.torch_utils:   定义了一些与PyTorch有关的工具函数,比如选择设备、同步时间等

通过导入这些模块,可以更方便地进行目标检测的相关任务,并且减少了代码的复杂度和冗余。


🚀二、parse_model函数

parse_model函数用在DetectionModel模块中,主要作用是解析模型yaml的模块,通过读取yaml文件中的配置,并且到common.py中找到相对于的模块,然后组成一个完整的模型解析模型文件(字典形式),并搭建网络结构。简单来说,就是把yaml文件中的网络结构实例化成对应的模型。后续如果需要动模型框架的话,需要对这个函数做相应的改动。

2.1 获取对应参数

  1. def parse_model(d, ch): # model_dict, input_channels(3)
  2. '''===================1. 获取对应参数============================'''
  3. # 使用 logging 模块输出列标签
  4. LOGGER.info(f"\n{'':>3}{'from':>18}{'n':>3}{'params':>10} {'module':<40}{'arguments':<30}")
  5. # 获取anchors,nc,depth_multiple,width_multiple
  6. anchors, nc, gd, gw = d['anchors'], d['nc'], d['depth_multiple'], d['width_multiple']
  7. # na: 每组先验框包含的先验框数
  8. na = (len(anchors[0]) // 2) if isinstance(anchors, list) else anchors # number of anchors
  9. # no: na * 属性数 (5 + 分类数)
  10. no = na * (nc + 5) # number of outputs = anchors * (classes + 5)

这段代码主要是获取配置dict里面的参数,并打印最开始展示的网络结构表的表头

我们先解释几个参数,dchnano: 

  •  d:  yaml 配置文件(字典形式),yolov5s.yaml中的6个元素 + ch
  • ch:  记录模型每一层的输出channel,初始ch=[3],后面会删除
  • na:  判断anchor的数量
  • no:  根据anchor数量推断的输出维度

这里有一行代码我们上篇就见过了:

这里就是读取了 yaml 文件的相关参数(参数含义忘了的话再看看上篇哦)


 2.2 搭建网络前准备

  1. '''===================2. 搭建网络前准备============================'''
  2. # 网络单元列表, 网络输出引用列表, 当前的输出通道数
  3. layers, save, c2 = [], [], ch[-1] # layers, savelist, ch out
  4. # 读取 backbone, head 中的网络单元
  5. for i, (f, n, m, args) in enumerate(d['backbone'] + d['head']): # from, number, module, args
  6. # 利用 eval 函数, 读取 model 参数对应的类名 如‘Focus’,'Conv'等
  7. m = eval(m) if isinstance(m, str) else m # eval strings
  8. # 利用 eval 函数将字符串转换为变量 如‘None’,‘nc’,‘anchors’等
  9. for j, a in enumerate(args):
  10. try:
  11. args[j] = eval(a) if isinstance(a, str) else a # eval strings
  12. except NameError:
  13. pass

 这段代码主要是遍历backbone和head的每一层,获取搭建网络前的一系列信息

 我们还是先解释参数,layerssavec2

  • layers:   保存每一层的层结构
  • save:   记录下所有层结构中from不是-1的层结构序号
  • c2:   保存当前层的输出channel 

然后开始迭代循环backbonehead的配置。for i, (f, n, m, args) in enumerate(d['backbone'] + d['head']):中有几个参数

  • f: from,当前层输入来自哪些层
  • n: number,当前层次数 初定
  • m: module,当前层类别
  • args: 当前层类参数 初定

接着还用到一个函数eval(),主要作用是将字符串当成有效的表达式来求值,并且返回执行的结果。在这里简单来说,就是实现listdicttuplestr之间的转化。


2.3 更新当前层的参数,计算c2

  1. '''===================3. 更新当前层的参数,计算c2============================'''
  2. # depth gain: 控制深度,如yolov5s: n*0.33
  3. # n: 当前模块的次数(间接控制深度)
  4. n = n_ = max(round(n * gd), 1) if n > 1 else n # depth gain
  5. # 当该网络单元的参数含有: 输入通道数, 输出通道数
  6. if m in [Conv, GhostConv, Bottleneck, GhostBottleneck, SPP, SPPF, DWConv, MixConv2d, Focus, CrossConv,
  7. BottleneckCSP, C3, C3TR, C3SPP, C3Ghost]:
  8. # c1: 当前层的输入channel数; c2: 当前层的输出channel数(初定); ch: 记录着所有层的输出channel数
  9. c1, c2 = ch[f], args[0]
  10. # no=75,只有最后一层c2=no,最后一层不用控制宽度,输出channel必须是no
  11. if c2 != no: # if not output
  12. # width gain: 控制宽度,如yolov5s: c2*0.5; c2: 当前层的最终输出channel数(间接控制宽度)
  13. c2 = make_divisible(c2 * gw, 8)

这段代码主要是更新当前层的args,计算c2(当前层的输出channel)

首先网络将C3中的BottleNeck数量乘以模型缩放倍数n*gd控制模块的深度缩放,举个栗子,对于yolo5s来讲,gd为0.33,那么就是n*0.33,也就是把默认的深度缩放为原来的1/3。 

然后将m实例化成同名模块,别看列举了那么多模块,目前只用到ConvSPPFocusC3nn.Upsample。对于以上的这几种类型的模块,ch是一个用来保存之前所有的模块输出的channle,ch[-1]代表着上一个模块的输出通道。args[0]是默认的输出通道。

这样以来,c1=ch[f]就代表输入通道c1为f指向的层的输出通道c2=args[0]就代表输出通道c2为yaml的args中的第一个变量。注意,如果输出通道不等于255即Detect层的输出通道, 则将通道数乘上width_multiple,并调整为8的倍数。通过函数make_divisible来实现

make_divisible()代码如下:   

  1.    # 使得X能够被divisor整除
  2.      def make_divisible(x, divisor):
  3.          return math.ceil(x / divisor) * divisor

2.4 使用当前层的参数搭建当前层

  1. '''===================4.使用当前层的参数搭建当前层============================'''
  2. # 在初始args的基础上更新,加入当前层的输入channel并更新当前层
  3. # [in_channels, out_channels, *args[1:]]
  4. args = [c1, c2, *args[1:]]
  5. # 如果当前层是BottleneckCSP/C3/C3TR/C3Ghost/C3x,则需要在args中加入Bottleneck的个数
  6. # [in_channels, out_channels, Bottleneck个数, Bool(shortcut有无标记)]
  7. if m in [BottleneckCSP, C3, C3TR, C3Ghost]:
  8. # 在第二个位置插入bottleneck个数n
  9. args.insert(2, n) # number of repeats
  10. # 恢复默认值1
  11. n = 1
  12. # 判断是否是归一化模块
  13. elif m is nn.BatchNorm2d:
  14. # BN层只需要返回上一层的输出channel
  15. args = [ch[f]]
  16. # 判断是否是tensor连接模块
  17. elif m is Concat:
  18. # Concat层则将f中所有的输出累加得到这层的输出channel
  19. c2 = sum(ch[x] for x in f)
  20. # 判断是否是detect模块
  21. elif m is Detect:
  22. # 在args中加入三个Detect层的输出channel
  23. args.append([ch[x] for x in f])
  24. if isinstance(args[1], int): # number of anchors 几乎不执行
  25. args[1] = [list(range(args[1] * 2))] * len(f)
  26. elif m is Contract: # 不怎么用
  27. c2 = ch[f] * args[0] ** 2
  28. elif m is Expand: # 不怎么用
  29. c2 = ch[f] // args[0] ** 2
  30. else:
  31. c2 = ch[f] # args不变

这段代码主要是使用当前层的参数搭建当前层。

经过以上处理,args里面保存的前两个参数就是module的输入通道数、输出通道数。只有BottleneckCSPC3这两种module会根据深度参数n调整该模块的重复迭加次数。

然后进行的是其他几种类型的Module判断:

  • 如果是BN层,只需要返回上一层的输出channel,通道数保持不变。
  • 如果是Concat层,则将f中所有的输出累加得到这层的输出channel,f是所有需要拼接层的index,输出通道c2是所有层的和。
  • 如果是Detect层,则对应检测头部分,这块下一小节细讲。

Contract和Expand目前未在模型中使用。


 2.5 打印和保存layers 

  1. '''===================5.打印和保存layers信息============================'''
  2. # m_: 得到当前层的module,将n个模块组合存放到m_里面
  3. m_ = nn.Sequential(*(m(*args) for _ in range(n))) if n > 1 else m(*args) # module
  4. # 打印当前层结构的一些基本信息
  5. t = str(m)[8:-2].replace('__main__.', '') # module type
  6. # 计算这一层的参数量
  7. np = sum(x.numel() for x in m_.parameters()) # number params
  8. m_.i, m_.f, m_.type, m_.np = i, f, t, np # attach index, 'from' index, type, number params
  9. LOGGER.info(f'{i:>3}{str(f):>18}{n_:>3}{np:10.0f} {t:<40}{str(args):<30}') # print
  10. # 把所有层结构中的from不是-1的值记下 [6,4,14,10,17,20,23]
  11. save.extend(x % i for x in ([f] if isinstance(f, int) else f) if x != -1) # append to savelist
  12. # 将当前层结构module加入layers中
  13. layers.append(m_)
  14. if i == 0:
  15. ch = [] # 去除输入channel[3]
  16. # 把当前层的输出channel数加入ch
  17. ch.append(c2)
  18. return nn.Sequential(*layers), sorted(save)

这段代码主要是打印当前层结构的一些基本信息并保存。

把构建的模块保存到layers里,把该层的输出通道数写入ch列表里。待全部循环结束后再构建成模型。

返回值:

  • return nn.Sequential(*layers):   网络的每一层的层结构
  • return sorted(save):   把所有层结构中from不是-1的值记下 并排序 [4, 6, 10, 14, 17, 20, 23]

至此模型就全部构建完毕了。

下面详细介绍一下各个模块。


🚀 三、Detect模块

Detect 模块是 YOLO 网络模型的最后一层 (对应 yaml 文件最后一行),通过 yaml 文件进行声明,格式为:

[*from], 1, Detect, [nc, anchors]

其中 nc 为分类数,anchors 为先验框,修改 yaml 文件的前几行即可。

parse_model 函数中,会根据 from 参数,找到对应网络层的输出通道数。传参给 Detect 对象后,生成对应的 Conv2d,为后面的计算损失或者NMS后处理作准备。


 3.1 获取预测得到的参数

  1. class Detect(nn.Module):
  2. stride = None # 特征图的缩放步长
  3. onnx_dynamic = False # ONNX动态量化
  4. '''===================1.获取预测得到的参数============================'''
  5. def __init__(self, nc=80, anchors=(), ch=(), inplace=True): # detection layer
  6. super().__init__()
  7. # nc: 数据集类别数量
  8. self.nc = nc
  9. # no: 表示每个anchor的输出数,前nc个01字符对应类别,后5个对应:是否有目标,目标框的中心,目标框的宽高
  10. self.no = nc + 5 # nc+5=nc+(x,y,w,h,conf)
  11. # nl: 表示预测层数,yolov5是3层预测
  12. self.nl = len(anchors)
  13. # na: 表示anchors的数量,除以2是因为[10,13, 16,30, 33,23]这个长度是6,对应3个anchor
  14. self.na = len(anchors[0]) // 2
  15. # grid: 表示初始化grid列表大小,下面会计算grid,grid就是每个格子的x,y坐标(整数,比如0-19),左上角为(1,1),右下角为(input.w/stride,input.h/stride)
  16. self.grid = [torch.zeros(1)] * self.nl
  17. # anchor_grid: 表示初始化anchor_grid列表大小,空列表
  18. self.anchor_grid = [torch.zeros(1)] * self.nl # init anchor grid
  19. # 注册常量anchor,并将预选框(尺寸)以数对形式存入,并命名为anchors
  20. self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2)) # shape(nl,na,2) 注意后面就可以通过self.anchors来访问它了
  21. # 每一张进行三次预测,每一个预测结果包含nc+5个值
  22. # (n, 255, 80, 80),(n, 255, 40, 40),(n, 255, 20, 20) --> ch=(255, 255, 255)
  23. # 255 -> (nc+5)*3 ===> 为了提取出预测框的位置信息以及预测框尺寸信息
  24. self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch) # output conv 3个输出层最后的1乘1卷积
  25. # inplace: 一般都是True,默认不使用AWS,Inferentia加速
  26. self.inplace = inplace # use in-place ops (e.g. slice assignment)
  27. # 如果模型不训练那么将会对这些预测得到的参数进一步处理,然后输出,可以方便后期的直接调用
  28. # 包含了三个信息pred_box [x,y,w,h] pred_conf[confidence] pre_cls[cls0,cls1,cls2,...clsn]

这段代码主要是获取预测得到的各种信息。

detection layer 相当于yolov3中的YOLOLayer层,我们解释一下包含的参数:

  • nc:  分类数量
  • no:   每个anchor的输出数,为(x,y,w,h,conf) + nc = 5 + nc 的总数
  • nl:  预测层数,此次为3
  • na:   anchors的数量,此次为3
  • grid:  格子坐标系,左上角为(1,1),右下角为(input.w/stride,input.h/stride)

3.2 向前传播

  1. '''===================2.向前传播============================'''
  2. def forward(self, x):
  3. z = [] # inference output
  4. for i in range(self.nl):
  5. x[i] = self.m[i](x[i]) # conv
  6. bs, _, ny, nx = x[i].shape # x(bs,255,20,20) to x(bs,3,20,20,85)
  7. # 维度重排列: bs, 先验框组数, 检测框行数, 检测框列数, 属性数 + 分类数
  8. x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous() # contiguous 将数据保证内存中位置连续
  9. '''
  10. 向前传播时需要将相对坐标转换到grid绝对坐标系中
  11. '''
  12. if not self.training: # inference
  13. '''
  14. 生成坐标系
  15. grid[i].shape = [1,1,ny,nx,2]
  16. [[[[1,1],[1,2],...[1,nx]],
  17. [[2,1],[2,2],...[2,nx]],
  18. ...,
  19. [[ny,1],[ny,2],...[ny,nx]]]]
  20. '''
  21. # 换输入后重新设定锚框
  22. if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
  23. # 加载网格点坐标 先验框尺寸
  24. self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)
  25. '''
  26. 按损失函数的回归方式来转换坐标
  27. '''
  28. y = x[i].sigmoid()
  29. # 改变原数据 计算定位参数
  30. if self.inplace:
  31. # grid: 位置基准 或者理解为 cell的预测初始位置,而y[..., 0:2]是作为在grid坐标基础上的位置偏移
  32. y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
  33. # anchor_grid: 预测框基准 或者理解为 预测框的初始位置,而 y[..., 2:4]是作为预测框位置的调整
  34. y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
  35. else: # for YOLOv5 on AWS Inferentia https://github.com/ultralytics/yolov5/pull/2953
  36. # stride: 是一个grid cell的实际尺寸
  37. # 经过sigmoid, 值范围变成了(0-1),下一行代码将值变成范围(-0.5,1.5)
  38. xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
  39. # 范围变成(0-4)倍,设置为4倍的原因是下层的感受野是上层的2倍
  40. # 因下层注重检测大目标,相对比上层而言,计算量更小,4倍是一个折中的选择
  41. wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
  42. y = torch.cat((xy, wh, y[..., 4:]), -1)
  43. # 存储每个特征图检测框的信息
  44. z.append(y.view(bs, -1, self.no))
  45. # 训练阶段直接返回x
  46. # 预测阶段返回3个特征图拼接的结果
  47. return x if self.training else (torch.cat(z, 1), x)

这段代码主要是对三个feature map分别进行处理:(n, 255, 80, 80),(n, 255, 40, 40),(n, 255, 20, 20)

首先进行for循环,每次i的循环,产生一个z。维度重排列:(n, 255, _, _) -> (n, 3, nc+5, ny, nx) -> (n, 3, ny, nx, nc+5),三层分别预测了80*80、40*40、20*20次。

接着 构造网格,因为推理返回的不是归一化后的网格偏移量,需要再加上网格的位置,得到最终的推理坐标,再送入nms。所以这里构建网格就是为了纪律每个grid的网格坐标 方面后面使用

最后按损失函数的回归方式来转换坐标,利用sigmoid激活函数计算定位参数,cat(dim=-1)为直接拼接。注意: 训练阶段直接返回x ,而预测阶段返回3个特征图拼接的结果 


3.3 相对坐标转换到grid绝对坐标系

  1. '''===================3.相对坐标转换到grid绝对坐标系============================'''
  2. def _make_grid(self, nx=20, ny=20, i=0):
  3. d = self.anchors[i].device
  4. if check_version(torch.__version__, '1.10.0'): # torch>=1.10.0 meshgrid workaround for torch>=0.7 compatibility
  5. yv, xv = torch.meshgrid([torch.arange(ny).to(d), torch.arange(nx).to(d)], indexing='ij')
  6. else:
  7. yv, xv = torch.meshgrid([torch.arange(ny).to(d), torch.arange(nx).to(d)])
  8. # grid --> (20, 20, 2), 复制成3倍,因为是三个框 -> (3, 20, 20, 2)
  9. grid = torch.stack((xv, yv), 2).expand((1, self.na, ny, nx, 2)).float()
  10. # anchor_grid即每个格子对应的anchor宽高,stride是下采样率,三层分别是8,16,32
  11. anchor_grid = (self.anchors[i].clone() * self.stride[i]) \
  12. .view((1, self.na, 1, 1, 2)).expand((1, self.na, ny, nx, 2)).float()
  13. return grid, anchor_grid

这段代码主要是将相对坐标转换到grid绝对坐标系。

首先构造网格标尺坐标

  •  indexing='ij' :   表示的是i是同一行,j表示同一列
  •  indexing='xy' :  表示的是x是同一列,y表示同一行

 grid复制成3倍,因为是3个框。anchor_grid是每个anchor宽高。anchor_grid = (self.anchors[i].clone() * self.stride[i])。注意这里为啥要乘呢?因为在外面已经把anchors给除了对应的下采样率,这里再乘回来。


🚀四、Model类

Model类是整个模型的构造模块部分。 通过自定义YOLO模型类 ,继承torch.nn.Module。主要作用是指定模型的yaml文件以及一系列的训练参数。

4.1 __init__函数

(1) 首先加载yaml文件

  1. class Model(nn.Module):
  2. '''===================1.__init__函数==========================='''
  3. def __init__(self, cfg='yolov5s.yaml', ch=3, nc=None, anchors=None): # model, input channels, number of classes
  4. # 父类的构造方法
  5. super().__init__()
  6. # 检查传入的参数格式,如果cfg是加载好的字典结果
  7. if isinstance(cfg, dict):
  8. # 直接保存到模型中
  9. self.yaml = cfg # model dict
  10. # 若不是字典 则为yaml文件路径
  11. else: # is *.yaml 一般执行这里
  12. # 导入yaml文件
  13. import yaml # for torch hub
  14. # 保存文件名:cfg file name = yolov5s.yaml
  15. self.yaml_file = Path(cfg).name
  16. # 如果配置文件中有中文,打开时要加encoding参数
  17. with open(cfg, encoding='ascii', errors='ignore') as f:
  18. # 将yaml文件加载为字典
  19. self.yaml = yaml.safe_load(f) # model dict 取到配置文件中每条的信息(没有注释内容)

__init__函数主要功能为从yaml中初始化model中各种变量包括网络模型model、通道ch,分类数nc,锚框anchor和三层输出缩放倍数stride等。

  • cfg:  YOLO v5模型配置文件 这里使用yolov5s模型
  • ch:   输入图片的通道数 默认为3
  • nc:   数据集的类别个数
  • anchors:   表示anchor框, 一般是None

然后判断输入的cfg是否为字典。一般都不是字典,直接进入else,打开yaml文件,转换成字典格式。


 (2)接着开始搭建模型

  1. # Define model
  2. # 搭建模型
  3. # yaml.get('ch', ch)表示若不存在键'ch',则返回值ch
  4. ch = self.yaml['ch'] = self.yaml.get('ch', ch) # input channels
  5. # 判断类的通道数和yaml中的通道数是否相等,一般不执行,因为nc=self.yaml['nc']恒成立
  6. if nc and nc != self.yaml['nc']:
  7. # 在终端给出提示
  8. LOGGER.info(f"Overriding model.yaml nc={self.yaml['nc']} with nc={nc}")
  9. # 将yaml中的值修改为构造方法中的值
  10. self.yaml['nc'] = nc # override yaml value
  11. # 重写anchor,一般不执行, 因为传进来的anchors一般都是None
  12. if anchors:
  13. # 在终端给出提示
  14. LOGGER.info(f'Overriding model.yaml anchors with anchors={anchors}')
  15. # 将yaml中的值改为构造方法中的值
  16. self.yaml['anchors'] = round(anchors) # override yaml value

转换为字典以后,就可以进行模型搭建了。首先要判断:

  • 判断yaml中是否有设置输入图像的通道ch,如果没有就默认为3。
  • 判断分类总数nc和anchor与yaml中是否一致,如果不一致,则使用init函数参数中指定的nc和anchor。

(3) 读取yaml中的网络结构并实例化

  1. # 解析模型,self.model是解析后的模型 self.save是每一层与之相连的层
  2. self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch]) # deepcopy()复杂产生一个新的对象
  3. # 加载每一类的类别名
  4. self.names = [str(i) for i in range(self.yaml['nc'])] # default names
  5. # inplace指的是原地操作 如x+=1 有利于节约内存
  6. # self.inplace=True 默认True 不使用加速推理
  7. self.inplace = self.yaml.get('inplace', True)

这里是通过parse_model来进行解析和建立模型的。

到这一步为止,我们的yolo模型的网络架构就已经全部搭建完成了。


(4)最后来计算图像从输入到输出的缩放倍数和anchor在head上的大小 

  1. # Build strides, anchors
  2. # 构造步长、先验框
  3. m = self.model[-1] # Detect()
  4. # 判断最后一层是否为Detect层
  5. if isinstance(m, Detect):
  6. # 定义一个256 * 256大小的输入
  7. s = 256 # 2x min stride
  8. m.inplace = self.inplace
  9. # 保存特征层的stride,并且将anchor处理成相对于特征层的格式
  10. m.stride = torch.tensor([s / x.shape[-2] for x in self.forward(torch.zeros(1, ch, s, s))]) # forward
  11. # 原始定义的anchor是原始图片上的像素值,要将其缩放至特征图的大小
  12. m.anchors /= m.stride.view(-1, 1, 1)
  13. # 检查anchor顺序与stride顺序是否一致
  14. check_anchor_order(m)
  15. # 将步长保存至模型
  16. self.stride = m.stride
  17. # 初始化bias
  18. self._initialize_biases() # only run once
  19. # Init weights, biases
  20. # 初始化权重
  21. initialize_weights(self)
  22. # 打印模型信息
  23. self.info()
  24. LOGGER.info('')

主要步骤:

1.获取结构最后一层Detect层

2.定义一个256*256大小的输入

3.将[1, ch, 256, 256]大小的tensor进行一次向前传播,得到3层的输出,用输入大小256分别除以输出大小得到每一层的下采样倍数stride
4.分别用最初的anchor大小除以stride将anchor线性缩放到对应层上


4.2 数据增强相关函数

4.2.1 forward():管理前向传播函数

  1. # ===1.forward():管理前向传播函数=== #
  2. def forward(self, x, augment=False, profile=False, visualize=False):
  3. # 是否在测试时也使用数据增强
  4. if augment:
  5. # 增强训练,对数据采取了一些了操作
  6. return self._forward_augment(x) # augmented inference, None
  7. # 默认执行,正常前向推理
  8. return self._forward_once(x, profile, visualize) # single-scale inference, train

这里做了一个分支,是否在测试时使用数据增强:

  • 如果使用增强训练,则返回推理的forward(_forward_augment)
  • 如果不使用增强训练,则返回训练的forward(_forward_once)

包含参数:

  • x:  原图
  • augment : 是否使用增强式推导
  • profile:  是否测试每个网络层的性能
  • visualize:  是否输出每个网络层的特征图

4.2.2 _forward_augment():推理的forward

  1. # ===2._forward_augment():推理的forward=== #
  2. # 将图片进行裁剪,并分别送入模型进行检测
  3. def _forward_augment(self, x):
  4. # 获得图像的高和宽
  5. img_size = x.shape[-2:] # height, width
  6. # s是规模
  7. s = [1, 0.83, 0.67] # scales
  8. # flip是翻转,这里的参数表示沿着哪个轴翻转
  9. f = [None, 3, None] # flips (2-ud, 3-lr)
  10. y = [] # outputs
  11. for si, fi in zip(s, f):
  12. # scale_img函数的作用就是根据传入的参数缩放和翻转图像
  13. xi = scale_img(x.flip(fi) if fi else x, si, gs=int(self.stride.max()))
  14. # 模型前向传播
  15. yi = self._forward_once(xi)[0] # forward
  16. # cv2.imwrite(f'img_{si}.jpg', 255 * xi[0].cpu().numpy().transpose((1, 2, 0))[:, :, ::-1]) # save
  17. # 恢复数据增强前的模样
  18. yi = self._descale_pred(yi, fi, si, img_size)
  19. y.append(yi)
  20. # 对不同尺寸进行不同程度的筛选
  21. y = self._clip_augmented(y) # clip augmented tails
  22. return torch.cat(y, 1), None # augmented inference, train

这里的代码是在推理的时候做数据增强TTA(Test Time Augmentation,其 x 参数是图像所对应的 tensor。

这个函数只在 val、detect 主函数中使用,用于提高推导的精度。

设分类数为 80 、检测框属性数为 5,则基本步骤是:

  • 对图像进行变换:总共 3 次,分别是 [ 原图 ],[ 尺寸缩小到原来的 0.83,同时水平翻转 ],[ 尺寸缩小到原来的 0.67 ]
  • 对图像使用 _forward_once 函数,得到在 eval 模式下网络模型的推导结果。对原图是 shape 为 [1, 22743, 85] 的图像检测框信息 (见 Detect 对象的 forward 函数)
  • 根据 尺寸缩小倍数、翻转维度 对检测框信息进行逆变换,添加进列表 y
  • 截取 y[0] 对大物体的检测结果,保留 y[1] 所有的检测结果,截取 y[2] 对小物体的检测结果,拼接得到新的检测框信息 

 4.2.3 _forward_once():训练的forward

  1. # ===3._forward_once():训练的forward=== #
  2. def _forward_once(self, x, profile=False, visualize=False):
  3. # 各网络层输出, 各网络层推导耗时
  4. # y: 存放着self.save=True的每一层的输出,因为后面的层结构concat等操作要用到
  5. # dt: 在profile中做性能评估时使用
  6. y, dt = [], [] # outputs
  7. # 遍历model的各个模块
  8. for m in self.model:
  9. # m.f 就是该层的输入来源,如果不为-1那就不是从上一层而来
  10. if m.f != -1: # if not from previous layer
  11. # from 参数指向的网络层输出的列表
  12. x = y[m.f] if isinstance(m.f, int) else [x if j == -1 else y[j] for j in m.f] # from earlier layers
  13. # 测试该网络层的性能
  14. if profile:
  15. self._profile_one_layer(m, x, dt)
  16. # 使用该网络层进行推导, 得到该网络层的输出
  17. x = m(x) # run
  18. # 存放着self.save的每一层的输出,因为后面需要用来作concat等操作要用到 不在self.save层的输出就为None
  19. y.append(x if m.i in self.save else None) # save output
  20. # 将每一层的输出结果保存到y
  21. if visualize:
  22. # 绘制该 batch 中第一张图像的特征图
  23. feature_visualization(x, m.type, m.i, save_dir=visualize)
  24. return x

这个函数是训练的forward,对模型每一层进行迭代

参数为:

  • x:  输入图像
  • profile:  是否测试每个网络层的性能,是则调用 self._profile_one_layer 函数
  • visualize:  是否输出每个网络层的特征图,是则调用 utils.plots.feature_visualization。这个函数是取 batch 中的第一张图像,然后把每个通道上的二维矩阵看成一张灰度图,分别绘制

 4.2.4 _descale_pred():将推理结果恢复到原图尺寸

  1. # ===4._descale_pred():将推理结果恢复到原图尺寸(逆操作)=== #
  2. def _descale_pred(self, p, flips, scale, img_size):
  3. # de-scale predictions following augmented inference (inverse operation)
  4. if self.inplace:
  5. # 把x,y,w,h恢复成原来的大小
  6. p[..., :4] /= scale # de-scale
  7. # bs c h w 当flips=2是对h进行变换,那就是上下进行翻转
  8. if flips == 2:
  9. p[..., 1] = img_size[0] - p[..., 1] # de-flip ud
  10. # 同理flips=3是对水平进行翻转
  11. elif flips == 3:
  12. p[..., 0] = img_size[1] - p[..., 0] # de-flip lr
  13. else:
  14. x, y, wh = p[..., 0:1] / scale, p[..., 1:2] / scale, p[..., 2:4] / scale # de-scale
  15. if flips == 2:
  16. y = img_size[0] - y # de-flip ud
  17. elif flips == 3:
  18. x = img_size[1] - x # de-flip lr
  19. p = torch.cat((x, y, wh, p[..., 4:]), -1)
  20. return p

这段代码主要是用在上面的__init__函数上,将推理结果恢复到原图图片尺寸TTA中用到

参数为: 

  • p:    推理结果
  • flips:   翻转标记(2-ud上下, 3-lr左右)
  • scale:    图片缩放比例
  • img_size:   原图图片尺寸

4.2.5 _clip_augmented():TTA的时候对原图片进行裁剪

  1. # ===5._clip_augmented():TTA的时候对原图片进行裁剪=== #
  2. # 也是一种数据增强方式,用在TTA测试的时候
  3. def _clip_augmented(self, y):
  4. # Clip YOLOv5 augmented inference tails
  5. nl = self.model[-1].nl # number of detection layers (P3-P5)
  6. g = sum(4 ** x for x in range(nl)) # grid points
  7. e = 1 # exclude layer count
  8. i = (y[0].shape[1] // g) * sum(4 ** x for x in range(e)) # indices
  9. y[0] = y[0][:, :-i] # large
  10. i = (y[-1].shape[1] // g) * sum(4 ** (nl - 1 - x) for x in range(e)) # indices
  11. y[-1] = y[-1][:, i:] # small
  12. return y

 4.2.6 _profile_one_layer():打印日志信息

  1. # ===6._profile_one_layer():打印日志信息=== #
  2. def _profile_one_layer(self, m, x, dt):
  3. c = isinstance(m, Detect) # is final layer, copy input as inplace fix
  4. o = thop.profile(m, inputs=(x.copy() if c else x,), verbose=False)[0] / 1E9 * 2 if thop else 0 # FLOPs
  5. t = time_sync()
  6. for _ in range(10):
  7. m(x.copy() if c else x)
  8. dt.append((time_sync() - t) * 100)
  9. if m == self.model[0]:
  10. LOGGER.info(f"{'time (ms)':>10s} {'GFLOPs':>10s} {'params':>10s} {'module'}")
  11. LOGGER.info(f'{dt[-1]:10.2f} {o:10.2f} {m.np:10.0f} {m.type}')
  12. if c:
  13. LOGGER.info(f"{sum(dt):10.2f} {'-':>10s} {'-':>10s} Total")
  • m:  网络层
  • x:   该网络层的 from 列表中的网络层输出
  • dt:  各网络层推导耗时 (列表)
  • time (ms):  前向推导时间
  • GFLOPs:  浮点运算量,需要安装 thop 模块
  • params:   网络层参数量
  • module:  网络层名称

 4.2.7 _initialize_biases():初始化偏置biases信息

  1. # ===7._initialize_biases():初始化偏置biases信息=== #
  2. def _initialize_biases(self, cf=None): # initialize biases into Detect(), cf is class frequency
  3. # https://arxiv.org/abs/1708.02002 section 3.3
  4. # cf = torch.bincount(torch.tensor(np.concatenate(dataset.labels, 0)[:, 0]).long(), minlength=nc) + 1.
  5. m = self.model[-1] # Detect() module
  6. for mi, s in zip(m.m, m.stride): # from
  7. b = mi.bias.view(m.na, -1) # conv.bias(255) to (3,85)
  8. b.data[:, 4] += math.log(8 / (640 / s) ** 2) # obj (8 objects per 640 image)
  9. b.data[:, 5:] += math.log(0.6 / (m.nc - 0.999999)) if cf is None else torch.log(cf / cf.sum()) # cls
  10. mi.bias = torch.nn.Parameter(b.view(-1), requires_grad=True)

4.2.8 _print_biases():打印偏置biases信息

  1. # ===8._print_biases():打印偏置biases信息=== #
  2. def _print_biases(self):
  3. """
  4. 打印模型中最后Detect层的偏置bias信息(也可以任选哪些层bias信息)
  5. """
  6. m = self.model[-1] # Detect() module
  7. for mi in m.m: # from
  8. b = mi.bias.detach().view(m.na, -1).T # conv.bias(255) to (3,85)
  9. LOGGER.info(
  10. ('%6g Conv2d.bias:' + '%10.3g' * 6) % (mi.weight.shape[1], *b[:5].mean(1).tolist(), b[5:].mean()))

4.2.9 fuse():将Conv2d+BN进行融合

  1. # ===9.fuse():将Conv2d+BN进行融合=== #
  2. def fuse(self): # fuse model Conv2d() + BatchNorm2d() layers
  3. LOGGER.info('Fusing layers... ')
  4. for m in self.model.modules():
  5. # 如果当前层是卷积层Conv且有bn结构, 那么就调用fuse_conv_and_bn函数讲conv和bn进行融合, 加速推理
  6. if isinstance(m, (Conv, DWConv)) and hasattr(m, 'bn'):
  7. # 更新卷积层
  8. m.conv = fuse_conv_and_bn(m.conv, m.bn) # update conv
  9. # 移除bn
  10. delattr(m, 'bn') # remove batchnorm
  11. # 更新前向传播
  12. m.forward = m.forward_fuse # update forward
  13. # 打印conv+bn融合后的模型信息
  14. self.info()
  15. return self

4.2.10 autoshape():扩展模型功能

  1. # ===10.autoshape():扩展模型功能=== #
  2. def autoshape(self): # add AutoShape module
  3. LOGGER.info('Adding AutoShape... ')
  4. # 此时模型包含前处理、推理、后处理的模块(预处理 + 推理 + nms)
  5. m = AutoShape(self) # wrap model
  6. copy_attr(m, self, include=('yaml', 'nc', 'hyp', 'names', 'stride'), exclude=()) # copy attributes
  7. return m

4.2.11 info():打印模型结构信息

  1. # ===11.info():打印模型结构信息=== #
  2. def info(self, verbose=False, img_size=640): # print model information
  3. model_info(self, verbose, img_size)

4.2.12 _apply():将模块转移到 CPU/ GPU上

  1. # ===12._apply():将模块转移到 CPU/ GPU上=== #
  2. def _apply(self, fn):
  3. # Apply to(), cpu(), cuda(), half() to model tensors that are not parameters or registered buffers
  4. self = super()._apply(fn)
  5. m = self.model[-1] # Detect()
  6. if isinstance(m, Detect):
  7. m.stride = fn(m.stride)
  8. m.grid = list(map(fn, m.grid))
  9. if isinstance(m.anchor_grid, list):
  10. m.anchor_grid = list(map(fn, m.anchor_grid))
  11. return self

🚀五、yolo.py全部注释

  1. # YOLOv5 🚀 by Ultralytics, GPL-3.0 license
  2. """
  3. YOLO-specific modules
  4. Usage:
  5. $ python path/to/models/yolo.py --cfg yolov5s.yaml
  6. """
  7. '''===============================================一、导入包==================================================='''
  8. '''======================1.导入安装好的python库====================='''
  9. import argparse # 解析命令行参数模块
  10. import sys # sys系统模块 包含了与Python解释器和它的环境有关的函数
  11. from copy import deepcopy # 数据拷贝模块 深拷贝
  12. from pathlib import Path # Path将str转换为Path对象 使字符串路径易于操作的模块
  13. '''===================2.获取当前文件的绝对路径========================'''
  14. FILE = Path(__file__).resolve() # __file__指的是当前文件(即val.py),FILE最终保存着当前文件的绝对路径,比如D://yolov5/modles/yolo.py
  15. ROOT = FILE.parents[1] # YOLOv5 root directory 保存着当前项目的父目录,比如 D://yolov5
  16. if str(ROOT) not in sys.path: # sys.path即当前python环境可以运行的路径,假如当前项目不在该路径中,就无法运行其中的模块,所以就需要加载路径
  17. sys.path.append(str(ROOT)) # add ROOT to PATH 把ROOT添加到运行路径上
  18. # ROOT = ROOT.relative_to(Path.cwd()) # relative ROOT设置为相对路径
  19. '''===================3..加载自定义模块============================'''
  20. from models.common import * # yolov5的网络结构(yolov5)
  21. from models.experimental import * # 导入在线下载模块
  22. from utils.autoanchor import check_anchor_order # 导入检查anchors合法性的函数
  23. from utils.general import LOGGER, check_version, check_yaml, make_divisible, print_args # 定义了一些常用的工具函数
  24. from utils.plots import feature_visualization # 定义了Annotator类,可以在图像上绘制矩形框和标注信息
  25. from utils.torch_utils import (copy_attr, fuse_conv_and_bn, initialize_weights, model_info, scale_img, select_device,
  26. time_sync) # 定义了一些与PyTorch有关的工具函数
  27. # 导入thop包 用于计算FLOPs
  28. try:
  29. import thop # for FLOPs computation
  30. except ImportError:
  31. thop = None
  32. '''===============================================二、Detect模块==================================================='''
  33. '''
  34. Detect模块是用来构建Detect层的,将输入feature map 通过一个卷积操作和公式计算到我们想要的shape, 为后面的计算损失或者NMS后处理作准备
  35. '''
  36. class Detect(nn.Module):
  37. stride = None # 特征图的缩放步长
  38. onnx_dynamic = False # ONNX动态量化
  39. '''===================1.获取预测得到的参数============================'''
  40. def __init__(self, nc=80, anchors=(), ch=(), inplace=True): # detection layer
  41. """
  42. detection layer 相当于yolov3中的YOLOLayer层
  43. :params nc: 数据集类别数量
  44. :params anchors: 传入3个feature map上的所有anchor的大小(P3、P4、P5)
  45. :params ch: [128, 256, 512] 3个输出feature map的channel
  46. """
  47. super().__init__()
  48. # nc: 数据集类别数量
  49. self.nc = nc
  50. # no: 表示每个anchor的输出数,前nc个01字符对应类别,后5个对应:是否有目标,目标框的中心,目标框的宽高
  51. self.no = nc + 5 # nc+5=nc+(x,y,w,h,conf)
  52. # nl: 表示预测层数,yolov5是3层预测
  53. self.nl = len(anchors)
  54. # na: 表示anchors的数量,除以2是因为[10,13, 16,30, 33,23]这个长度是6,对应3个anchor
  55. self.na = len(anchors[0]) // 2
  56. # grid: 表示初始化grid列表大小,下面会计算grid,grid就是每个格子的x,y坐标(整数,比如0-19),左上角为(1,1),右下角为(input.w/stride,input.h/stride)
  57. self.grid = [torch.zeros(1)] * self.nl
  58. # anchor_grid: 表示初始化anchor_grid列表大小,空列表
  59. self.anchor_grid = [torch.zeros(1)] * self.nl # init anchor grid
  60. # 注册常量anchor,并将预选框(尺寸)以数对形式存入,并命名为anchors
  61. self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2)) # shape(nl,na,2) 注意后面就可以通过self.anchors来访问它了
  62. # 每一张进行三次预测,每一个预测结果包含nc+5个值
  63. # (n, 255, 80, 80),(n, 255, 40, 40),(n, 255, 20, 20) --> ch=(255, 255, 255)
  64. # 255 -> (nc+5)*3 ===> 为了提取出预测框的位置信息以及预测框尺寸信息
  65. self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch) # output conv 3个输出层最后的1乘1卷积
  66. # inplace: 一般都是True,默认不使用AWS,Inferentia加速
  67. self.inplace = inplace # use in-place ops (e.g. slice assignment)
  68. # 如果模型不训练那么将会对这些预测得到的参数进一步处理,然后输出,可以方便后期的直接调用
  69. # 包含了三个信息pred_box [x,y,w,h] pred_conf[confidence] pre_cls[cls0,cls1,cls2,...clsn]
  70. '''===================2.向前传播============================'''
  71. def forward(self, x):
  72. z = [] # inference output
  73. # 对三个feature map分别进行处理
  74. # (n, 255, 80, 80),(n, 255, 40, 40),(n, 255, 20, 20)
  75. for i in range(self.nl):
  76. # 下面3行代码的工作:
  77. # (n, 255, _, _) -> (n, 3, nc+5, ny, nx) -> (n, 3, ny, nx, nc+5)
  78. # 相当于三层分别预测了80*80、40*40、20*20次,每一次预测都包含3个框
  79. # 进行1*1卷积,经过这个卷积就变成(5+分类数)个通道了
  80. x[i] = self.m[i](x[i]) # conv
  81. bs, _, ny, nx = x[i].shape # x(bs,255,20,20) to x(bs,3,20,20,85)
  82. # 维度重排列: bs, 先验框组数, 检测框行数, 检测框列数, 属性数 + 分类数
  83. x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous() # contiguous 将数据保证内存中位置连续
  84. '''
  85. 向前传播时需要将相对坐标转换到grid绝对坐标系中
  86. '''
  87. if not self.training: # inference
  88. '''
  89. 生成坐标系
  90. grid[i].shape = [1,1,ny,nx,2]
  91. [[[[1,1],[1,2],...[1,nx]],
  92. [[2,1],[2,2],...[2,nx]],
  93. ...,
  94. [[ny,1],[ny,2],...[ny,nx]]]]
  95. '''
  96. # 换输入后重新设定锚框
  97. if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
  98. # 加载网格点坐标 先验框尺寸
  99. self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)
  100. '''
  101. 按损失函数的回归方式来转换坐标
  102. '''
  103. y = x[i].sigmoid()
  104. # 改变原数据 计算定位参数
  105. if self.inplace:
  106. # grid: 位置基准 或者理解为 cell的预测初始位置,而y[..., 0:2]是作为在grid坐标基础上的位置偏移
  107. y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
  108. # anchor_grid: 预测框基准 或者理解为 预测框的初始位置,而 y[..., 2:4]是作为预测框位置的调整
  109. y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
  110. else: # for YOLOv5 on AWS Inferentia https://github.com/ultralytics/yolov5/pull/2953
  111. # stride: 是一个grid cell的实际尺寸
  112. # 经过sigmoid, 值范围变成了(0-1),下一行代码将值变成范围(-0.5,1.5)
  113. xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
  114. # 范围变成(0-4)倍,设置为4倍的原因是下层的感受野是上层的2倍
  115. # 因下层注重检测大目标,相对比上层而言,计算量更小,4倍是一个折中的选择
  116. wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
  117. y = torch.cat((xy, wh, y[..., 4:]), -1)
  118. # 存储每个特征图检测框的信息
  119. z.append(y.view(bs, -1, self.no))
  120. # 训练阶段直接返回x
  121. # 预测阶段返回3个特征图拼接的结果
  122. return x if self.training else (torch.cat(z, 1), x)
  123. '''===================3.相对坐标转换到grid绝对坐标系============================'''
  124. def _make_grid(self, nx=20, ny=20, i=0):
  125. d = self.anchors[i].device
  126. if check_version(torch.__version__, '1.10.0'): # torch>=1.10.0 meshgrid workaround for torch>=0.7 compatibility
  127. # 网格标尺坐标
  128. # indexing='ij' 表示的是i是同一行,j表示同一列
  129. # indexing='xy' 表示的是x是同一列,y表示同一行
  130. yv, xv = torch.meshgrid([torch.arange(ny).to(d), torch.arange(nx).to(d)], indexing='ij')
  131. else:
  132. yv, xv = torch.meshgrid([torch.arange(ny).to(d), torch.arange(nx).to(d)])
  133. # grid --> (20, 20, 2), 复制成3倍,因为是三个框 -> (3, 20, 20, 2)
  134. grid = torch.stack((xv, yv), 2).expand((1, self.na, ny, nx, 2)).float()
  135. # anchor_grid即每个格子对应的anchor宽高,stride是下采样率,三层分别是8,16,32,这里为啥要乘呢,因为在外面已经把anchors给除了对应的下采样率,这里再乘回来
  136. anchor_grid = (self.anchors[i].clone() * self.stride[i]) \
  137. .view((1, self.na, 1, 1, 2)).expand((1, self.na, ny, nx, 2)).float()
  138. return grid, anchor_grid
  139. '''===============================================三、Model模块==================================================='''
  140. class Model(nn.Module):
  141. '''===================1.__init__函数==========================='''
  142. def __init__(self, cfg='yolov5s.yaml', ch=3, nc=None, anchors=None): # model, input channels, number of classes
  143. """
  144. :params cfg:YOLO v5模型配置文件 这里使用yolov5s模型
  145. :params ch: 输入图片的通道数 默认为3
  146. :params nc: 数据集的类别个数
  147. :anchors: 表示anchor框, 一般是None
  148. """
  149. # 父类的构造方法
  150. super().__init__()
  151. # 检查传入的参数格式,如果cfg是加载好的字典结果
  152. if isinstance(cfg, dict):
  153. # 直接保存到模型中
  154. self.yaml = cfg # model dict
  155. # 若不是字典 则为yaml文件路径
  156. else: # is *.yaml 一般执行这里
  157. # 导入yaml文件
  158. import yaml # for torch hub
  159. # 保存文件名:cfg file name = yolov5s.yaml
  160. self.yaml_file = Path(cfg).name
  161. # 如果配置文件中有中文,打开时要加encoding参数
  162. with open(cfg, encoding='ascii', errors='ignore') as f:
  163. # 将yaml文件加载为字典
  164. self.yaml = yaml.safe_load(f) # model dict 取到配置文件中每条的信息(没有注释内容)
  165. '''===================2.获取输入通道============================'''
  166. # Define model
  167. # 搭建模型
  168. # yaml.get('ch', ch)表示若不存在键'ch',则返回值ch
  169. ch = self.yaml['ch'] = self.yaml.get('ch', ch) # input channels
  170. # 判断类的通道数和yaml中的通道数是否相等,一般不执行,因为nc=self.yaml['nc']恒成立
  171. if nc and nc != self.yaml['nc']:
  172. # 在终端给出提示
  173. LOGGER.info(f"Overriding model.yaml nc={self.yaml['nc']} with nc={nc}")
  174. # 将yaml中的值修改为构造方法中的值
  175. self.yaml['nc'] = nc # override yaml value
  176. # 重写anchor,一般不执行, 因为传进来的anchors一般都是None
  177. if anchors:
  178. # 在终端给出提示
  179. LOGGER.info(f'Overriding model.yaml anchors with anchors={anchors}')
  180. # 将yaml中的值改为构造方法中的值
  181. self.yaml['anchors'] = round(anchors) # override yaml value
  182. # 解析模型,self.model是解析后的模型 self.save是每一层与之相连的层
  183. self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch]) # deepcopy()复杂产生一个新的对象
  184. # 加载每一类的类别名
  185. self.names = [str(i) for i in range(self.yaml['nc'])] # default names
  186. # inplace指的是原地操作 如x+=1 有利于节约内存
  187. # self.inplace=True 默认True 不使用加速推理
  188. self.inplace = self.yaml.get('inplace', True)
  189. '''===================3.获取Detect输出模块============================'''
  190. # Build strides, anchors
  191. # 构造步长、先验框
  192. m = self.model[-1] # Detect()
  193. # 判断最后一层是否为Detect层
  194. if isinstance(m, Detect):
  195. # 定义一个256 * 256大小的输入
  196. s = 256 # 2x min stride
  197. m.inplace = self.inplace
  198. # 保存特征层的stride,并且将anchor处理成相对于特征层的格式
  199. m.stride = torch.tensor([s / x.shape[-2] for x in self.forward(torch.zeros(1, ch, s, s))]) # forward
  200. # 原始定义的anchor是原始图片上的像素值,要将其缩放至特征图的大小
  201. m.anchors /= m.stride.view(-1, 1, 1)
  202. # 检查anchor顺序与stride顺序是否一致
  203. check_anchor_order(m)
  204. # 将步长保存至模型
  205. self.stride = m.stride
  206. # 初始化bias
  207. self._initialize_biases() # only run once
  208. # Init weights, biases
  209. # 初始化权重
  210. initialize_weights(self)
  211. # 打印模型信息
  212. self.info()
  213. LOGGER.info('')
  214. '''===================4.数据增强============================'''
  215. # ===1.forward():管理前向传播函数=== #
  216. def forward(self, x, augment=False, profile=False, visualize=False):
  217. # 是否在测试时也使用数据增强
  218. if augment:
  219. # 增强训练,对数据采取了一些了操作
  220. return self._forward_augment(x) # augmented inference, None
  221. # 默认执行,正常前向推理
  222. return self._forward_once(x, profile, visualize) # single-scale inference, train
  223. # ===2._forward_augment():推理的forward=== #
  224. # 将图片进行裁剪,并分别送入模型进行检测
  225. def _forward_augment(self, x):
  226. # 获得图像的高和宽
  227. img_size = x.shape[-2:] # height, width
  228. # s是规模
  229. s = [1, 0.83, 0.67] # scales
  230. # flip是翻转,这里的参数表示沿着哪个轴翻转
  231. f = [None, 3, None] # flips (2-ud, 3-lr)
  232. y = [] # outputs
  233. for si, fi in zip(s, f):
  234. # scale_img函数的作用就是根据传入的参数缩放和翻转图像
  235. xi = scale_img(x.flip(fi) if fi else x, si, gs=int(self.stride.max()))
  236. # 模型前向传播
  237. yi = self._forward_once(xi)[0] # forward
  238. # cv2.imwrite(f'img_{si}.jpg', 255 * xi[0].cpu().numpy().transpose((1, 2, 0))[:, :, ::-1]) # save
  239. # 恢复数据增强前的模样
  240. yi = self._descale_pred(yi, fi, si, img_size)
  241. y.append(yi)
  242. # 对不同尺寸进行不同程度的筛选
  243. y = self._clip_augmented(y) # clip augmented tails
  244. return torch.cat(y, 1), None # augmented inference, train
  245. # ===3._forward_once():训练的forward=== #
  246. def _forward_once(self, x, profile=False, visualize=False):
  247. """
  248. :params x: 输入图像
  249. :params profile: True 可以做一些性能评估
  250. :params feature_vis: True 可以做一些特征可视化
  251. :return train: 一个tensor list 存放三个元素 [bs, anchor_num, grid_w, grid_h, xywh+c+20classes]
  252. 分别是 [1, 3, 80, 80, 25] [1, 3, 40, 40, 25] [1, 3, 20, 20, 25]
  253. inference: 0 [1, 19200+4800+1200, 25] = [bs, anchor_num*grid_w*grid_h, xywh+c+20classes]
  254. 1 一个tensor list 存放三个元素 [bs, anchor_num, grid_w, grid_h, xywh+c+20classes]
  255. [1, 3, 80, 80, 25] [1, 3, 40, 40, 25] [1, 3, 20, 20, 25]
  256. """
  257. # 各网络层输出, 各网络层推导耗时
  258. # y: 存放着self.save=True的每一层的输出,因为后面的层结构concat等操作要用到
  259. # dt: 在profile中做性能评估时使用
  260. y, dt = [], [] # outputs
  261. # 遍历model的各个模块
  262. for m in self.model:
  263. # m.f 就是该层的输入来源,如果不为-1那就不是从上一层而来
  264. if m.f != -1: # if not from previous layer
  265. # from 参数指向的网络层输出的列表
  266. x = y[m.f] if isinstance(m.f, int) else [x if j == -1 else y[j] for j in m.f] # from earlier layers
  267. # 测试该网络层的性能
  268. if profile:
  269. self._profile_one_layer(m, x, dt)
  270. # 使用该网络层进行推导, 得到该网络层的输出
  271. x = m(x) # run
  272. # 存放着self.save的每一层的输出,因为后面需要用来作concat等操作要用到 不在self.save层的输出就为None
  273. y.append(x if m.i in self.save else None) # save output
  274. # 将每一层的输出结果保存到y
  275. if visualize:
  276. # 绘制该 batch 中第一张图像的特征图
  277. feature_visualization(x, m.type, m.i, save_dir=visualize)
  278. return x
  279. # ===4._descale_pred():将推理结果恢复到原图尺寸(逆操作)=== #
  280. def _descale_pred(self, p, flips, scale, img_size):
  281. # de-scale predictions following augmented inference (inverse operation)
  282. ''' 用在上面的__init__函数上
  283. 将推理结果恢复到原图图片尺寸 Test Time Augmentation(TTA)中用到
  284. :params p: 推理结果
  285. :params flips: 翻转标记(2-ud上下, 3-lr左右)
  286. :params scale: 图片缩放比例
  287. :params img_size: 原图图片尺寸
  288. '''
  289. if self.inplace:
  290. # 把x,y,w,h恢复成原来的大小
  291. p[..., :4] /= scale # de-scale
  292. # bs c h w 当flips=2是对h进行变换,那就是上下进行翻转
  293. if flips == 2:
  294. p[..., 1] = img_size[0] - p[..., 1] # de-flip ud
  295. # 同理flips=3是对水平进行翻转
  296. elif flips == 3:
  297. p[..., 0] = img_size[1] - p[..., 0] # de-flip lr
  298. else:
  299. x, y, wh = p[..., 0:1] / scale, p[..., 1:2] / scale, p[..., 2:4] / scale # de-scale
  300. if flips == 2:
  301. y = img_size[0] - y # de-flip ud
  302. elif flips == 3:
  303. x = img_size[1] - x # de-flip lr
  304. p = torch.cat((x, y, wh, p[..., 4:]), -1)
  305. return p
  306. # ===5._clip_augmented():TTA的时候对原图片进行裁剪=== #
  307. # 也是一种数据增强方式,用在TTA测试的时候
  308. def _clip_augmented(self, y):
  309. # Clip YOLOv5 augmented inference tails
  310. nl = self.model[-1].nl # number of detection layers (P3-P5)
  311. g = sum(4 ** x for x in range(nl)) # grid points
  312. e = 1 # exclude layer count
  313. i = (y[0].shape[1] // g) * sum(4 ** x for x in range(e)) # indices
  314. y[0] = y[0][:, :-i] # large
  315. i = (y[-1].shape[1] // g) * sum(4 ** (nl - 1 - x) for x in range(e)) # indices
  316. y[-1] = y[-1][:, i:] # small
  317. return y
  318. # ===6._profile_one_layer():打印日志信息=== #
  319. def _profile_one_layer(self, m, x, dt):
  320. c = isinstance(m, Detect) # is final layer, copy input as inplace fix
  321. o = thop.profile(m, inputs=(x.copy() if c else x,), verbose=False)[0] / 1E9 * 2 if thop else 0 # FLOPs
  322. t = time_sync()
  323. for _ in range(10):
  324. m(x.copy() if c else x)
  325. dt.append((time_sync() - t) * 100)
  326. if m == self.model[0]:
  327. LOGGER.info(f"{'time (ms)':>10s} {'GFLOPs':>10s} {'params':>10s} {'module'}")
  328. LOGGER.info(f'{dt[-1]:10.2f} {o:10.2f} {m.np:10.0f} {m.type}')
  329. if c:
  330. LOGGER.info(f"{sum(dt):10.2f} {'-':>10s} {'-':>10s} Total")
  331. # ===7._initialize_biases():初始化偏置biases信息=== #
  332. def _initialize_biases(self, cf=None): # initialize biases into Detect(), cf is class frequency
  333. # https://arxiv.org/abs/1708.02002 section 3.3
  334. # cf = torch.bincount(torch.tensor(np.concatenate(dataset.labels, 0)[:, 0]).long(), minlength=nc) + 1.
  335. m = self.model[-1] # Detect() module
  336. for mi, s in zip(m.m, m.stride): # from
  337. b = mi.bias.view(m.na, -1) # conv.bias(255) to (3,85)
  338. b.data[:, 4] += math.log(8 / (640 / s) ** 2) # obj (8 objects per 640 image)
  339. b.data[:, 5:] += math.log(0.6 / (m.nc - 0.999999)) if cf is None else torch.log(cf / cf.sum()) # cls
  340. mi.bias = torch.nn.Parameter(b.view(-1), requires_grad=True)
  341. # ===8._print_biases():打印偏置biases信息=== #
  342. def _print_biases(self):
  343. """
  344. 打印模型中最后Detect层的偏置bias信息(也可以任选哪些层bias信息)
  345. """
  346. m = self.model[-1] # Detect() module
  347. for mi in m.m: # from
  348. b = mi.bias.detach().view(m.na, -1).T # conv.bias(255) to (3,85)
  349. LOGGER.info(
  350. ('%6g Conv2d.bias:' + '%10.3g' * 6) % (mi.weight.shape[1], *b[:5].mean(1).tolist(), b[5:].mean()))
  351. # def _print_weights(self):
  352. # for m in self.model.modules():
  353. # if type(m) is Bottleneck:
  354. # LOGGER.info('%10.3g' % (m.w.detach().sigmoid() * 2)) # shortcut weights
  355. # ===9.fuse():将Conv2d+BN进行融合=== #
  356. def fuse(self): # fuse model Conv2d() + BatchNorm2d() layers
  357. """用在detect.py、val.py
  358. fuse model Conv2d() + BatchNorm2d() layers
  359. 调用oneflow_utils.py中的fuse_conv_and_bn函数和common.py中Conv模块的fuseforward函数
  360. """
  361. LOGGER.info('Fusing layers... ')
  362. for m in self.model.modules():
  363. # 如果当前层是卷积层Conv且有bn结构, 那么就调用fuse_conv_and_bn函数讲conv和bn进行融合, 加速推理
  364. if isinstance(m, (Conv, DWConv)) and hasattr(m, 'bn'):
  365. # 更新卷积层
  366. m.conv = fuse_conv_and_bn(m.conv, m.bn) # update conv
  367. # 移除bn
  368. delattr(m, 'bn') # remove batchnorm
  369. # 更新前向传播
  370. m.forward = m.forward_fuse # update forward
  371. # 打印conv+bn融合后的模型信息
  372. self.info()
  373. return self
  374. # ===10.autoshape():扩展模型功能=== #
  375. def autoshape(self): # add AutoShape module
  376. """
  377. add AutoShape module 直接调用common.py中的AutoShape模块 也是一个扩展模型功能的模块
  378. """
  379. LOGGER.info('Adding AutoShape... ')
  380. # 此时模型包含前处理、推理、后处理的模块(预处理 + 推理 + nms)
  381. m = AutoShape(self) # wrap model
  382. copy_attr(m, self, include=('yaml', 'nc', 'hyp', 'names', 'stride'), exclude=()) # copy attributes
  383. return m
  384. # ===11.info():打印模型结构信息=== #
  385. def info(self, verbose=False, img_size=640): # print model information
  386. """
  387. 用在上面的__init__函数上调用torch_utils.py下model_info函数打印模型信息
  388. """
  389. model_info(self, verbose, img_size)
  390. # ===12._apply():将模块转移到 CPU/ GPU上=== #
  391. def _apply(self, fn):
  392. # Apply to(), cpu(), cuda(), half() to model tensors that are not parameters or registered buffers
  393. self = super()._apply(fn)
  394. m = self.model[-1] # Detect()
  395. if isinstance(m, Detect):
  396. m.stride = fn(m.stride)
  397. m.grid = list(map(fn, m.grid))
  398. if isinstance(m.anchor_grid, list):
  399. m.anchor_grid = list(map(fn, m.anchor_grid))
  400. return self
  401. '''===============================================四、parse_model模块==================================================='''
  402. def parse_model(d, ch): # model_dict, input_channels(3)
  403. '''===================1. 获取对应参数============================'''
  404. # 使用 logging 模块输出列标签
  405. LOGGER.info(f"\n{'':>3}{'from':>18}{'n':>3}{'params':>10} {'module':<40}{'arguments':<30}")
  406. # 获取anchors,nc,depth_multiple,width_multiple,这些参数在介绍yaml时已经介绍过
  407. anchors, nc, gd, gw = d['anchors'], d['nc'], d['depth_multiple'], d['width_multiple']
  408. # na: 每组先验框包含的先验框数
  409. na = (len(anchors[0]) // 2) if isinstance(anchors, list) else anchors # number of anchors
  410. # no: na * 属性数 (5 + 分类数)
  411. no = na * (nc + 5) # number of outputs = anchors * (classes + 5)
  412. '''===================2. 开始搭建网络============================'''
  413. # 网络单元列表, 网络输出引用列表, 当前的输出通道数
  414. layers, save, c2 = [], [], ch[-1] # layers, savelist, ch out
  415. # 读取 backbone, head 中的网络单元
  416. for i, (f, n, m, args) in enumerate(d['backbone'] + d['head']): # from, number, module, args
  417. # 利用 eval 函数, 读取 model 参数对应的类名
  418. m = eval(m) if isinstance(m, str) else m # eval strings
  419. # 使用 eval 函数将字符串转换为变量
  420. for j, a in enumerate(args):
  421. try:
  422. args[j] = eval(a) if isinstance(a, str) else a # eval strings
  423. except NameError:
  424. pass
  425. '''===================3. 更新当前层的参数,计算c2============================'''
  426. # depth gain: 控制深度,如yolov5s: n*0.33,n: 当前模块的次数(间接控制深度)
  427. n = n_ = max(round(n * gd), 1) if n > 1 else n # depth gain
  428. # 当该网络单元的参数含有: 输入通道数, 输出通道数
  429. if m in [Conv, GhostConv, Bottleneck, GhostBottleneck, SPP, SPPF, DWConv, MixConv2d, Focus, CrossConv,
  430. BottleneckCSP, C3, C3TR, C3SPP, C3Ghost]:
  431. # c1: 当前层的输入channel数; c2: 当前层的输出channel数(初定); ch: 记录着所有层的输出channel数
  432. c1, c2 = ch[f], args[0]
  433. # no=75,只有最后一层c2=no,最后一层不用控制宽度,输出channel必须是no
  434. if c2 != no: # if not output
  435. # width gain: 控制宽度,如yolov5s: c2*0.5; c2: 当前层的最终输出channel数(间接控制宽度)
  436. c2 = make_divisible(c2 * gw, 8)
  437. '''===================4.使用当前层的参数搭建当前层============================'''
  438. # 在初始args的基础上更新,加入当前层的输入channel并更新当前层
  439. # [in_channels, out_channels, *args[1:]]
  440. args = [c1, c2, *args[1:]]
  441. # 如果当前层是BottleneckCSP/C3/C3TR/C3Ghost/C3x,则需要在args中加入Bottleneck的个数
  442. # [in_channels, out_channels, Bottleneck个数, Bool(shortcut有无标记)]
  443. if m in [BottleneckCSP, C3, C3TR, C3Ghost]:
  444. # 在第二个位置插入bottleneck个数n
  445. args.insert(2, n) # number of repeats
  446. # 恢复默认值1
  447. n = 1
  448. # 判断是否是归一化模块
  449. elif m is nn.BatchNorm2d:
  450. # BN层只需要返回上一层的输出channel
  451. args = [ch[f]]
  452. # 判断是否是tensor连接模块
  453. elif m is Concat:
  454. # Concat层则将f中所有的输出累加得到这层的输出channel
  455. c2 = sum(ch[x] for x in f)
  456. # 判断是否是detect模块
  457. elif m is Detect:
  458. # 在args中加入三个Detect层的输出channel
  459. args.append([ch[x] for x in f])
  460. if isinstance(args[1], int): # number of anchors 几乎不执行
  461. args[1] = [list(range(args[1] * 2))] * len(f)
  462. elif m is Contract: # 不怎么用
  463. c2 = ch[f] * args[0] ** 2
  464. elif m is Expand: # 不怎么用
  465. c2 = ch[f] // args[0] ** 2
  466. else:
  467. c2 = ch[f] # args不变
  468. '''===================5.打印和保存layers信息============================'''
  469. # m_: 得到当前层的module,将n个模块组合存放到m_里面
  470. m_ = nn.Sequential(*(m(*args) for _ in range(n))) if n > 1 else m(*args) # module
  471. # 打印当前层结构的一些基本信息
  472. t = str(m)[8:-2].replace('__main__.', '') # module type
  473. # 计算这一层的参数量
  474. np = sum(x.numel() for x in m_.parameters()) # number params
  475. m_.i, m_.f, m_.type, m_.np = i, f, t, np # attach index, 'from' index, type, number params
  476. LOGGER.info(f'{i:>3}{str(f):>18}{n_:>3}{np:10.0f} {t:<40}{str(args):<30}') # print
  477. # 把所有层结构中的from不是-1的值记下 [6,4,14,10,17,20,23]
  478. save.extend(x % i for x in ([f] if isinstance(f, int) else f) if x != -1) # append to savelist
  479. # 将当前层结构module加入layers中
  480. layers.append(m_)
  481. if i == 0:
  482. ch = [] # 去除输入channel[3]
  483. # 把当前层的输出channel数加入ch
  484. ch.append(c2)
  485. return nn.Sequential(*layers), sorted(save)
  486. if __name__ == '__main__':
  487. parser = argparse.ArgumentParser() # 创建解析器
  488. # --cfg: 模型配置文件
  489. parser.add_argument('--cfg', type=str, default='yolov5s.yaml', help='model.yaml')
  490. # --device: 选用设备
  491. parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
  492. # --profile: 用户配置文件
  493. parser.add_argument('--profile', action='store_true', help='profile model speed')
  494. # --test: 测试
  495. parser.add_argument('--test', action='store_true', help='test all yolo*.yaml')
  496. opt = parser.parse_args()# 增加后的属性赋值给args
  497. opt.cfg = check_yaml(opt.cfg) # 检查YAML文件
  498. print_args(FILE.stem, opt) # 检测YOLO v5的github仓库是否更新,若已更新,给出提示
  499. device = select_device(opt.device) # 选择设备
  500. # Create model
  501. # 构造模型
  502. model = Model(opt.cfg).to(device)
  503. model.train()
  504. # Profile
  505. #用户自定义配置
  506. if opt.profile:
  507. img = torch.rand(8 if torch.cuda.is_available() else 1, 3, 640, 640).to(device)
  508. y = model(img, profile=True)
  509. # Test all models
  510. # 测试所有的模型
  511. if opt.test:
  512. for cfg in Path(ROOT / 'models').rglob('yolo*.yaml'):
  513. try:
  514. _ = Model(cfg)
  515. except Exception as e:
  516. print(f'Error in {cfg}: {e}')
  517. # Tensorboard (not working https://github.com/ultralytics/yolov5/issues/2898)
  518. # from torch.utils.tensorboard import SummaryWriter
  519. # tb_writer = SummaryWriter('.')
  520. # LOGGER.info("Run 'tensorboard --logdir=models' to view tensorboard at http://localhost:6006/")
  521. # tb_writer.add_graph(torch.jit.trace(model, img, strict=False), []) # add model graph