首页 > 其他分享> > YOLOV5源代码学习之build_targets()函数

YOLOV5源代码学习之build_targets()函数

2021-11-07 16:00:25 作者：互联网

build_targets()函数的作用：找出与该gtbox最匹配的先验框（anchor）

下面的代码调试均是将train函数中的batchsize设置为2进行的，且每张数据集图片中只有一个目标

为了更方便直观的理解代码，每一步都输出了变量的值

#这里na为锚框种类数 nt为目标数 这里的na为3，nt为2
na, nt = self.na, targets.shape[0]
# 类别 边界盒 索引 锚框
tcls, tbox, indices, anch = [], [], [], []
# 利用gain来计算目标在某一个特征图上的位置信息，初始化为1
gain = torch.ones(7, device=targets.device)  # normalized to gridspace gain
# 第二个维度复制nt遍
# ai.shape = (na, nt)，锚框的索引，2个目标，3种锚框，所以共6个元素
ai = torch.arange(na, device=targets.device).float().view(na, 1).repeat(1, nt)
# targets.shape = (na, nt, 7)（3，2，7）给每个目标加上锚框索引
targets = torch.cat((targets.repeat(na, 1, 1), ai[:, :, None]), 2)

此处的na=3,nt=2;

gain=tensor([1., 1., 1., 1., 1., 1., 1.], device='cuda:0')

ai=tensor([ [0., 0.],[1., 1.],[2., 2.] ], device='cuda:0')

targets=tensor([ [ [0.00000, 0.00000, 0.55510, 0.47639, 0.33808, 0.09116, 0.00000],
[1.00000, 0.00000, 0.56098, 0.48167, 0.74626, 0.32569, 0.00000]],

[ [0.00000, 0.00000, 0.55510, 0.47639, 0.33808, 0.09116, 1.00000],
[1.00000, 0.00000, 0.56098, 0.48167, 0.74626, 0.32569, 1.00000]],

[ [0.00000, 0.00000, 0.55510, 0.47639, 0.33808, 0.09116, 2.00000],
[1.00000, 0.00000, 0.56098, 0.48167, 0.74626, 0.32569, 2.00000]]])

此处为了更好的看targets的数值，去掉了tensor最后的, device='cuda:0'（下文其他地方也是）

g = 0.5  # bias
# off偏移量
off = torch.tensor([[0, 0],[1, 0], [0, 1], [-1, 0], [0, -1],  # j,k,l,m
                  # [1, 1], [1, -1], [-1, 1], [-1, -1],  # jk,jm,lk,lm
                   ], device=targets.device).float() * g  # offsets

这一步就是定义偏移量和偏置

for i in range(self.nl):#self.nl为预测层也就是检测头的数量，anchor匹配需要逐层进行
    # 获取当前的锚框尺寸
    anchors = self.anchors[i]#anchors中为三个只有长和宽的先验框
    gain[2:6] = torch.tensor(p[i].shape)[[3, 2, 3, 2]]  # xyxy gain
    # 将xywh映射到当前特征图，即乘以对应的特征图尺寸 # Match targets to anchors
    t = targets * gain #targets*gain将归一化的box乘以特征图尺度，将box坐标投影到特征图上

self.nl为预测层也就是检测头的数量，yolov5有三个预测层，即self.nl=3。由于i=0时，进入循环后gxy的值为空（我也不知道是什么原因），变量没有值供代码阅读，因此以下均是i=1时的变量值

anchors的初始值是通过K-means聚类得到的

anchors=tensor([ [1.87500, 3.81250],
[3.87500, 2.81250],
[3.68750, 7.43750]], device='cuda:0')

gain=tensor([ 1., 1., 40., 40., 40., 40., 1.], device='cuda:0')

t=tensor([ [ [ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 0.00000],
[ 1.00000, 0.00000, 22.43921, 19.26677, 29.85052, 13.02770, 0.00000]],

[ [ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 1.00000],
[ 1.00000, 0.00000, 22.43921, 19.26677, 29.85052, 13.02770, 1.00000]],

[ [ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 2.00000],
[ 1.00000, 0.00000, 22.43921, 19.26677, 29.85052, 13.02770, 2.00000]]])

if nt:
    # Matches
    # r为目标wh和锚框wh的比值，比值在0.25到4即采用该种锚框预测目标。
    # 计算标签box和当前层的anchors的宽高比，即:wb/wa,hb/ha。
    r = t[:, :, 4:6] / anchors[:, None]  # wh ratio
    # 将比值和预先设置的比例anchor_t对比，符合条件为True，反之False
    j = torch.max(r, 1. / r).max(2)[0] < self.hyp['anchor_t']  # compare
    # 根据j筛选符合条件的情况
    # j = wh_iou(anchors, t[:, 4:6]) > model.hyp['iou_t']  
    # iou(3,n)=wh_iou(anchors(3,2), gwh(n,2))
    t = t[j]  # filter这一步是什么操作？

进入if循环后，首先求目标框和锚框的宽高比值

r=tensor([ [ [ 7.21241, 0.95643],
[15.92028, 3.41710]],

[ [ 3.48988, 1.29649],
[ 7.70336, 4.63207]],

[ [ 3.66733, 0.49027],
[ 8.09506, 1.75162]]], device='cuda:0')

此处的torch.max(r, 1. / r)是求r和1./r两个三维tensor中相同位置处的最大值。而后面一个.max(2)应该是等同于torch.max(a,dim)函数，参数dim通常是一个常数，也就是要删除一个维度，此处我对 j = torch.max(r, 1. / r).max(2)[0] < self.hyp['anchor_t'] 进行了分割输出

torch.max(r, 1. / r)=tensor([ [ [ 7.2124, 1.0456],
[15.9203, 3.4171]],

[ [ 3.4899, 1.2965],
[ 7.7034, 4.6321]],

[ [ 3.6673, 2.0397],
[ 8.0951, 1.7516]]])

torch.max(r, 1. / r).max(2)=torch.return_types.max(
                                                values=tensor([ [ 7.2124, 15.9203],
                                                                   [ 3.4899, 7.7034],
                                                                   [ 3.6673, 8.0951]]),
                                                indices=tensor([ [0, 0],
                                                                    [0, 0],
                                                                    [0, 0]]))

torch.max(r, 1. / r).max(2)[0]=tensor([ [ 7.2124, 15.9203],
[ 3.4899, 7.7034],
[ 3.6673, 8.0951]])

self.hyp['anchor_t']=4.0 anchor_t的值存于data\hyps\hyp.scratch.yaml文件中

j=tensor([ [False, False],
[ True, False],
[ True, False]], device='cuda:0')

t=t[j]=tensor([ [ 0.0000, 0.0000, 22.2041, 19.0555, 13.5233, 3.6464, 1.0000],
[ 0.0000, 0.0000, 22.2041, 19.0555, 13.5233, 3.6464, 2.0000]],device='cuda:0')

这几行的代码就是先求t中宽高与对应anchor中宽高的比值，有两个真实的目标框，有三个不同的anchor，因此之前(targets.repeat(na, 1, 1)就已经将t中的真实目标框变成了三组，分别与三个不同的anchor做除法，最后t中保留下了比值小于4.0的真实目标框。

# Offsets
# 得到相对于以左上角为坐标原点的坐标
gxy = t[:, 2:4]  # grid xy
# 得到相对于右下角为坐标原点的坐标
gxi = gain[[2, 3]] - gxy  # inverse
#jk和lm是判断gxy的中心点更偏向哪里
j, k = ((gxy % 1. < g) & (gxy > 1.)).T #g的值为0.5
l, m = ((gxi % 1. < g) & (gxi > 1.)).T

gxy=tensor([ [22.20409, 19.05554],
[22.20409, 19.05554]], device='cuda:0')

gxi=tensor([ [17.79591, 20.94446],
[17.79591, 20.94446]], device='cuda:0')

gxy和j、k对应数值的位置关系如图所示，g=0.5

gxy%1<0.5且gxy>1.0均为True，说明gtbox的中心点偏向于相邻上下左右网格中的上网格和左网格

gxy % 1. < g=tensor([ [True, True],
[True, True]], device='cuda:0')

gxy > 1.=tensor([ [True, True],
[True, True]], device='cuda:0')

j=torch.tensor([True,True], device='cuda:0')

k=torch.tensor([True,True], device='cuda:0')

变量l,m值同理。yolov5中，不仅得到了gtbox中心点所在的网格，还会判断gtbox的中心点更靠近于该网格上下左右四个相邻网格中的哪两个。

j = torch.stack((torch.ones_like(j), j, k, l, m))
    # yolov5不仅用目标中心点所在的网格预测该目标，还采用了距目标中心点的最近两个网格
    # 所以有五种情况，网格本身，上下左右，这就是repeat函数第一个参数为5的原因
    t = t.repeat((5, 1, 1))[j]
    # 这里将t复制5个，然后使用j来过滤
    # 第一个t是保留所有的gtbox，因为上一步里面增加了一个全为true的维度，
    # 第二个t保留了靠近方格左边的gtbox，
    # 第三个t保留了靠近方格上方的gtbox，
    # 第四个t保留了靠近方格右边的gtbox，
    # 第五个t保留了靠近方格下边的gtbox，
    offsets = (torch.zeros_like(gxy)[None] + off[:, None])[j]

torch.ones_like(j)=tensor([True, True], device='cuda:0')

j=torch.stack((torch.ones_like(j), j, k, l, m))=tensor([ [ True, True],
[ True, True],
[ True, True],
[False, False],
[False, False]], device='cuda:0')

这里将t中保留的一组真实目标框变成了五组，然后根据j的值保留下了三组，分别对应网格本身，网格相邻的上方网格，网格相邻的左侧网格

t.repeat((5, 1, 1))[j]=

tensor([ [ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 1.00000],
[ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 2.00000],
[ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 1.00000],
[ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 2.00000],
[ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 1.00000],
[ 0.00000, 0.00000, 22.20409, 19.05554, 13.52327, 3.64638, 2.00000]])

torch.zeros_like(gxy)=tensor([ [0., 0.],
[0., 0.]], device='cuda:0')

torch.zeros_like(gxy)[None]=tensor([ [ [0., 0.],
[0., 0.]]], device='cuda:0')

off[:, None]=tensor([ [ [ 0.0000, 0.0000]],

[ [ 0.5000, 0.0000]],

[ [ 0.0000, 0.5000]],

[ [-0.5000, 0.0000]],

[ [ 0.0000, -0.5000]]], device='cuda:0')

torch.zeros_like(gxy)[None] + off[:, None]=tensor([ [ [ 0.0000, 0.0000],
[ 0.0000, 0.0000]],

[ [ 0.5000, 0.0000],
[ 0.5000, 0.0000]],

[ [ 0.0000, 0.5000],
[ 0.0000, 0.5000]],

[ [-0.5000, 0.0000],
[-0.5000, 0.0000]],

[ [ 0.0000, -0.5000],
[ 0.0000, -0.5000]]], device='cuda:0')

offsets=tensor([ [0.0000, 0.0000],
[0.0000, 0.0000],
[0.5000, 0.0000],
[0.5000, 0.0000],
[0.0000, 0.5000],
[0.0000, 0.5000]], device='cuda:0')

else:
    t = targets[0]
    offsets = 0

# Define
b, c = t[:, :2].long().T  # image, class b表示当前bbox属于该batch内第几张图片
gxy = t[:, 2:4]  # grid xy真实目标框的xy坐标
gwh = t[:, 4:6]  # grid wh真实目标框的宽高
gij = (gxy - offsets).long()#.long()为取整
gi, gj = gij.T  # grid xy indices (gi,gj)是我们计算出来的负责预测该gt box的网格的坐标。

b=tensor([0, 0, 0, 0, 0, 0], device='cuda:0')

c=tensor([0, 0, 0, 0, 0, 0], device='cuda:0')

gxy=tensor([ [22.20409, 19.05554],
              [22.20409, 19.05554],
[22.20409, 19.05554],
                [22.20409, 19.05554],
              [22.20409, 19.05554],
              [22.20409, 19.05554]], device='cuda:0')

gwh=tensor([ [13.52327, 3.64638],
[13.52327, 3.64638],
[13.52327, 3.64638],
               [13.52327, 3.64638],
               [13.52327, 3.64638],
               [13.52327, 3.64638]], device='cuda:0')

gij为计算出来的负责预测的网格坐标，真实目标框中心点所在网格及其相邻上方和左侧网格的坐标

gij=tensor([ [22, 19],
[22, 19],
[21, 19],
[21, 19],
[22, 18],
[22, 18]], device='cuda:0')

gi=tensor([22, 22, 21, 21, 22, 22], device='cuda:0')

gj=tensor([19, 19, 19, 19, 18, 18], device='cuda:0')

    a = t[:, 6].long()  # anchor indices a表示当前gt box和当前层的第几个anchor匹配上了
    indices.append((b, a, gj.clamp_(0, gain[3] - 1), gi.clamp_(0, gain[2] - 1))) 
    tbox.append(torch.cat((gxy - gij, gwh), 1))  # gtbox与三个负责预测的网格的坐标偏移量
    #以及gtbox的宽高
    anch.append(anchors[a])  # anchors
    tcls.append(c)  # class

return tcls, tbox, indices, anch

a表示与该位置真实目标框宽的高比小于4.0（self.hyp['anchor_t']）的anchor编号

a=tensor([1, 2, 1, 2, 1, 2], device='cuda:0')

gain[3] - 1=tensor(39., device='cuda:0')

gj.clamp_(0, gain[3] - 1)=tensor([19, 19, 19, 19, 18, 18], device='cuda:0')

gain[2] - 1=tensor(39., device='cuda:0')

gi.clamp_(0, gain[2] - 1)=tensor([22, 22, 21, 21, 22, 22], device='cuda:0')

torch.cat((gxy - gij, gwh), 1)=tensor([ [ 0.2041, 0.0555, 13.5233, 3.6464],
[ 0.2041, 0.0555, 13.5233, 3.6464],
[ 1.2041, 0.0555, 13.5233, 3.6464],
[ 1.2041, 0.0555, 13.5233, 3.6464],
[ 0.2041, 1.0555, 13.5233, 3.6464],
[ 0.2041, 1.0555, 13.5233, 3.6464]], device='cuda:0')

anchors[a]=tensor([ [3.8750, 2.8125],
[3.6875, 7.4375],
[3.8750, 2.8125],
[3.6875, 7.4375],
[3.8750, 2.8125],
[3.6875, 7.4375]], device='cuda:0')

最后返回四个列表：

class（类别）

tbox（gtbox与三个负责预测的网格的xy坐标偏移量，gtbox的宽高）

indices（b表示当前gtbox属于该batch内第几张图片，a表示gtbox与anchors的对应关系，负责预测的网格纵坐标，负责预测的网格横坐标）

anch（最匹配的anchors）

标签：YOLOV5,tensor,torch,0.00000,0.0000,cuda,device,源代码,build
来源： https://blog.csdn.net/Ji_HON/article/details/121181548