其他分享
首页 > 其他分享> > YOLO系列

YOLO系列

作者:互联网

仅供个人记录学习

yolo总结

RCNN二阶段算法,需要先用算法在图片上生成样本候选框,然后再对这些框进行分类

yolo一阶段算法,不需要生成候选框,直接在样本上计算出框的坐标与大小,单次检测可得出结果。

yolov1 是anchor free,之后都是anchor base 

YOLOV1

 rcnn系列通过二阶段方法,先生成候选框,再进行分类和边框回归。yolov1则直接在图片上简单划分区域,直接回归区域内边框大小,置信度,类别。

结构

input :448*448*3

中间层则是一系列的卷积池化,最后是全连接层。

output:7*7*30

首先v1网络将输入图片划分为7*7的区域,每个区域输出30维向量。

每个区域内最多检测出两个边框,即30维:2个边框信息(cx,cy,w,h,conf)*2,20个类别概率。类别概率为条件概率,p(a|obj)该位置存在obj且为a的概率,conf为p(obj)*iou

YOLOV2

yolov1是anchor free的方法,v2则引入了anchor机制。

bn层

在batch上,归一化输出,均值为0,方差为1的数据分布,同时为了减少对原始数据分布状态的的破坏,引入缩放和偏移因子。

不同分辨率训练

使用224尺度训练特征提取网络,再使用488尺度fine tune网络

anchor机制

使用k-means聚类训练样本中的框大小,聚类距离指标使用1-iou值,最终选取5个anchor。

使用416作为输入,32倍下采样后,获得13*13的特征图。

约束预测框中心偏移

预测边界框的中心点相对于左上角的偏移,使用sigmoid函数,约束到0-1中(每个cell看做1,13*13个cell)

多尺度训练

每10个iteration随机选取一种输入图片大小训练,因为是全卷积网络,所以可以改变图片大小。

passthrough

处理下采样到13*13后,小目标特征消失的问题。

YOLOV3

使用darknet-53残差网络作为主干网络,多尺度的特征进行预测,

darknet-53

拥有53层卷积层,以及多次残差连接,最后舍弃fc使用gap(全局平均池化)

多尺度特征融合检测

下采样过程中,三种特征图大小13*13,26*26,52*52,在最后13*13进行预测后,使用转置卷积上采样,到另外两种大小,并使用特征图融合concate预测。

9种尺度的anchor

 9种尺度,分为三类,分别在3种大小的特征图上进行预测。

13*13特征图,感受野最大,适合检测大物体,采用最大的3种框,26*26检测中物体,52*52感受野最小,检测小物体,采用最小的三种框。

YOLOV5

 整个网络分为输入端、主干特征提取网络、Neck和预测端。

数据增强

采用mosaic数据增强,将多张照片随机裁剪、拼接,提升对小目标册检测效果。

 自适应的anchor大小计算

之前版本的anchor通过聚类得出,但是在整体数据集上聚类,v5版本在每次训练时计算最佳anchor

Focus结构

 下采样,提升速度,与map无关

CSP网络结构

cross stage partial networ,跨阶段局部网络

 大量梯度信息被重复用来更新dense block的权重,可以反复学习相同的梯度信息。

 FPN和PAN

608的输入,最后获得19、38、76的三种大小特征图通过FPN将高层语义信息传递到底层,PAN将底层位置信息传递到高层。

 

标签:采样,13,系列,特征,尺度,YOLO,网络,anchor
来源: https://blog.csdn.net/doerymy/article/details/119297374