首页 > 其他分享> > 18.深度学习之计算机视觉-2

18.深度学习之计算机视觉-2

2021-04-09 12:02:00 作者：互联网

18.1 什么是目标检测

目标检测的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置
计算机视觉中关于图像识别有四大类任务：

18.1.1 目标检测要解决的核心问题

除了图像分类之外，目标检测要解决的核心问题是：
- 目标可能出现在图像的任何位置。
- 目标有各种不同的大小。
- 目标可能有各种不同的形状。

18.1.2 目标检测和边界框

在图像分类任务里，假设图像里只有一个主体目标，并关注如何识别该目标的类别。
目标检测在多个领域中被广泛使用。例如：
- 在无人驾驶里，需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。
- 机器人也常通过该任务来检测感兴趣的目标。
- 安防领域则需要检测异常目标，如歹徒或者炸弹。

18.2 边界框

在目标检测里，通常使用边界框（bounding box）来描述目标位置。
- 边界框是一个矩形框，可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。

18.3 锚框

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框（ground-truth bounding box）
方法：
- 它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）

18.3.1 生成多个锚框

假设输入图像高为h，宽为w。
分别以图像的每个像素为中心生成不同形状的锚框。
设大小为
- 且宽高比为r> 0，那么锚框的宽和高将分别为
- 当中心位置给定时，已知宽和高的锚框是确定的。
下面分别设定好一组大小
如果以每个像素为中心时使用所有的大小与宽高比的组合，输入图像将一共得到whnm个锚框。
- 虽然这些锚框可能覆盖了所有的真实边界框，但计算复杂度容易过高。
- 因此，通常只对包含S1 or r1的大小与宽高比的组合感兴趣，即
也就是说，以相同像素为中心的锚框的数量为n+m-1
- 对于整个输入图像，将一共生成wh(n+m-1)个锚框。

大数据视频推荐：
CSDN
大数据语音推荐：
企业级大数据技术应用
 大数据机器学习案例之推荐系统
 自然语言处理
 大数据基础
 人工智能：深度学习入门到精通

标签：边界,18,锚框,图像,检测,目标,深度,视觉,宽高比
来源： https://blog.csdn.net/m0_47454596/article/details/115543766