18.深度学习之计算机视觉-2
作者:互联网
18.1 什么是目标检测
- 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置
- 计算机视觉中关于图像识别有四大类任务:
18.1.1 目标检测要解决的核心问题
- 除了图像分类之外,目标检测要解决的核心问题是:
- 目标可能出现在图像的任何位置。
- 目标有各种不同的大小。
- 目标可能有各种不同的形状。
18.1.2 目标检测和边界框
- 在图像分类任务里,假设图像里只有一个主体目标,并关注如何识别该目标的类别。
- 目标检测在多个领域中被广泛使用。例如:
- 在无人驾驶里,需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。
- 机器人也常通过该任务来检测感兴趣的目标。
- 安防领域则需要检测异常目标,如歹徒或者炸弹。
18.2 边界框
- 在目标检测里,通常使用边界框(bounding box)来描述目标位置。
- 边界框是一个矩形框,可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。
- 边界框是一个矩形框,可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。
18.3 锚框
- 目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)
- 方法:
- 它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)
- 它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)
18.3.1 生成多个锚框
-
假设输入图像高为h,宽为w。
-
分别以图像的每个像素为中心生成不同形状的锚框。
-
设大小为
-
且宽高比为r> 0,那么锚框的宽和高将分别为
-
当中心位置给定时,已知宽和高的锚框是确定的。
-
-
下面分别设定好一组大小
-
如果以每个像素为中心时使用所有的大小与宽高比的组合,输入图像将一共得到whnm个锚框。
- 虽然这些锚框可能覆盖了所有的真实边界框,但计算复杂度容易过高。
- 因此,通常只对包含S1 or r1的大小与宽高比的组合感兴趣,即
-
也就是说,以相同像素为中心的锚框的数量为n+m-1
- 对于整个输入图像,将一共生成wh(n+m-1)个锚框。
大数据视频推荐:
CSDN
大数据语音推荐:
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通
标签:边界,18,锚框,图像,检测,目标,深度,视觉,宽高比 来源: https://blog.csdn.net/m0_47454596/article/details/115543766