其他分享
首页 > 其他分享> > 2020-12-8 吴恩达-卷积神经网络-w3 目标检测(课后作业)

2020-12-8 吴恩达-卷积神经网络-w3 目标检测(课后作业)

作者:互联网

问题1
在这里插入图片描述

你打算要构建一个能够识别三个对象并定位位置的算法。这些对象是:行人(c=1),汽车(c=2),摩托车(c=3)。下图中的标签哪个是正确的?注:y=[ p c p_c pc​, b x b_x bx​, b y b_y by​, b h b_h bh​, b w b_w bw​, c 1 c_1 c1​, c 2 c_2 c2​, c 3 c_3 c3​]

图像中是汽车,所以排除最下面2个。
根据图像中汽车位置,显然中心点坐标 b x b_x bx​不可能是0.7。
第三个, b y + b h b_y+b_h by​+bh​大于1,也排除。

课程链接

========================================================
问题2
在这里插入图片描述

继续上一个问题,上图中y的值是多少?注:“?”是指“不关心这个值”,这意味着神经网络的损失函数不会关心神经网络输出的结果。和上面一样,y=[ p c p_c pc​, b x b_x bx​, b y b_y by​, b h b_h bh​, b w b_w bw​, c 1 c_1 c1​, c 2 c_2 c2​, c 3 c_3 c3​]。

图中对象不存在,那 p c p_c pc​就是0。 y的其它参数将变得毫无意义,所以都用“?”。

课程链接

========================================================
问题3
在这里插入图片描述

你正在进行工厂自动化工作。你的系统会看到一罐饮料从传送带上下来,你想系统对其进行拍照,然后

饮料罐头是圆的,而包装盒是方的,每一罐饮料的大小是一样的。每个图像中最多只有一罐饮料。上面有一些典型的训练集图像:

你的神经网络最合适的输出单元是什么?

罐头高度和长度是确定的,没有必要再输出了。

========================================================
问题4
在这里插入图片描述

如果你想要构建一个能够输入人脸图片输出为N个标记的神经网络(假设图像只包含一张脸),那么你的神经网络有多少个输出单元?

1个特征2个坐标,所以总共2N个

课程链接

========================================================
问题5
在这里插入图片描述

当你训练一个课程中描述的目标检测系统时,你需要一个包含了检测对象的许多图片的训练集。然而边界框不需要在训练集中提供,因为算法可以自己学习检测对象,这个说法对吗?

========================================================
问题6
在这里插入图片描述

假如你正在应用一个滑动窗口分类器(非卷积实现),增加步伐不仅会提高准确性,也会降低成本。

这是卷积的滑动窗口实现的优点。

课程链接

========================================================
问题7
在这里插入图片描述

在YOLO算法训练时候,只有一个包含对象的中心/中点的一个单元负责检测这个对象。

========================================================
问题8
在这里插入图片描述

这两个框中IoU大小是多少?左上角的框是2x2大小,右下角的框是2x3大小,重叠部分是1x1。

两个边界框交集和并集之比。
交集:1x1=1
并集:2x2+2x3-1x1=9

课程链接

========================================================
问题9
在这里插入图片描述

假如你在上图中的预测框中使用非最大值抑制NMS。其参数是放弃概率≤ 0.4的框,并决定两个框IoU的阈值为0.5,使用非最大值抑制后会保留多少个预测框?

小于0.4的淘汰,那个car 0.26被淘汰。
IoU阈值为0.5,那么car 0.62被淘汰。

课程链接

========================================================
问题10
在这里插入图片描述

假设你使用YOLO算法,在19x19网格中检测20个分类,使用5个锚框(anchor box)。在训练的过程中,对于每个图像你需要输出卷积后的结果y作为神经网络目标值(这是最后一层),y可能包括一些“?”或者“不关心的值”。请问最后的输出维度是多少?

19x19x(锚框数量x( 5个参数 p c p_c pc​​, b x b_x bx​​, b y b_y by​​​, b h b_h bh​​​, b w b_w bw​+20个分类​​))

课程链接

标签:吴恩达,12,正确,0.5,0.3,bh,神经网络,课后,bx
来源: https://blog.csdn.net/weixin_42555985/article/details/110849845