目标检测之YOLO V1

阅读：评论：0

目标检测之YOLO V1

目标检测之YOLO V1简单总结

前言
训练
预测
缺点

前言

《You Only Look Once:Unified, Real-Time Object Detection》
论文地址：.02640

作为单阶段的目标检测网路，YOLO的速度比fasterrcnn快得多，目前YOLO已经出到V5，精度也大大提升。学习YOLO还是从V1开始看再看后面就更容易，因此，这里对V1简单的总结一下，也为后面的学习做个铺垫，这里就对整个pipeline进行介绍即可。

训练

1)主干特征提取：

主干网络使用的GoogLeNet，并在此基础上加入了一些新的层，为了提高性能。最后的输出是7x7x30的特征图，分成7x7个cell，每个cell有2个bbox。每一个cell的30维特征分布如下：

说明：

x,y范围0~1,相对于cell，w,h范围0-1，相对于整图。这样中心点就会在自己的cell内，而框就可以覆盖整张图。
confidence：这里的置信度表示的是有目标的概率Pr(Object)乘与gt_bbox的IoU，这是为了后面有用。举个例子：如果cell不在gt_bbox内，那么IoU=0，confidence=0；如果cell全在gt_bbox内，那么confidence=IoU。
class_probability：代表了该cell可能的类别，这里可知V1的缺点，一个cell的bbox也就只能对应一个类别。

2)优化损失函数：

说明：
loss采用的是误差平方和(Sum-squared error)，对于花写的1的解释如下：

1^obj_ij如果检测物体在第i个cel的第j个bbox中，则为1否则为0，1^noobj_ij与之相反。举个例子：假设有3个检测目标，那么会有最接近的3个bbox的1^obj_ij=1，另外7x7-3=95个cell1^obj_ij=0，但1^noobj_ij=1。（注意到这里正负样本不平衡没，所以会用λ_noobj来平衡）因此，对于回归和分类损失，只会去计算与gt_bbox有高IoU的bbox。
w和h开根号，是因为wh变换带来的IoU误差比中心点偏移带来的误差会更大，因此开方。