首发 | 何恺明团队提出 Focal Loss,目标检测精度高达39.1AP,打破现有记录
2009年,在 IEEE 举办的 CVPR 大会上,还在微软亚研院(MSRA)实习的何恺明的第一篇论文“Single Image Haze Removal Using Dark Channel Prior”艳惊四座,获最佳论文,这是第一次完全由中国人组成的团队获得该奖项。
2016年,何恺明所在团队的另一篇论文“Deep Residual Learning for Image Recognition”再获 CVPR 最佳论文奖。
这篇论文到底有什么重大意义呢?
清华大学孔涛博士在知乎上这么写道:
目标的检测和定位中一个很困难的问题是,如何从数以万计的候选窗口中挑选包含目标物的物体。只有候选窗口足够多,才能保证模型的 Recall。
目前,目标检测框架主要有两种:
一种是 one-stage ,例如 YOLO、SSD 等,这一类方法速度很快,但识别精度没有 two-stage 的高,其中一个很重要的原因是,利用一个分类器很难既把负样本抑制掉,又把目标分类好。
另外一种目标检测框架是 two-stage ,以 Faster RCNN 为代表,这一类方法识别准确度和定位精度都很高,但存在着计算效率低,资源占用大的问题。
Focal Loss 从优化函数的角度上来解决这个问题,实验结果非常 solid,很赞的工作。
也就是说,one-stage 检测器更快更简单,但是准确度不高。two-stage 检测器准确度高,但太费资源。
因为,他在训练过程中发现,类别失衡是影响 one-stage 检测器准确度的主要原因。那么,如果能将“类别失衡”这个因素解决掉,one-stage 不就能达到比较高的识别精度了吗?
于是在研究中,何凯明团队采用 Focal Loss 函数来消除“类别失衡”这个主要障碍。
结果怎样呢?
为了评估该损失的有效性,该团队设计并训练了一个简单的密集目标检测器—RetinaNet。试验结果证明,当使用 Focal Loss 训练时,RetinaNet 不仅能赶上 one-stage 检测器的检测速度,而且还在准确度上超越了当前所有最先进的 two-stage 检测器。
具体怎么实现呢?以下是该论文简介,Enjoy!详细信息,请查阅原文链接。
我们发现,在训练密集目标检测器的过程中出现的严重的 foreground-background 类别失衡,是造成这种现象的主要成因。我们解决这种类别失衡(class imbalance)的方案是,重塑标准交叉熵损失,使其减少分类清晰的样本的损失的权重。Focal Loss 将训练集中在一个稀疏的困难样本集上,并防止大量简单负样本在训练的过程中淹没检测器。为了评估该损失的有效性,我们设计并训练了一个简单的密集目标检测器—RetinaNet。试验结果证明,当使用 Focal Loss训练时,RetinaNet 不仅能赶上 one-stage 检测器的检测速度,而且还在准确度上超越了当前所有最先进的 two-stage 检测器。
试验证明,Focal Loss 函数可以使我们训练出准确度很高的 one-stage 检测器,并且在性能上超越使用抽样启发法或困难样本挖掘法等以往优秀方法训练出的 one-stage 检测器。最后,我们发现 Focal Loss 函数的确切形式并不重要,并且证明了其他实例(instantiations)也可以实现类似的结果。
首先,我们介绍下二进制分类(binary classification)的交叉熵(CE)损失开:
公式1中,y∈{±1} 指定了 ground-truth class,p∈[0,1] 是模型对于标签为 y = 1 的类的估计概率。为了方便起见,我们定义 pt 为:
公式2可以转写称:
解决 class imbalance 的常见方法是分别为 class 1 和 class -1 引入加权因子 α∈[0; 1]、1-α。 α-balanced 的CE损耗可写为:
更正式地,我们建议为交叉熵损失增加一个调节因子(1 - pt)γ,其中 γ≥0。于是 Focal Loss 可定义为:
以下是我们在实践中使用的 Focal Loss:
RetinaNet 是由一个骨干网络和两个特定任务子网组成的单一网络。骨感网络负责在整个输入图像上计算卷积特征图,并且是一个现成的我卷积网络。 第一个子网在骨干网络的输出上执行卷积对象分类;第二个子网执行卷积边界框回归。如下图所示。
图4:收敛模型的不同 γ 值的正、负样本的归一化损失的累积分布函数。 改变 γ 对于正样本的损失分布的影响很小。 然而,对于负样本来说,大幅增加 γ 会将损失集中在困难的样本上,而不是容易的负样本上。
图5: 作为 xt = yx 的函数,Focal Loss 变体与交叉熵相比较。原来的 FL(Focal Loss)和替代变体 FL* 都减少了较好分类样本的相对损失(xt> 0)。
论文地址
https://arxiv.org/abs/1708.02002
关注福利
关注AI科技大本营,进入公众号,回复对应关键词打包下载学习资料;回复“入群”,加入AI科技大本营学习群,和优秀的人一起成长!
回复:CCAI,下载 CCAI 2017嘉宾演讲干货(PPT)
回复:路径,128篇论文告诉你深度学习Paper阅读路径
回复:法则,《机器学习的四十三条经验法则》帮你踩坑
回复:美团,美团干货分享《深度学习在美团外卖的应用》、《NLP在美团点评的应用》
回复:沙龙,关于程序员转型AI这件事,三位老炮从产业、人才和实操跟你聊了这么些干货(PPT)
回复:对抗,李宏毅老师教你学生成对抗(视频教程+PPT)
回复:AI报告,麦肯锡、波士顿、埃森哲等知名咨询公司专业解读AI行业
回复:银行,下载银行和证券公司的AI报告
回复:人才, 2017 领英《全球AI领域人才报告》告诉你AI人才的价值
回复:发展,下载2017 全球人工智能发展报告
回复:设计,帮你了解《人工智能与设计的未来》
回复:1986,重温李开复老师经典论文:1986年《评价函数学习的一种模式分类方法》和1990年《The Development of a World Class Othello Program》
回复:中美,腾讯研究院为你解读《中美两国人工智能产业发展全面解读》
人类感知外界信息,80%以上通过视觉得到。2015年,微软在ImageNet大赛中,算法识别率首次超越人类,视觉由此成为人工智能最为活跃的领域。为此,AI100特邀哈尔滨工业大学副教授、视觉技术研究室负责人屈老师,为大家介绍计算机视觉原理及实战。扫描上图二维码或加微信csdn02,了解更多课程信息。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平寄语澳门 7902562
- 2 美军为什么会击落自己的战机? 7942304
- 3 张雨绮 为了讨大家喜欢才穿成这样 7887015
- 4 我国工业经济平稳向好 7791243
- 5 三战是否已经开始?普京回应 7657545
- 6 春熙路不能随便开直播了 7506688
- 7 前夫给前妻转账 无复婚可能诉请返还 7469140
- 8 湖南卫视声明 7305200
- 9 老人花2万买保健床垫后再不愿去医院 7244639
- 10 金世佳一切为了二胎 7124609