Facebook AI发布DETR一种基于Transformer的对象检测方法!

百家 作者:数据分析 2020-07-23 08:52:10

作者:PRATEEK JOSHI  翻译:陈之炎  校对:王晓颖


本文约1800字,建议阅读8分钟。

每隔一段时间,一些新的机器学习的框架或者库就会改变整个领域的格局。今天,Facebook开源了-DETR框架,即 DEtection TRansformer。

每隔一段时间,一些新的机器学习的框架或者库就会改变整个领域的格局。今天,Facebook开源了-DETR框架,即 DEtection TRansformer。
 


在本文中,我们将快速理解对象检测的概念,然后深入研究DETR,以及它给相关领域带来的改变。

目标检测初探


在计算机视觉领域,对象检测任务是通过模型来区分前景对象和背景,并对图像中对象的位置和类别进行预测。目前的深度学习方法试图将目标检测任务作为分类问题或回归问题来处理,或两者兼而有之。

例如,在RCNN算法中,从输入图像中识别出几个感兴趣的区域,然后这些区域被归类为对象或者背景,最终使用一个回归模型生成已经识别的对象的边界框。

另一方面,YOLO框架(意为“只需要看一次”)以一种不同的方式处理对象检测。它将整个图像作为一个单个的实体,并预测这些边界框的坐标和类概率。

要了解更多关于对象检测的信息,请参阅这些文章:

对象检测算法基础分步介绍:
https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach
使用大众YOLO框架进行对象检测的实用指南:
https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach


Facebook AI介绍Detection Transformer(DETR)


正如上一节所述,当前的深度学习算法以多步骤的方式执行对象检测,但是这种方法面临着近重复的问题,即假阳性。为了简化,FacebookAI的研究人员提出了DETR,一种创新且高效的方法来解决对象检测问题。

论文原文链接:
https://arxiv.org/pdf/2005.12872.pdf
开源代码链接:
https://github.com/facebookresearch/detr
Colab笔记本:
https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb
 

来源:https://arxiv.org/pdf/2005.12872.pdf

这个新模型非常简单,无需安装任何库就可以使用它。DETR利用基于Transformers的编解码器结构将目标检测问题转化为直接的集合预测问题,此处集合指的是边界框的集合。Transformers是一种在NLP领域表现突出的新型深度学习模型。

本文的作者在最为流行的对象检测数据集COCO上测评了DETR,并将非常有竞争力的Faster R-CNN模型作为基准进行比对。

结果,DETR取得了不错的性能。更准确地说,DETR在大型对象检测上表现出明显更好的性能,然而,它在小对象检测上的表现却差强人意。相信研究人员很快就会解决这个问题。

DETR的体系结构

整个DETR体系结构实际上非常容易理解。它包含三个主要组成部分:

  • 一个CNN骨干网络;

  • 编码器-解码器transformer;

  • 一个简单的前馈网络。


来源:https://arxiv.org/pdf/2005.12872.pdf
 
CNN骨干网络生成输入图像的特征映射,然后将CNN骨干网络的输出转换成一维特征映射,作为输入传递给编码器transformer。该编码器的输出是N个固定长度嵌入(向量),其中N是模型假定的图像中的对象数。

Transformer解码器借助自编解码注意机制将这些嵌入解码到坐标系中。

最后,前馈神经网络预测边界框的归一化中心坐标、高度和宽度,线性层使用Softmax函数预测类标签。

最后的想法


对于所有深度学习和计算机视觉爱好者来说,这是一个非常令人兴奋的框架。非常感谢Facebook与社区分享其方法。

是时候准备好将DETR技术用到下一个深度学习项目中去了!

原文标题:

Facebook AI Launches DEtection TRansformer (DETR) – A Transformer based Object Detection Approach!

原文链接:

https://www.analyticsvidhya.com/blog/2020/05/facebook-detection-transformer-detr-a-transformer-based-object-detection-approach/

译者简介:陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。

「完」

转自:数据派THU 公众号;
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

更多相关知识请回复:“ 月光宝盒 ”;
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接