华中科技大学VLR组原作解读SeqFormer & IDOL:视频实例分割新SOTA

百家 作者:机器之心 2022-09-26 19:36:07

视频实例分割是一个近几年兴起并逐渐引起广泛关注的领域,它要求算法同时完成视频中的物体的检测、分割、分类、以及跟踪。目前主流的视频实例分割算法可以被分为 Online 和 Offline 两种范式,Online 模型通过逐帧分割并添加后处理进行跟踪,将图像实例分割算法扩展到视频实例分割任务上。Offline 模型通过将整段视频输入以同时获得分割和跟踪的结果。这两种范式各有其特色以及特殊的应用场景。

本次分享中,来自华中科技大学、字节跳动、约翰霍普金斯大学的研究者们提出了分别基于 Offline 和 Online 范式的两个视频实例分割 SOTA 模型:SeqFormer 和IDOL,这两篇工作现在都已经被 ECCV2022 接受为 Oral。在此之前,Online 模型的性能远远落后于 Offline 模型,该工作深入分析了此前 Offline 和 Online 模型性能相差巨大的原因,揭示了视频实例分割任务的关键问题,并且补齐了这个差距,让这两种范式回到相同的起跑线上。此外 IDOL 在第四届大规模视频物体分割挑战赛( 4th Large-scale Video Object Segmentation Challenge,CVPR2022)的视频实例分割赛道上取得第一名。

分享主题:离线模型 vs 在线模型 | 视频实例分割 SOTA:SeqFormer & IDOL

分享嘉宾:吴俊峰,华中科技大学 VLR 组博士生,指导老师为白翔教授。研究方向为计算机视觉,包括视频实例分割、目标跟踪等。目前以第一作者身份在计算机视觉顶级会议上发表多篇论文,并取得第四届 YouTube-VIS Challenge 的冠军。

分享摘要:

本次分享将首先回顾视频实例分割任务的两种主流范式与代表方法,比较不同范式的主要差异,并介绍提出的 Offline SOTA 模型。之后会深入分析之前 Offline 和Online 模型性能差距的原因,并介绍如何设计 Online 模型来补齐这个差距。

相关链接:

1、SeqFormer: Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral)

论文地址:

https://arxiv.org/abs/2112.08275

项目地址:

https://github.com/wjf5203/SeqFormer

2、In Defense of Online Models for Video Instance SegmentationECCV, 2022 (Oral)

论文地址:

https://arxiv.org/abs/2207.10661 

项目地址:

https://github.com/wjf5203/VNext

加群看直播
直播间关注机器之心机动组视频号,北京时间 9 月 28 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。


如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「SeqFormer」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接