ECCV 2018 | 中山大学&商汤提出部分分组网络PGN,解决实例级人体解析难题
选自arXiv
作者:Ke Gong等
机器之心编译
参与:Pedro、雪
近日,中山大学和商汤的研究人员在 arXiv 上发表论文,提出一种新型网络——部分分组网络(PGN),该网络将实例级人体解析重新定义为两个可以通过统一网络共同学习和相互完善的孪生子任务:1)将每个像素指定为人类部分(如面部、手臂)的语义部分分割;2)实例感知边缘检测,将语义部分划分给不同的人物实例。该研究还提出了一个用于实例级人体解析的新型大规模数据集 CHIP,PGN 在现有的 PASCAL-Person-Part 和新的 CIHP 数据集上的性能均达到了当前最佳。
识别每个语义部分(如手臂、腿等)是人体解析中最基本、最重要的一部分。不仅如此,它还在许多高级应用领域中发挥了重要的作用,例如视频监控 [38]、人类行为分析 [10,22] 等。
在全卷积网络(FCN)[29] 的推动下,人们使用深度学习技术提取特征 [37,14],标注了大量的数据集 [24,11],并推进了图模型上的推理 [45,3],这些使得人体解析(语义部分分割)的研究在近期取得了巨大进展。然而,以前的方法只关注简化、有限场景下的单人解析任务(例如人体呈直立姿势的时尚图片 [41,8,18,23,6] 以及各种日常图像 [11]),而现实生活中的场景往往是单个图像中出现多个人类实例。这类单人解析任务极大阻碍了人体分析在其他更具挑战性的场景(例如:群体行为预测)中的应用。
本文试图解决更具挑战性的实例级人体解析任务,它不仅需要对各个身体部位或衣服进行分割,还需要将每个部分与一个人类实例相关联,如图 1 所示。除了单人解析任务也存在的困难(例如:各种外观/视点、自遮挡问题)之外,实例级人体解析还要面临一些更具挑战性的任务——不同图像中的人物实例数量差距巨大,而传统的单人解析流程无法处理这种问题:传统方法的预测空间有限,只能对固定数量的人体部分标签进行分类。
图 1:大规模「多实例级人体解析(Crowd Instance-level Human Parsing,CIHP)」数据集,该数据集包含 38280 个经过精心标注的多人图像,它们内容各异且具备很高的复杂度。图像原图显示在第一行。语义部分分割的标注与实例级人体解析分别在第二和第三行。
近期的研究 [16] 延续了「检测-解析」(parsing-by-detection)的流程 [12,21,7,31,13],该流程先定位实例边界框,再对每个边界框进行细粒度语义解析。然而,这种用于检测和分割的复杂流程是通过若干独立的目标和阶段来训练的,这可能导致粗定位和像素级部分分割的结果不一致。例如,分割模型可能会因为检测模型的缘故错误地在检测到的边界框外预测语义部分区域,因为它们的中间表征被拖向了不同的方向。
本研究从一个全新的角度重构实例级人体解析方法,即利用一个统一网络对两个连续的分割部分进行分组,包括部分级像素分组(part-level pixel-grouping)和实例级部分分组(instance-level part-grouping)。首先,部分级像素分组可以借助以单个像素为一个部分标签的语义部分分割任务得到解决,这个方法学习了类别特征。之后,给定一组独立的语义部分,实例级部分分组可以根据预测的实例感知边缘(instance-aware edge)确定所有部分到底属于哪个实例,其中由实例边缘分隔的部分将被分给不同的人物实例。这种联合优化语义部分分割和实例感知边缘检测的无检测统一网络被称为部分分组网络(Part Grouping Network,PGN),如图 4 所示。
图 4:部分分组网络(PGN)图示。给定输入图像,使用 ResNet-101 提取共享特征图。然后添加两个分支以捕捉部分区域和人体边界区域,同时生成部分分数图和边缘分数图。最后,执行细化分支(refinement branch),通过整合部分分割和人体边界区域来细化预测的分割图和边缘图。
此外,与其他 proposal-free 方法 [25,15,22] 通过几个独立的网络将实例对象分割任务分解为多个子任务并采用复杂的后处理不同的是,PGN 借助统一网络无缝地集成了部分分割和边缘检测模块,它首先学习共享表征,然后添加两个并行分支,分别处理语义部分分割和实例感知边缘检测。由于两个模块通过共享一致的分组目标而保持了相互之间的高度相关性,PGN 得以进一步整合了一个细化分支,利用互补的语境信息使两个目标相互受益。通过无缝地补救每个目标的误差,这种集成的细化方案能够很好地处理那些具有挑战性的案例。如图 2 所示,我们可能无法通过分割分支定位小孩,但是可以通过边缘分支成功检测到他的位置,或者使用细化算法来校正实例边界被错误标注的背景边缘。给定语义部分分割和实例边缘检测,一个有效的切割推断(cutting inference)可以通过联合扫描分割与边缘图对线段进行广度优先搜索,并利用这个结果生成实例级的人体解析结果。
图 2:PGN 中的细化方案可以完美地修正复杂图像的部分和边缘误差。第一行中,分割分支无法定位小型对象(如左侧角落处的人和右下角处的手),但是边缘分支能够成功检测到它们。第二行中,背景边缘被错误标注。但是,PGN 中的细化分支纠正了这些错误。
此外,在本文的工作填补这一空白之前,没有可用于实例级人体解析研究的大规模数据集。本文引入了一个新的大型数据集 Crowd Instance-level Human Parsing(CIHP),包括 38280 个多人图像与实例级的 19 个语义部分的像素级标注。数据集经过精心标注,重点关注室外多人场景的语义理解,如图 1 所示。除此之外,本文还提出了一个公共服务器基准,用于自动反馈评估结果,以便进行公平对比。
本文的贡献:1)研究了更具挑战性的实例级人体解析,拓宽了人类解析的研究边界,使相关研究更好地应用到现实场景中。2)提出了一种新的部分分组网络(PGN),通过将其重新组合为两个可以相互完善的孪生分组任务(语义部分分割和实例边缘检测),在统一网络中解决多人人体解析问题。3)为实例级人体解析构建了一个新的大规模基准,并提供了详细的数据集分析。4)PGN 超越了以前的语义部分分割和边缘检测任务的方法,且在现有的 PASCAL-Person-Part [6] 和新的 CIHP 数据集上的表现均达到了当前最佳。
论文:Instance-level Human Parsing via Part Grouping Network
论文链接:https://arxiv.org/abs/1808.00157
摘要:由于缺乏足够的数据资源,以及仅通过单次扫描解析多个实例的技术难度,现实人体分析场景中的实例级人体解析仍未得到充分研究。几个相关的研究都遵循「检测-解析」的流程,该流程严重依赖单独训练的检测模型来定位实例,然后顺序地为每个实例执行人体解析。尽管如此,检测和解析的不同优化目标导致次优表征学习和最终结果中的误差累积。本研究首次尝试使用无检测的部分分组网络(PGN),以便只通过一次扫描就能有效地解析单个图像中的多个人类实例。PGN 将实例级人体解析重新定义为两个可以通过统一网络共同学习和相互完善的孪生子任务:1)将每个像素指定为人类部分(如面部、手臂)的语义部分分割;2)实例感知边缘检测,将语义部分划分给不同的人物实例。因此,共享中间表征不仅可以表征细粒度部分,还能推断每个部分属于哪个实例。最后,我们使用简单的实例划分就能获得最终结果。实验在 PASCAL-Person-Part 数据集上进行,PGN 优于所有之前的方法。此外,本文还展示了其在新收集的多人解析数据集 CIHP 上的优势,该数据集包含 38280 个不同图像,是迄今为止最大的数据集,帮助推动人体解析的进一步研究发展。
CIHP 基准以及源代码地址:http://sysu-hcp.net/lip/
图 5:使用本文方法处理实例级人体解析任务的流程图。首先由 PGN 处理,同时扫描部分分割图和边缘图以创建水平和垂直分割线。就像连通图问题一样,广度优先搜索可用于将线段分组成区域。此外,实例边界附近的小区域被合并到它们的邻近区域,包括更大的面积和多个部分标签。结合实例图和部分分割图,该流程最终输出预测准确的实例级人体分析结果,无需来自目标检测的任何 proposal。
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 老百姓的事情是最重要的事情 7923251
- 2 多省否认花一万亿推平黄土高原 7901168
- 3 央视蛇年春晚分会场确定 7859782
- 4 数说2024中国经济脉动 7709393
- 5 13.2万瓶“特供酒”销毁 7633694
- 6 中国籍两兄弟在日本偷走3200颗包菜 7518615
- 7 近9000亿美元!拜登签了 7452377
- 8 网红羊毛月被禁止关注 7345840
- 9 充绒量仅3克 波司登客服回应 7229017
- 10 景区回应李现在虎跳峡举国旗 7135825