酷应用

AI 也能做体育解说员？上海交通大学 CVPR 论文提出细粒度视频描述模型

百家作者：DeepTech深科技 2018-06-20 08:41:21

今年的夏天是令人兴奋的季节。NBA 的余热还未散去便迎来了又一体育盛事——世界杯。陪伴我们观看一场场精彩比赛的，除了赛场上拼命的运动员，手里的炸鸡与啤酒，还有一个特殊的角色——体育解说员。

精彩的解说可以激发观众的兴趣，带动观战者的情绪，为整个比赛加分。那么能否让机器承担这一任务，成为体育赛事的解说员呢？上海交通大学的相关研究真的让人工智能拿起了话筒。他们在体育赛事视频上进行了的视频细粒度（Fine-grained Video Captioning for Sports Narrative）描述的研究，建立了新的数据集，提出了新的测评机制和模型。目前，这一工作已经被 CVPR2018 收录。

图 | CVPR大会（图源：CVPR）

CVPR （IEEE Conference on Computer Vision and Pattern Recognition，国际计算机视觉与模式识别会议）是由 IEEE 举办的计算机视觉和模式识别领域的顶级会议。会议今年于 6 月 18 日到 22 日在美国犹他州的盐湖城举行。今年，CVPR 共收到论文 3300 余篇，接收 979 篇

近年来，尽管视频描述领域的新方法和模型层出不穷，针对视频自动生成细粒度的描述仍是个难题，例如对于不同个体的动作和他们之间频繁互动的详尽的描述。运动视频是细粒度视频描述非常好的应用领域，尤其是像篮球、足球这样的团队运动。

图 | 传统视频描述任务和细粒度视频描述任务。细粒度的视频描述结果包含更多细节和互动关系。

传统的视频描述任务只能从宏观视角对视频内容进行描述，例如“视频中一群人在踢足球”。而细粒度的视频描述包含更多对个体动作和他们之间互动的描述。例如“一名男子将球传递给队友，队友将球传过后卫并扣篮得分”。

在诸如篮球、足球比赛视频这样包含多个互动个体的视频中，细粒度视频描述的本质是将视频中多个时空事件映射到多个相互关联的句子上。这项任务面临两个挑战。第一，团队中有大量关系复杂的主体（前锋，后卫）以及迅速变化的攻守态势和位置。要精确地定位每个个体的位置并确定他们的角色和作用是十分困难的。第二，一些重要动作和个体之间的互动可能是十分细微的，传统粗粒度的检测无法发现这些动作。这就需要对人体的宏观运动、骨骼运动以及个体间的互动精准建模。

为了解决这些问题，研究者建立了按层级分组的循环结构模型，实现对时空中实体的定位和动作与互动行为的细粒度建模。这个网络结构由三部分组成：

时空实体定位与角色挖掘子网络：确定运动员的位置和角色。
细粒度的动作建模子网络：描述快速运动的骨骼和变换的位置。
一组关系建模子网络：对运动员之间的关系建模。

最后，模型利用两个 LSTM 网络将上述三个子网络的特征融合在一起，生成特征向量。再利用一个双向的编码解码器基于该特征向量生成自然语言的描述。

图 | 模型结构图

研究者针对这一问题建立了新的数据集 FSN（Fine-grained Sports Narrative dataset ，细粒度体育解说数据集），这是一个群体运动视频描述数据集。他们首先从 YouTube 上收集了 50 个高清的 NBA 比赛视频，将其分为 6000 个片段。接下来去掉其中太短的和质量不佳的，选择出 2000 个包含多样的细致动作的片段建立数据集。视频根据篮球解说的方式进行了标注。标注包含两个部分，描述和每个描述开始及结束的时间。描述部分由多个句子组成，每个句子针对一个主体的一个动作，对应视频中一个小片段，这些小片段彼此重叠。关注各个主体细致的动作是该数据集与之前数据集的显著差别。最终，数据集包含 2000 个视频片段，6520 个句子。平均每个视频片段 3.16 个句子，29.7 个描述性词语。

图 | 数据集中句子密度、动词密度的比较。FSN 最动作的描述更细致

由于现有的评价方式在这一问题上并不适用，研究者又提出了新的评价指标FCE（Fine-grained Captioning Evaluation 细粒度描述评估）。该评价方式不仅考虑到语言描述的质量，同时也考虑到关键动作以及它们的顺序是否被正确判定。

研究者首先在 FSN 数据集上对模型生成细粒度描述的能力进行了评估。研究者不仅在不同的数据集上将新模型与已有的取得良好效果的模型进行了比较，也将新模型的不同模块去除来探究它们的效果。为了让实验结果更有说服力，人类的评估也被引入其中作为参考。

图 | 实验结果：各模型在 CIDEr-D (C), METEOR (M), Bleu (B), Rouge-L (R), SPICE(S) 和 FCE (F) 上的分数。蓝色数据表示与 FCE 数据集与 METEOR 数据集上结果的相对变化，大幅减小也表明了细粒度描述的难度。

由实验结果可见，LSTM-YT 模型效果最差，因为其模型结构使其丢失很多重要的信息。与参与实验的模型相比，新模型可以生成更为详尽的描述，在各个任务上均取得了最佳的结果。

图 | 体育解说结果样例：Reference：参考解说；Full Model：完整的新模型

Without OF：不使用光流（识别细微动作的关键） Without TF：不使用团队标志（区分队员和对手）

从上图的样例可以看出，模型生成的描述已经比较准确了。然而，想成为一名优秀的解说员，仅仅能够精准地描述各个动作是不够的。它还需要丰富的相关知识来补充细节，为看客指点迷津（上图第四个例子中，模型描述出了进球得分的动作，却没有描述出这是一个三分球）。它也需要风趣幽默、富有特色的语言，带动观众的情绪。这都是优秀的人类解说员具备的特质。

但人类解说员也有一个明显的缺陷，他只能关照某一层面的观众，对于资深球迷、刚刚入门的小白等不同人群的需求难以兼顾。如果机器可以承担解说的任务，则可以根据每个人的特点和需求进行个性化解说。我们可以期待，未来有一天，人工智能可以作为专属解说员为我们量身定制解说词，陪伴我们一起看球。

-End-

编辑：维尼

校审：戴青

参考：

http://openaccess.thecvf.com/content_cvpr_2018/papers/Yu_Fine-Grained_Video_Captioning_CVPR_2018_paper.pdf