酷应用

LSVC知道吗？最顶级的多媒体会议，获奖的是中国团队！

看点作者：七牛云 2017-10-11 09:49:35

ImageNet 竞赛落幕，视频分析成为新热点

素有国际「计算机视觉奥林匹克」之称的 ImageNet 挑战赛今年已是最后一期，这标志着静态图片的分类、物体检测等任务日趋成熟。但是在视频内容分析领域仍存在巨大挑战，也是当前学术界的研究热点。ACM Multimedia 作为多媒体领域的顶级学术会议，旗下大规模视频分类挑战赛（LSVC）意在考察大规模未分割视频的算法识别能力。

LSVC使用的数据集是在复旦-哥伦比亚视频数据集（FCVID）基础上扩充而来，它包含来自 YouTube 和 Flicker 的超过 8000 小时的视频，标注为 500 种分类。包括社交事件、动作、物体、场景等多种类型。最终测试集为78,000 多个视频。近日，ACM Multimedia 大规模视频分类挑战赛（LSVC 2017）结果揭晓，来自中国的团队——由七牛云人工智能实验室 AtLab 与中科院上海高等研究院视觉数据智能分析实验室组成的联合战队荣获亚军。

万亿级数据处理系统支撑+算法优化

针对本次挑战赛任务的复杂情况，团队为海量视频数据设计的流式数据处理系统（Elastic Streaming Sequential Data Processing System）及七牛云存储系统提供了重要支撑。ESSP 系统基于微服务搭建，充分考虑了视频分析处理中空间和时序特征的存取需求，系统支持任务自动调度，多节点机器学习组件自动并行；主节点和工作节点均采用 Kubernetes 进行容器管理，可以灵活地进行服务部署、维护及扩展。

算法层面，团队采用了多种模态信息对视频内容进行描述，包括视频帧特征、光流特征、音频特征等，并采用了包含 Squeeze-and-Excitation 结构的 NetVLAD、DBoF 等网络对多种特征进行聚合。团队还研究了一种紧凑高效的视频帧特征表示方法，利用该方法可以减小模型规模、并极大地提升模型训练速度。团队最终取得了 87.05% 的准确率，以 0.36% 之差位居亚军，比第三名参赛队高出近 2 个百分点。

传说中的联合战队

AtLab 和中科院上海高等研究院视觉数据智能分析实验室组建的联合战队在视频、检测等学术领域建立了长期研究合作关系，优势互补，此次首战视频竞赛即取得不错的成果。中科院上海高等研究院视觉数据智能分析实验室着力于视觉大数据智能分析技术的研究和应用，如海量视频分析、字符检测识别、场景理解等基础计算机视觉问题，为视觉智能应用提供技术支撑。 AtLab 成立仅一年的时间，但团队核心成员都在人工智能领域积累了多年经验，AtLab 发起人彭垚在富媒体海量数据分析与机器学习领域有超过 10 年的产品研发经验，曾担任 IBM 系统与科技实验室研发架构和管理工作多年，已在美国、法国发表数篇专业领域发明专利。此次获奖，是对 AtLab 学术应用能力的检验。彭垚表示：七牛云从存储起家，经历多年的积累，存储的图片总量超过 2000 亿张，视频长度超过 10 亿小时。对拥有这些数据的客户来说，他们的图像视频内涵到底是什么非常重要：首先他们需要去审核这些内容是否健康、合法。更重要的是，他们希望通过这些用户上传的数据内容做一些深度的分析，这对用户画像的构建，增加平台对用户的粘性有非常大的价值。七牛的理念就是缩短想法到产品的距离，所以我们成立人工智能实验室 AtLab，在底层构建了弹性深度学习平台 AVA 来满足巨大的计算需求。在应用层提供多个计算机视觉 API ，帮助企业把人工智能与具体的业务结合，让计算机视觉在广电、传媒、安防、金融等行业落地。在不久的将来，我们会把平台能力开放出去，提供一套完整的数据集和模型生产工具链。