酷应用

林亦宁：用 AI 创造一个更美好的未来

动态作者：七牛云 2018-05-25 08:32:23

我们这代人正在面对的时代主题是什么？

人工智能的发展又将给世界带来怎样的变化？

NIUDAY 西安站中，七牛云人工智能实验室联合创始人林亦宁分享了他的思考。

01 人类社会的主题

来到西安这座融汇了历史和未来的城市，很容易引起人们对于历史和未来的联想。我们总感觉世界上仍有太多不美好的事情：杀人如麻的战争，流离失所的难民等等。

仔细想来，可能正是从我们这代人开始，人类才真正对事物美好与否有了自己的判断。50 年前，在我们父辈的年代，那时候人类社会的几大主题还是战争、瘟疫和饥饿，最终导向死亡。

图 1

纵观整个历史，真正让人类觉得战争是可控的阶段也不过几十年。当原子弹真正被用于战争中的那一刻起，人们认识到现代的战争，尤其是核战争造成的伤亡将是无法估量的。正因为爆发大规模战争的可能性越来越小，人类渐渐失去了对战争的恐惧。

饥饿也是如此，在人类诞生至今的时间里，骨子里具有挨饿的基因的。由于这种基因的存在，我们需要从不停地进食中获得安全感。同样是 50 年前，世界上还有很多人死于饥荒，而到了现在，每年死于肥胖的人数已经远远超过死于饥饿的人数。饥饿同战争一样也不再是人类最大的敌人。

1918 年西班牙大流感，造成了将近 3000 万人的死亡。而进入 21 世纪，不论是国人印象深刻的非典，还是肆虐非洲的埃博拉，尽管听上去很恐怖，但跟历史上的大规模疾病相比，人类在不到一百年间对于疾病的控制力已经有了长足的提高。到了今天，战争、饥饿和瘟疫已经基本上被我们征服。人类面前的下一个主题，就是如何征服死亡。

图 2

02 创造未来是当代人的使命

我们这代人的使命其实是创造未来，其中的一部分就是征服死亡。现在人工智能成了最火热的话题，就总有一种威胁论声称人类最后会被智能机器人所统治。这种观点的支持者的理由是机器人学习记忆的能力远远超过人类。而随着科技的进步，未来人类可以将大脑与互联网相连，在休息的时候将信息传到网上，需要学习的时候再传回人脑。这样就能记忆无穷无尽的数据，同时不断接受新知识。

人类的 DNA 具有巨大的存储量，据测算，手掌大小的 DNA 就能存储 31 TB 的数据。与此同时，我们还能通过基因改造进一步扩大人类的能力边界。例如融合猎豹的基因来提高运动力，融合金属元素来提高肌体强度等等。人们可以充分利用自然界的能力改造人类的自身，改造人类的未来。而这一切的开始，就是人工智能，创造更美好的未来就是人工智能的使命。

图 3

03 七牛云人工智能产品布局最新展示

七牛云人工智能实验室创立之初就将计算机视觉作为首选。作为国内领先的以视频和图片处理见长的云服务厂商，七牛云具有发展计算机的基因。同时，因为人类 80% 的信息来源是视觉，我们认为视觉是最值得研究的领域。

七牛云 AI Video OS

图 4

图 4 是七牛云人工智能实验室打造了基于 AI 的 Video OS 平台。在这个平台主要支持四类服务：

内容审核。帮助具有大量图片、视频等数据的互联网公司审核内容是否合法，是否适合传播。
城市之眼。帮助政府部门实现智能化城市管理，更快侦破盗窃和各种刑事案件，保障社会治安和国家安全。
媒资智能。运用于海量视频分类、审查、再生产、智能检索以及个性化推荐。实现用户精细化运营。
创新计划。独立的创新定制化体系，满足客户个性需求，帮助各个行业计算机视觉应用落地。

内容审核

七牛云人工智能实验室的内容审核包括鉴黄、鉴暴恐、政治人物识别等类别。其中运用的图象分类，图象检测，人脸识别，人脸检测，敏感物品等技术，就是我们基本能力的体现。我们也把这样的能力提供给互联网客户，帮助客户使自己的运营内容更加合规。

图 5

城市之眼

为了构建更加美好的城市生活，七牛云计算机视觉产品在城市治理方面发挥着重要的作用。

图 6

图 6 展示的是我们与上海市政府合作的上海迪士尼进行人流分布情况统计。通过人流统计图，园方可以看到哪些地方会比较拥挤，并且进行相应的干预措施。

图 7

图 7 展现的人车物实时检测。我们可以非常快速、准确地识别出通过路口的车辆类型、电动车、自行车、行人等。这项功能对于城市中道路违章监控、公共安全管理都能起到很好的效果。

智能媒资

在与广电行业伙伴的合作过程中，我们在智能媒资领域有了丰富的实战经验。

图 8

图 8 是我们与体育行业合作伙伴的尝试。假设视频中 5 秒之后即将出现点球，我们就会触发一个精彩镜头的识别窗口。途中显示的识别曲线如果概率高于预值，就标示当前时间点正在进行点球射门。这个案例体现了我们动作识别的能力。

图 9

在图 9 场景中，我们将整段视频以镜头为单位极快地拆分。然后我们就能从拆分出的镜头中很容易地提取出所需要的视频片段。这个案例体现了七牛云视频分镜的能力。

以上两个案例反应了人工智能视频结构化的基础能力，我们在这个基础之上其实也做了一些媒资结构化的扩充、媒资智能集成的应用，以满足更多的个性化需求。

图 10

图 10 是我们为电视台定制的功能，用于识别媒资库中的人物信息。我们将媒资库中 10 万多个小时的视频素材进行提取，归纳出每个人物在第几秒出现，在第几秒消失。然后将数据与电视台提供的政治敏感人物库进行匹配，就能显示出这段视频中政治敏感人物出现的时间段。

如果识别出了政治敏感人物，我们就会提示该视频不能下载。这样在做每一次审核的时候就不需要把所有视频再重复审核一次。

04 七牛云 AI Video OS 产品架构

前面介绍了我们的产品应用和技术，接下来介绍一下我们的底层的架构如何把这些技术融合起来，提供服务。

图 11

图 11 是整个 Video OS 的层级结构，在最下方的基础模型层，我们有场景、人脸、物体和属性识别，这些模型构成了最基础的能力。在此之上是动态的视频特征层次的提取能力，包括视频帧、光流、时许关系、语音和文字的提取。基础模型层和视频特征层共同组成了要素层面。在要素层面之上，结构化 OS 平台将前两层的要素提取出来，我们在这个之上做动态的视频层次的能力提取，包括我们做光流，提取动作信息。通过语音、文字可以做时序关系上的绑定。

基础模型层和视频特征层属于要素层面。而在要素层面之上，平台层是把这些要素变成知识库来实现知识管理。在最上方的智能应用层，我们提供给客户的服务包括算法能力和人工智能能力，这里面涉及到的就不仅是模型的问题，还有计算的问题。

七牛云智能多媒体 API 平台

图 12

日均能够处理百亿级文件的智能多媒体 API 是我们一直引以为豪的产品，获得了用户的广泛认可。这个平台最大的优势就是弹性伸缩，扩充的时候能够获得很高的分值，而在收缩的时候又能很大幅度地节省计算资源。七牛云智能多媒体 API 的优秀属性使它能够灵活应对各种不同处理的组合，满足用户多样化的产品需求。

七牛云深度学习平台

图 13

在智能多媒体 API 身后的是七牛云深度学习平台。我们通过不停学习，不断迭代，使计算模型快速升级换代，始终保证平台能够比行业中的同类产品更快。在搭建深度学习平台的过程中，我们花了很多的人力，我们将推理的结果和用户行为作为非常重要的反馈，再次输入深度学习平台。

大家知道人工智能有一句话，「有多少人工才能多少智能」，我们必须先将正确的判断结果输入机器，机器才能根据这些结果自行判断。而当机器判断出现偏差时，我们要及时纠正它的判断。因此在我们在设计深度学习平台的时候，非常关注结果反馈以及用户关系的采集，保证平台的高效迭代。

图 14

在深度学习平台的基础技术架构上，有存储以及数据的服务，中间架构用于不同云之间的数据加速。在上层，我们搭建了通过容器的编排系列。我们公司所有的计算都是容器化的，在容器化以后可以更方便做分布式的学习系统，便于我们对于算法工程的学习调用。在迭代的过程中也能实现模块化，提供更高的利用率。

七牛云大数据富媒体知识库

图 15

在智能多媒体 API 平台提供服务，深度学习平台迭代算法之外，我们还搭建了大数据富媒体知识库，用于沉淀所有学习的东西。我们建这个媒体知识库，可以对处理过的视频和图片数据进行结构化。这些数据有可能是在训练过程中已经标注过的，也有可能是推理过程中人工标注的数据。通过建立知识图谱，将我们认为非常重要的知识点存储下来，最后会通过大数据的检索方式，提供数据的检索服务。同时，七牛云大数据富媒体知识库也可以非常快速地进行迭代。