重磅 | 李飞飞最新演讲:ImageNet后,我专注于这五件事——视觉理解、场景图,段落整合、视频分割及CLEVR数据集
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天。
而就在今天上午,李飞飞、沈向洋、汤道生、马维英等重磅大咖纷纷登台演讲。
据悉,斯坦福大学人工智能实验室和视觉实验室主任李飞飞此前已被邀请两届,今年终于来参会,带来了其实验室的最新研究成果——实时视频描述。李飞飞从5.4亿年前的寒武纪大爆发开始讲起,强调了视觉是智能的基石;而作为微软全球执行副总裁微软五名核心成员之一的沈向洋博士也参加了会议,他也带来了犀利的观点:得语音者得天下。
AI科技大本营第一时间将李飞飞英文演讲及沈向洋的中文演讲整理出来,附PPT截图,希望对你有帮助。
今天,我就想和大家来分享实验室的思考和一些比较新的工作。
由于我在国外生活的时间比较长,我可能说英文比说中文要好一点儿。所以,我就要用英文来做这个演讲,偶尔会插一些中文词。谢谢大家。
今天我的主题演讲主要是关于计算机视觉。
要聊这个话题,首先,让我们先从5.4亿年前说起。
那个时候,地球基本上没有陆地,全是海洋。为数不多的低等的生物就生活在海洋里,当有食物漂过来时,这些生物就赶紧将其吃掉以维持生命。
自那起的1000万年间,动物的种类和数量迎来了大爆发 。生物的种类从少有的几种,迅速增长为几千种之多。这在历史上被称为“寒武纪大爆发”。那么,是什么引起了这场大爆发呢?
几年前,澳大利亚的科学家 Andrew Parker找到了答案。
大约在5.4亿年前,有的动物开始进化出了简陋的眼睛。对于一个个体来说,这没有什么大不了,不就是多了一个小孔,这个小孔能接收光线,仅此而已。但这对于整个地球而言,可就是一件改变整个生命历程的大事。
就因为有眼睛,动物们看得见食物了。他们可以从被动获取食物,变成主动寻找食物。他们学会了隐藏,学会了伺机而动,也学会了快速出击。
于是,动物的存活率大大提升,而大幅提升的存活率又大大促进了生物的进化。可以这么说,正是因为视觉的诞生,才有了寒武纪大爆发。
从那以后,动物们开始进化出各种各样的视觉系统。实际上,视觉已经变成了动物大脑中最为重要的感知神经系统。因为发达的视觉系统,让他们的生命不断延续,种类不断增多。
将目光收回到人类。
视觉让人们看到这个世界,看懂这个世界,让人们有能力不停地交流、合作、互动。
在人类的大脑中,视觉神经系统非常重要。甚至可以这么说,视觉是人类智能的基石。
正因为如此,我对于计算机视觉这项工作才尤为着迷。这可是人工智能的关键环节啊。可是,计算机视觉应该从哪些地方模仿人类的视觉呢?哪些才是能影响到计算机视觉的里程碑式的事件呢?而且人类对目标识别到底有多擅长?
早在60年代和70年代,认知心理学家以及视觉科学家就指出,人类拥有的视觉系统无与伦比。
有一个来自麻省理工大学的著名实验是这样的,我现在要向大家连续播放多帧画面,每帧的显示时间仅100微秒。其中,只有一帧的画面里有人。你们能找出来吗?可以举手示意我一下。
这可不是一个IQ测试,大家尽可以放轻松。
实验的结果是:大多数的人都可以找到这一帧,看出在这一帧中,有个人立在那里。这太让人惊叹了!
实验之前,你不会知道这个人长什么样,是男人还是女人,这个人穿着什么衣服,是什么姿态。但是,你的视觉系统却能在如此短的时间内快速地找到这个信息。
1996年,神经学家Simon J. Thorpe及团队发布了一项研究,通过脑电波来观察人脑对于图像识别的速度。他发现,仅需 100 微秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。对于复杂目标对象的处理能力,构成了人类视觉系统的基础。
这个实验对于计算机视觉的影响巨大。回望20年前,我们能清楚地看到,正是对目标物体的识别的研究促进了整个计算机视觉的大发展。
但是,我今天的主题并不在ImageNet。固然,ImageNet对人工智能有重要的贡献,但是我们必须往前看,看看有什么技术可以超越ImageNet。图像是视觉体验的基本要素。但是,在图像之上,还有一些需要探索的东西。
比如,有两张图片,当我遮挡住其余部分,只留出一两个要素时,你会觉得它们很相似。但是,当你看到整张图片时, 你会发现,它们呈现了两个完全不同的场景。
这说明图像理解非常关键。它超越了ImageNet,和其所代表的图像识别。
当我们给计算机一张图片,我们需要算法通过识别关键对象来定位对象的位置以及预测对象之间的关系,这就是视觉关系预测的任务。
我不会深入这个模型的细节,只是简单地介绍其结果。我们的模型去年发表在ECCV,能够估计特殊关系,对比关系,非对称关系,动词和动作关系,以及位置关系。因此,我们能够估算出场景的丰富关系,不只是简单的感知对象。
相比于目前最先进的技术,我们对基本测试有很好的性能表现。我们不仅能够进行关系预测,实际上还能对未知的关系进行理解(zero-shot understanding)。例如,在我们的训练数据集中,我们能发现坐在椅子上的人或者站在地面上的消防队员。但在测试时,我们有人坐在消防栓上等类似的关系的图片,而实际训练时很难收集大量的训练实例。但我们的模型可以做到对未知东西的学习及理解。这里还有一个例子,马戴帽子,实际上另一个关系人骑马或人戴帽子更为常见。自从我们去年发表在ECCV的工作以来,关系预测的工作已经雨后春笋般发展起来。有些工作的效果已经超过了我们一年前的结果,但我个人很高兴看到社区不再局限于ImageNet提供的内容,而去思考更丰富的场景理解。
给大家展示一下 10 年前我在研究生时期做的一个实验,这个实验是关于人类认知的。我让参与测试的实验对象坐在电脑屏幕的前方,然后让他们看一张闪烁地非常快的图片,然后这张图片很快就会被壁纸遮挡起来,此处的遮挡是为了控制图片在屏幕上停留的时长,停留的时间其实非常短。一小时我给他们 10 美元,然后他们在看过图片之后,需要写出自己所能记得的关于这张图片的所有描述。
可以看到,这里的场景切换非常之快,其中最短的图片展示时间只有 27 毫秒,也就是 1/45 秒,而图片停留的最常时间也只有 500 毫秒,也就是 0.5 秒。让人惊奇的是,我们发现人类能够将图片场景描述的非常详细。只需要 500 毫秒,人类就能够识别出非常多的内容,比如任务、动作、穿着、情绪、事件、社会角色等等。就算只有 40 毫秒,人类也能够对(图片)环境有大致的理解。因此,在视觉系统和描述场景的能力或者语言的能力之间,有一种不寻常的联系。我们的实验室现在正在研究的已经不只是单纯的“感知器”,视觉和语言之间的联系、视觉和推理之间的联系非常非常深,现在的研究还只是开始。
我们最早开始做人类和语言相关的工作可以追溯到 2015 年。
当时,世界上还很少有实验室用和我们一样的想法做图像描述:用 CNN 来表示像素空间,用 RNN 或者 LSTM 来表示序列模型、生成语言。
当时刚刚兴起了第一波算法浪潮,可以根据现有图片自动生成描述的句子。在这个特殊的例子中,穿着橘色马甲的建筑工人正在路上工作,穿着蓝色T恤的人正在弹吉他。这是一个让人印象深刻的例子,但是一个视觉场景并不是短短的一句话能够描述的,而是可以分成不同的组成部分,因此我们接下来就做了“dense captioning”:给定一个场景,我们不仅仅只看这张图片中的整体内容,而是看不同的部分,看感兴趣的区域,然后尝试用语言来描述。
这里有一个例子,这张图片的描述由很多不同的部分组成:一部分是关于人骑在大象上,一部分是关于人坐在长椅上,一部分是关于大象本身的描述,一部分是关于大象身后的森林。比起短短的一句话,这种描述方式,能够提供更多的图片信息。
这是去年发布的,今年,就在几个月以前,我们又往前进了一步,开始生成段落。
当然,你可以说只要先生成句子,然后将句子串联起来就成了段落,但是通过这种方式生成的段落并不能令人满意。我们并不想随意地将句子组合起来,我们必须思考如何将句子组合起来,如何让句子之间的过度更加自然,这些就是这篇论文背后的想法。尽管我们已经可以生成段落,但是结果仍然不能令人满意,但是这种方式可以完整地描述场景内容。
就在几天前,我的学生在威尼斯举行的 ICCV 大会上展示了我们的工作。我们将原来静态图片上的工作延伸到了视频上,在这个领域,如何检索视频是一个问题。目前,大部分关于视频的工作,要么是通过一些关键目标来进行检索,或者对一个事件(如打篮球)进行整体描述。
但是在绝大多数的长视频中,里面发生的事件不只一个。于是我们建立了一个包含 20000 段视频的数据集,并对每个视频进行注释,平均每个视频 3.6 个句子。然后我们提出了一种能够在整段视频中临时查看的算法,它能够自动分割视频中的关键部分,然后用句子描述出来。
对于其完整的模型结构,不过我不打算细讲。这个模型的开始的部分是对视频中的 C3D 特征进行特征编码,剩下的部分则是如何找到关键部分并生成描述。
我们跟其他的方法进行了对比,尽管我们是第一个这样做的,但是和其他的方法相比,我们的方法展现了非常不错的前景。
这种工作才刚刚起步,但是我非常兴奋,因为在计算机视觉领域,人们对视频的研究还不够,而这种将视频和自然语言处理连接起来的能力将会创造非常多的可能和应用领域。
演讲的最后部分仍然是关于视觉理解和自然语言处理的,但是在这个特殊的实例里,我想将语言当作推理的媒介,不仅仅是生成描述,而是去推理视觉主题的组成性质。
让我们回到 40 年前,当时 Terry Winograd 创建了一个早期的 AI,叫作 SHRDLU。SHRDLU 是一个“Block World”。人类提出一个问题:“ the blue pyramid is nice. I like blocks which are not red, but I don’t like many thing which supports a pyramid. Do I like the grey box?”,在这个世界里,人类会问出非常复杂的问题,而算法 SHRDLU 需要生成答案:“ No.( Because it supports the pyramid. )”因此这个过程里面涉及到很多的推理。在那个时候,SHRDLU 还是一个局域规则的系统。如今,我们将这种想法用现代的方法重现,在simulation engine(模拟引擎)中使用现代的图片创造另一个数据集——“CLEVR”。
“CLEVR”是一个拥有无限多对象模块的数据集合,我们可能产生不同类型的问题。我们生成了各种各样的问题:一些问题可能是关于attribute(属性)的,比如“有没有哪些大型物体和金属球的数量相同?”;一些问题跟counting(计算)相关,比如“有多少红色的物体?”;一些问题和comparison(比较)相关;还有一些问题与special relationship(特殊关系)相关,等等。
“CLEVR”是一个非常丰富的数据集,由问答集组成,与场景中内容的含义有关。我们如何看待我们的模型呢?与人进行比较。我们发现仅仅使用venilla,CNN,LSTM作为训练模型,人类仍然比机器好得多。当机器的平均性能小于70%时,人类可以达到93%左右的精度。
所以有一个巨大的差距。我认为我们差距的原因在于我们的模型不能明确推理。我们把相关的研究也发表在刚刚结束的2017ICCV大会上。
大致原理是,模型首先提取问题并通过自然语言训练生成器。然后我们利用这个模型进行推理,最后得出这些答案。总的来看,是训练一个生成器模型。然后,训练模型和其预测的答案。最后,联合查找及模型,可以对最后的QA给出合理的结果。我们的模型比执行基线(baseline)好很多。
例如,这是一个网球场,一个人拿着球牌,在机器表述中还有没有表现出来的要素,这些都是我们技术提升的方向。所以语意空间是连接图像和文字的有效工具,于是我们做了一个深度结构语意的模型DSCM,在这方面又有了巨大的空间提升。
目前深度学习确实在语言智能方面帮助很大,我们现在可以用很多深度学习的方法去完成对语言的深度理解,不仅能够回答问题,还能够提出问题。那么问题来了,怎么去提出问题?读一段书,你要从文本里面找到关键点,然后要围绕这些关键点的话,这就可以生成问题。
谈到现在的关注点,整个过程中,要对对话整体的情绪和情感做一个建模,对用户的画像,也就是用户要有足够的理解。在这上面,综合用户的上下文和AI的上下文,再加上整个用户当前的输入,你就可以预测接下来应该讲什么。但问题还远没有那么简单,当你有这样一个连续对话,长程对话的时候,应该想到必须要有一个引导机制,不然整个聊天会没有方向。
由此展开对机器意境的一个详细的解释。我觉得我们可以建一个模型,可以讲的很清楚AI到底要解决什么样的问题。到现在为止,通过自然输入,语音也好、语言也好、手写也好、键盘也好,机器把这些自然输入做成机器的representation,在做这样一个深度学习,就出现了一些机器意境的结果。
10 月 28 日(本周六),SDCC 2017“人工智能技术实战线上峰会”将在CSDN学院以直播互动的方式举行。
作为SDCC系列技术峰会的一部分,来自阿里巴巴、微软、商汤科技、第四范式、微博、出门问问、菱歌科技的AI专家,将针对机器学习平台、系统架构、对话机器人、芯片、推荐系统、Keras、分布式系统、NLP等热点话题进行分享。
先行者们正在关注哪些关键技术?如何从理论跨越到企业创新实践?你将从本次峰会找到答案。每个演讲时段均设有答疑交流环节,与会者和讲师可零距离互动。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 澳门是伟大祖国的一方宝地 7960388
- 2 80岁顶级富豪再婚娶33岁华裔妻子 7916838
- 3 星巴克大罢工 7800905
- 4 2024 向上的中国 7791401
- 5 赵丽颖带儿子探班 7695057
- 6 男子钓上一条自带“赎金”的鱼 7539717
- 7 美国女子在地铁上被男子点燃身亡 7472752
- 8 柳岩谈44岁女演员的尴尬 7379141
- 9 唐尚珺35岁读大一 7237881
- 10 武警江西省总队原总队长施文求逝世 7183861