关心AI的人们都关注了此号☝☝☝
于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了。
记者:鸽子
在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了。
就这个啦!在苹果iPhoneX的带领下,一种新的娱乐方式来了...
它生动而霸道地诠释了什么才是真正的表!情!包!
我的表情我做主,吼吼...
这就是iPhone X在基于Face ID的新功能下,推出的Animoji。
当你对着摄像头抬眉头、皱眉毛、动下巴、睁眼睛、闭眼睛、张嘴唇、咧嘴笑时,手机就会捕捉你的表情,并将其赋予可爱的卡通形象,实时生成一个属于自己的表情包。
如果说今天我们的重点是聊苹果,那也太low了,发布会过去了这么久,太对不起媒体的实效性。
今天,我们想说的是,有一家神秘的中国公司,早在2年前,就在手机上推出了同样的功能,并且越做越深。而更为神奇的是,在完全没有深度摄像头,甚至没有双目摄像头的情况下,它做到了同样的效果。这引起了AI科技大本营的注意。
这家低调的公司名叫appMagics——迈吉客科技。
早在2016年,该公司就完成了千万级人民币的A轮融资,投资方为极客帮及紫辉创投。在2016年9月获得蓝港互动战略投资后,它又在2017年6月完成了由华盖资本领投,博将紫辉跟投的数千万人民币A+轮融资。
在看过苹果发布会关于表情包的展示后,AI科技大本营记者也第一时间联系并试用了appMagics的产品。
总体的感觉是:体验很流畅,表情的贴合度较高,模拟很真实也很细腻。不过,当人突然将距离拉远,且快速剧烈摇摆时,表情识别偶尔会出现捕捉掉线的情况。
<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.962962962962963" data-w="848" data-src="http://v.qq.com/iframe/player.html?vid=x0551bx5zra&width=370&height=208.125&auto=0" width="370" height="208.125" data-vh="208.125" data-vw="370" style="display: none; width: 370px !important; height: 208.125px !important;"></iframe>
这之后,AI科技大本营记者对appMagics CTO金宇林进行了独家专访,问题略微犀利,回复拒绝套路。希望搞清楚,创业两年多的appMagics,与苹果最新的黑科技,到底有何可圈可点之处。采访内容在不披露被采公司核心技术机密的情况下,尽量保持原样,部分言辞稍作不改变原意的修改。
AI科技大本营:简单了解一下您的技术背景。
金宇林:最早我是在北京航空航天大学读计算机图形学硕士,之后去了斯坦福继续读计算几何学,这算是计算机图形学的一个分支。毕业了一直留在美国微软总部,算是微软研究院3D打印项目的创始人之一,也申请过挺多专利。算起来,我做计算机图形学,已经15年了。
AI科技大本营:我们直击重点,表情识别这个玩法,背后的技术原理是什么?
金宇林:我尽量说得通俗一点。
原理大致分为三个步骤,第一步是人脸关键点识别与跟踪,第二步是表情分析和映射,第三步是三维模型的控制。
具体来讲,人脸关键点识别和实时跟踪,就是根据脸部标注的关键点,比如,哪里是眉毛、哪里是眼睛、哪里是嘴等,让摄像头清楚看懂人的面部。
表情分析则是说,根据识别和跟踪到的面部关键信息比如眉毛、眼睛、嘴等进行的运动,预测用户是闭眼还是说话,开心还是悲伤。
而三维模型的控制则是用面部关键信息,来驱动构建好的虚拟形象,去学习和模拟用户的表情。
总的来说,前两部分属于计算机视觉的研究范围,第三部分属于计算机图形学的研究领域。
AI科技大本营:到底appMagics所做的表情识别与苹果刚发布的iPhoneX,差别在哪?
金宇林:刚刚我提到了表情动画的原理分为三个步骤,我们跟苹果的差别主要是在前两步上,也就是第一步人脸关键点识别与跟踪,和第二步表情分析和映射。
简单来说,苹果是在3D系统(RGBD摄像头)的基础上做,而我们是在2D系统(RGB摄像头)上,所依赖的软硬件系统不同。(小编注:为了便于理解,以下RGB摄像头统称2D系统,RGBD摄像头统称3D系统)
那2D与3D系统在效果上有什么差别呢?
对于眼睛、眉毛、鼻子、嘴巴这些人脸中分界比较明显,特征比较明显的地方来说,只要训练的面部数据足够多,2D跟3D系统在捕捉上几乎没有差别。
但对于面部特征不太明显的额头、脸颊等,2D系统的捕捉就不如3D系统精准了。2D不太容易识别出这些部位的点,但3D由于多了一个纵深信息(z轴),它是可以识别到额头、脸颊这些点的。
拿苹果所采用的深度摄像系统来说,这是一个3D结构光传感系统。也就是说,这个系统除了有日常2D系统(普通前置RGB摄像头)捕捉的平面视觉信息外,还有纵深的视觉信息,也就是Z轴。
这个Z轴纵深的数据信息主要来自Dot Projector(点阵投影仪),通过它将结构红外光投射到人脸上,再用红外摄像头接收这些投射在人脸上的形变,计算面部每个点的深度数据。
这样,每个点不仅有了平面的坐标,而且有了Z轴深度坐标,对每个图像信息点的定位更为精准。
至于第三步,我们跟苹果没有差别。在三维模型控制和最终呈现效果上,我们从一开始的定位就是三维混合现实。
AI科技大本营:那我是不是可以说,苹果iPhoneX无论在精准度上,还是性能上,都更占优势?
金宇林:就客观条件来说,由于iPhoneX在RGBD摄像头的硬件基础下,识别的关键点更多,所以确实能精准捕捉到更多细节。
另外,由于苹果可以完全支配自己的软硬件系统,因此iPhoneX在性能上,一定更稳定。别说是表情,在很多方面,苹果手机由于软硬件一体化,性能也是大大优于其他手机的。这是客观硬件配置所决定的,没办法。
不过要说到苹果的优势,其实并不完全是这样。这里有两点需要说明一下。
第一,对于表情的捕捉,并非越精准就一定越好。因为人的感官并非完全是写实的。
怎么理解?我举个例子。当你闭上双眼的时候,其实并不是同时闭上的,可你自己以为是同时闭的,所以,当你看到表情捕捉到一只眼总是闭得慢一些时,会产生不适感。
再比如,当你闭一只眼时,另一只眼其实会眯上一点,但人并不自知。所以,当你看到表情捕捉呈现出最真实的效果时,反而不舒服,因为这跟你的潜意识不符。
所以,当我们把表情捕捉用于泛娱乐场景时,它更重要的目标是让虚拟形象能够传达人类的情感。所以,我们会用算法做一些处理,让你在真实和虚拟中达到一种视觉平衡。这种情况,确实并非越写实越好。
做VR和AR的人,可能对这一点的理解更深。
第二,在某些必须达到的真实度上,即使硬件并不具备,我们用算法也是能弥补的,而且效果绝不差。
我们两年来,一直埋头所做的一件事情就是,通过不断优化的算法,让表情模拟在普通手机上也能玩起来,而且传达人类的情感。
啥意思?
简单来说就是,原本普通RGB摄像头不容易捕捉的部分,我们靠算法来弥补。
比如,当我咧嘴的时候,我们会通过算法,来预测和模拟脸部肌肉的隆起;在皱眉的时候,也通过算法,来模仿额头的变化。我们在2D摄像头系统之上模拟了三维数据,在客观硬件基础不具备的情况下,也能将表情动画玩起来,而且看不出来太大的差别。
也就是说,通过算法,尽量降低玩表情动画的硬件要求和硬件成本。目前我们在iphone6上就能玩起来,安卓机也能玩。
AI科技大本营:这算技术上的核心竞争力吗?
金宇林:可以这么说。
其实,要说表情识别,好莱坞很多年前就在电影特效中用上了。
比如阿凡达和魔兽世界里面的表情就是用三维重构来实现的。具体的原理是,通过在演员的脸上贴图,形成一定的点阵(与苹果点阵投影仪的原理一致),脸部的特征就出来了。这样,当你的面部表情变化时,脸上的点随之而动,摄像头将其精准捕捉,就可以放在三维模型上用了。
但好莱坞的硬件多贵啊,普通人想玩这个怎么办呢?所以我们就基于普通手机的RGB摄像头,重新设计算法,在没有深度信息的情况下用算法来弥补,把这些功能实现了。
把影视CG技术消费化,把影视动漫玩的东西搬到每个人的口袋里,iPhonen能用,安卓手机能用,普通PC能用,Mac也能用,跨平台,这算是核心竞争力。
说白了,是把工业级能力和技术转化为民用级,让人想玩就玩,不用考虑太多硬件的配置。
AI科技大本营:如果说多年积累的核心竞争力在于,在2D系统(RGB摄像头)用算法来做3D系统(RGBD摄像头)才能做的事。那当3D摄像头普及,还有优势吗?
金宇林:就像我刚刚提到的,在表情识别上, 我们的核心算法分为三部分,获取现实中的关键信息确实基于普适的2D摄像头系统,不过我们从一开始就采用的3D数据模拟和控制,如果有一天所有手机都能直接获取三维数据,那么这一步我们的算法是不用做任何更换的,直接复用,所以这部分积累的优势仍然在。
但正如你所说,如果3D摄像头普及,整个行业的软件算法门槛将被大大拉低,我们基于2D系统所做的算法积累和优化确实就没有特别多的优势了。
不过你要知道,RGBD摄像头的普及并非易事,苹果不也是在iphone X上才采用,iphone8上都没有,因为目前RGBD无论在硬件微型化的成本和耗电方面壁垒都太高了。
这样说吧,从现在到未来很长一段时间,市场上绝大多数手机仍是2D摄像头的苹果和安卓机,那么我们基于2D系统所积累的三维算法壁垒,仍长期存在。
AI科技大本营:所以,基于目前的优势,主要拼抢的是中低端2D摄像头市场?
金宇林:从技术上来说,两个方向吧。
一个方向主打深度和精细度,高端手机市场,基于现有技术积累不断开发新算法的能力,包括直接可兼容用在3D系统中的算法;
一个方向主打广度,继续针对2D系统,扩大该技术在中低端手机上的适用性。目前我们算法的定位可以适用iphone5以上的苹果机型,以及主流安卓机型。这块会一点点往下做,匹配更多中低端安卓机型,覆盖更多用户。
这两方面都很重要。
抛开技术,从整个公司的战略来说吧,创始人Leody(小编注:appMagics 创始人CEO 伏英娜)一直强调,我们自身定位是跨界跨界跨界,不是天天埋头就搞计算机视觉、图形学、人工智能这些技术,技术的背后要有感觉,有感情,有感性的元素才行啊。
appMagics所设计的卡通表情形象
AI科技大本营:既然这样,为何非要自己开发背后整套技术,为何不直接调用第三方人脸识别科技公司的技术,专注于打造娱乐产品就好,岂不更省事?
金宇林:其实一开始,是考虑采用第三方技术的,不过试过所有的第三方技术,发现没有办法直接用。
为什么呢?
你看,目前CV(计算机视觉)领域,最大的市场是安防和金融。
对于安防和金融来说,计算机视觉主要的作用是,在很短的时间内判断是不是本人。而我们的要求是,计算机所识别到的表情是否精细,虚拟表情所模拟的效果是否准确。
这是两个完全不同的目标。那么其训练的出来的数据和算法,只能服务于一个目标,没有办法兼容。
再一个,目前的人脸识别大多是二维算法,但二维算法没有深度信息,用在表情模拟和控制上是远远不够的,因为很多特征不明显的关键点捕捉不到。这块就必须用三维算法来补齐。
所以,我们只能自己来做,从头到尾设计算法,做数据训练。
AI科技大本营:随着想要实现的不同目标越来越多,未来CV领域貌似越来越细化了。
金宇林:必须细化。
AI科技大本营:估算一下,表情动画这块有多大的市场规模?
金宇林:不说别的,就单说手机。如果现在所有的手机用户,管他是苹果还是安卓,管他高中低端,都想玩这种表情包,而现有手机的硬件条件也都带得起来,你觉得这是一个多大的市场。这块你可以具体跟Leody聊聊。
AI科技大本营:苹果这次iPhone X发布会,对公司倒是个很不错的PR机会。就最近而言,有什么特别大的直观的影响吗?
金宇林:特别大!这几天,因为苹果iPhone X推表情动画这个事,突然多了一堆找上来的合作伙伴和投资人,什么安卓厂商,APP,做输入法的公司,全挤过来了。
Leody还没回北京已经约不过来了。
一个行业最好的状态是什么呢,就是你做一个东西,一开始只有你在做,慢慢的,很多人发现,“咦,这个东西很有用啊”,于是都来学你做,因为表情动画很可能在未来两年成为App和手机标配,这就证明,你之前预测对了,你押对宝了。(笑)
附:
appMagics创始人兼CEO
伏英娜 Leody Fu是位女极客+连续创业者。2004年离开索尼爱立信创办MoGenisis,并于2007年成功被Symbian(诺基亚)并购。2010年加盟微软,先后担任大中华区及美国总部高管,带领团队进行微软新技术的传播和推广。2014年创办appMagics,专注于计算机视觉混合现实相关技术与文娱领域的跨界创新。
嘿,小伙伴们,AI科技大本营招实习生啦!
这次我们有以下几个方向:
微信运营、科技音视频运营和技术编辑各一名,兼职编译若干名
有意向的小伙伴,请在AI科技大本营微信公众号回复“实习生”,查看详细工作要求和职位描述,以及简历投递渠道。或直接添加微信greta1314询问详情。
更多学习福利
关注AI科技大本营,进入公众号,回复对应关键词查看分类专题;回复“入群”,加入AI科技大本营学习群。
回复“深度学习”,一文囊括30篇深度学习精华文章。
回复“机器学习”,一文推荐30篇机器学习优质文章。
回复“访谈”,查看吴喜之、周志华、杨强、蚂蚁金服漆远、今日头条李磊的独家访谈实录。
回复“资源”,一文梳理机器学习,深度学习,神经网络等各方面的资源。
回复“视频”,5分钟的视频带你轻松入门人工智能。
回复“程序员”,带你了解别人家的程序员如何学好AI。
回复“数据”,帮你弄清楚人工智能与数据科学之前的关系。
回复“课程”,跟我一起免费学习:谷歌大脑深度学习&Fast.ai最实战深度学习&David Silver深度强化学习。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/