酷应用

独家 | 我们扒出了这家中国创业公司，竟比苹果iPhone X早两年推出黑科技，还不用借助深度摄像头

百家作者：AI100 2017-09-19 09:40:48

关心AI的人们都关注了此号☝☝☝

于是，没有iPhone X，我也可以在我仅2000元的安卓机上玩转黑科技了。

记者：鸽子

在我威威天朝，表情包早已泛滥在各类社交应用程序中，如今，咱可以玩点新的包了。

就这个啦！在苹果iPhoneX的带领下，一种新的娱乐方式来了...

它生动而霸道地诠释了什么才是真正的表！情！包！

我的表情我做主，吼吼...

这就是iPhone X在基于Face ID的新功能下，推出的Animoji。

当你对着摄像头抬眉头、皱眉毛、动下巴、睁眼睛、闭眼睛、张嘴唇、咧嘴笑时，手机就会捕捉你的表情，并将其赋予可爱的卡通形象，实时生成一个属于自己的表情包。

如果说今天我们的重点是聊苹果，那也太low了，发布会过去了这么久，太对不起媒体的实效性。

今天，我们想说的是，有一家神秘的中国公司，早在2年前，就在手机上推出了同样的功能，并且越做越深。而更为神奇的是，在完全没有深度摄像头，甚至没有双目摄像头的情况下，它做到了同样的效果。这引起了AI科技大本营的注意。

这家低调的公司名叫appMagics——迈吉客科技。

早在2016年，该公司就完成了千万级人民币的A轮融资，投资方为极客帮及紫辉创投。在2016年9月获得蓝港互动战略投资后，它又在2017年6月完成了由华盖资本领投，博将紫辉跟投的数千万人民币A+轮融资。

在看过苹果发布会关于表情包的展示后，AI科技大本营记者也第一时间联系并试用了appMagics的产品。

总体的感觉是：体验很流畅，表情的贴合度较高，模拟很真实也很细腻。不过，当人突然将距离拉远，且快速剧烈摇摆时，表情识别偶尔会出现捕捉掉线的情况。

这之后，AI科技大本营记者对appMagics CTO金宇林进行了独家专访，问题略微犀利，回复拒绝套路。希望搞清楚，创业两年多的appMagics，与苹果最新的黑科技，到底有何可圈可点之处。采访内容在不披露被采公司核心技术机密的情况下，尽量保持原样，部分言辞稍作不改变原意的修改。

AI科技大本营：简单了解一下您的技术背景。

金宇林：最早我是在北京航空航天大学读计算机图形学硕士，之后去了斯坦福继续读计算几何学，这算是计算机图形学的一个分支。毕业了一直留在美国微软总部，算是微软研究院3D打印项目的创始人之一，也申请过挺多专利。算起来，我做计算机图形学，已经15年了。

AI科技大本营：我们直击重点，表情识别这个玩法，背后的技术原理是什么？

金宇林：我尽量说得通俗一点。

原理大致分为三个步骤，第一步是人脸关键点识别与跟踪，第二步是表情分析和映射，第三步是三维模型的控制。

具体来讲，人脸关键点识别和实时跟踪，就是根据脸部标注的关键点，比如，哪里是眉毛、哪里是眼睛、哪里是嘴等，让摄像头清楚看懂人的面部。

表情分析则是说，根据识别和跟踪到的面部关键信息比如眉毛、眼睛、嘴等进行的运动，预测用户是闭眼还是说话，开心还是悲伤。

而三维模型的控制则是用面部关键信息，来驱动构建好的虚拟形象，去学习和模拟用户的表情。

总的来说，前两部分属于计算机视觉的研究范围，第三部分属于计算机图形学的研究领域。

AI科技大本营：到底appMagics所做的表情识别与苹果刚发布的iPhoneX，差别在哪？

金宇林：刚刚我提到了表情动画的原理分为三个步骤，我们跟苹果的差别主要是在前两步上，也就是第一步人脸关键点识别与跟踪，和第二步表情分析和映射。

简单来说，苹果是在3D系统（RGBD摄像头）的基础上做，而我们是在2D系统（RGB摄像头）上，所依赖的软硬件系统不同。（小编注：为了便于理解，以下RGB摄像头统称2D系统，RGBD摄像头统称3D系统）

那2D与3D系统在效果上有什么差别呢？

对于眼睛、眉毛、鼻子、嘴巴这些人脸中分界比较明显，特征比较明显的地方来说，只要训练的面部数据足够多，2D跟3D系统在捕捉上几乎没有差别。

但对于面部特征不太明显的额头、脸颊等，2D系统的捕捉就不如3D系统精准了。2D不太容易识别出这些部位的点，但3D由于多了一个纵深信息（z轴），它是可以识别到额头、脸颊这些点的。

拿苹果所采用的深度摄像系统来说，这是一个3D结构光传感系统。也就是说，这个系统除了有日常2D系统（普通前置RGB摄像头）捕捉的平面视觉信息外，还有纵深的视觉信息，也就是Z轴。

这个Z轴纵深的数据信息主要来自Dot Projector（点阵投影仪），通过它将结构红外光投射到人脸上，再用红外摄像头接收这些投射在人脸上的形变，计算面部每个点的深度数据。

这样，每个点不仅有了平面的坐标，而且有了Z轴深度坐标，对每个图像信息点的定位更为精准。

至于第三步，我们跟苹果没有差别。在三维模型控制和最终呈现效果上，我们从一开始的定位就是三维混合现实。

AI科技大本营：那我是不是可以说，苹果iPhoneX无论在精准度上，还是性能上，都更占优势？

金宇林：就客观条件来说，由于iPhoneX在RGBD摄像头的硬件基础下，识别的关键点更多，所以确实能精准捕捉到更多细节。

另外，由于苹果可以完全支配自己的软硬件系统，因此iPhoneX在性能上，一定更稳定。别说是表情，在很多方面，苹果手机由于软硬件一体化，性能也是大大优于其他手机的。这是客观硬件配置所决定的，没办法。

不过要说到苹果的优势，其实并不完全是这样。这里有两点需要说明一下。

第一，对于表情的捕捉，并非越精准就一定越好。因为人的感官并非完全是写实的。

怎么理解？我举个例子。当你闭上双眼的时候，其实并不是同时闭上的，可你自己以为是同时闭的，所以，当你看到表情捕捉到一只眼总是闭得慢一些时，会产生不适感。

再比如，当你闭一只眼时，另一只眼其实会眯上一点，但人并不自知。所以，当你看到表情捕捉呈现出最真实的效果时，反而不舒服，因为这跟你的潜意识不符。

所以，当我们把表情捕捉用于泛娱乐场景时，它更重要的目标是让虚拟形象能够传达人类的情感。所以，我们会用算法做一些处理，让你在真实和虚拟中达到一种视觉平衡。这种情况，确实并非越写实越好。

做VR和AR的人，可能对这一点的理解更深。

第二，在某些必须达到的真实度上，即使硬件并不具备，我们用算法也是能弥补的，而且效果绝不差。

我们两年来，一直埋头所做的一件事情就是，通过不断优化的算法，让表情模拟在普通手机上也能玩起来，而且传达人类的情感。

啥意思？

简单来说就是，原本普通RGB摄像头不容易捕捉的部分，我们靠算法来弥补。

比如，当我咧嘴的时候，我们会通过算法，来预测和模拟脸部肌肉的隆起；在皱眉的时候，也通过算法，来模仿额头的变化。我们在2D摄像头系统之上模拟了三维数据，在客观硬件基础不具备的情况下，也能将表情动画玩起来，而且看不出来太大的差别。

也就是说，通过算法，尽量降低玩表情动画的硬件要求和硬件成本。目前我们在iphone6上就能玩起来，安卓机也能玩。

AI科技大本营：这算技术上的核心竞争力吗？

金宇林：可以这么说。

其实，要说表情识别，好莱坞很多年前就在电影特效中用上了。

比如阿凡达和魔兽世界里面的表情就是用三维重构来实现的。具体的原理是，通过在演员的脸上贴图，形成一定的点阵（与苹果点阵投影仪的原理一致），脸部的特征就出来了。这样，当你的面部表情变化时，脸上的点随之而动，摄像头将其精准捕捉，就可以放在三维模型上用了。

但好莱坞的硬件多贵啊，普通人想玩这个怎么办呢？所以我们就基于普通手机的RGB摄像头，重新设计算法，在没有深度信息的情况下用算法来弥补，把这些功能实现了。

把影视CG技术消费化，把影视动漫玩的东西搬到每个人的口袋里，iPhonen能用，安卓手机能用，普通PC能用，Mac也能用，跨平台，这算是核心竞争力。

说白了，是把工业级能力和技术转化为民用级，让人想玩就玩，不用考虑太多硬件的配置。

AI科技大本营：如果说多年积累的核心竞争力在于，在2D系统（RGB摄像头）用算法来做3D系统（RGBD摄像头）才能做的事。那当3D摄像头普及，还有优势吗？

金宇林：就像我刚刚提到的，在表情识别上，我们的核心算法分为三部分，获取现实中的关键信息确实基于普适的2D摄像头系统，不过我们从一开始就采用的3D数据模拟和控制，如果有一天所有手机都能直接获取三维数据，那么这一步我们的算法是不用做任何更换的，直接复用，所以这部分积累的优势仍然在。

但正如你所说，如果3D摄像头普及，整个行业的软件算法门槛将被大大拉低，我们基于2D系统所做的算法积累和优化确实就没有特别多的优势了。

不过你要知道，RGBD摄像头的普及并非易事，苹果不也是在iphone X上才采用，iphone8上都没有，因为目前RGBD无论在硬件微型化的成本和耗电方面壁垒都太高了。

这样说吧，从现在到未来很长一段时间，市场上绝大多数手机仍是2D摄像头的苹果和安卓机，那么我们基于2D系统所积累的三维算法壁垒，仍长期存在。

AI科技大本营：所以，基于目前的优势，主要拼抢的是中低端2D摄像头市场？

金宇林：从技术上来说，两个方向吧。

一个方向主打深度和精细度，高端手机市场，基于现有技术积累不断开发新算法的能力，包括直接可兼容用在3D系统中的算法；

一个方向主打广度，继续针对2D系统，扩大该技术在中低端手机上的适用性。目前我们算法的定位可以适用iphone5以上的苹果机型，以及主流安卓机型。这块会一点点往下做，匹配更多中低端安卓机型，覆盖更多用户。

这两方面都很重要。

抛开技术，从整个公司的战略来说吧，创始人Leody（小编注：appMagics 创始人CEO 伏英娜）一直强调，我们自身定位是跨界跨界跨界，不是天天埋头就搞计算机视觉、图形学、人工智能这些技术，技术的背后要有感觉，有感情，有感性的元素才行啊。

appMagics所设计的卡通表情形象

AI科技大本营：既然这样，为何非要自己开发背后整套技术，为何不直接调用第三方人脸识别科技公司的技术，专注于打造娱乐产品就好，岂不更省事？

金宇林：其实一开始，是考虑采用第三方技术的，不过试过所有的第三方技术，发现没有办法直接用。

为什么呢？

你看，目前CV（计算机视觉）领域，最大的市场是安防和金融。

对于安防和金融来说，计算机视觉主要的作用是，在很短的时间内判断是不是本人。而我们的要求是，计算机所识别到的表情是否精细，虚拟表情所模拟的效果是否准确。

这是两个完全不同的目标。那么其训练的出来的数据和算法，只能服务于一个目标，没有办法兼容。

再一个，目前的人脸识别大多是二维算法，但二维算法没有深度信息，用在表情模拟和控制上是远远不够的，因为很多特征不明显的关键点捕捉不到。这块就必须用三维算法来补齐。

所以，我们只能自己来做，从头到尾设计算法，做数据训练。

AI科技大本营：随着想要实现的不同目标越来越多，未来CV领域貌似越来越细化了。

金宇林：必须细化。

AI科技大本营：估算一下，表情动画这块有多大的市场规模？

金宇林：不说别的，就单说手机。如果现在所有的手机用户，管他是苹果还是安卓，管他高中低端，都想玩这种表情包，而现有手机的硬件条件也都带得起来，你觉得这是一个多大的市场。这块你可以具体跟Leody聊聊。

AI科技大本营：苹果这次iPhone X发布会，对公司倒是个很不错的PR机会。就最近而言，有什么特别大的直观的影响吗？

金宇林：特别大！这几天，因为苹果iPhone X推表情动画这个事，突然多了一堆找上来的合作伙伴和投资人，什么安卓厂商，APP，做输入法的公司，全挤过来了。

Leody还没回北京已经约不过来了。

一个行业最好的状态是什么呢，就是你做一个东西，一开始只有你在做，慢慢的，很多人发现，“咦，这个东西很有用啊”，于是都来学你做，因为表情动画很可能在未来两年成为App和手机标配，这就证明，你之前预测对了，你押对宝了。（笑）

附：

appMagics创始人兼CEO

伏英娜 Leody Fu是位女极客+连续创业者。2004年离开索尼爱立信创办MoGenisis，并于2007年成功被Symbian（诺基亚）并购。2010年加盟微软，先后担任大中华区及美国总部高管，带领团队进行微软新技术的传播和推广。2014年创办appMagics，专注于计算机视觉混合现实相关技术与文娱领域的跨界创新。

AI科技大本营

招实习生啦

嘿，小伙伴们，AI科技大本营招实习生啦！

这次我们有以下几个方向：

微信运营、科技音视频运营和技术编辑各一名，兼职编译若干名

有意向的小伙伴，请在AI科技大本营微信公众号回复“实习生”，查看详细工作要求和职位描述，以及简历投递渠道。或直接添加微信greta1314询问详情。

更多学习福利

关注AI科技大本营，进入公众号，回复对应关键词查看分类专题；回复“入群”，加入AI科技大本营学习群。

回复“深度学习”，一文囊括30篇深度学习精华文章。

回复“机器学习”，一文推荐30篇机器学习优质文章。

回复“访谈”，查看吴喜之、周志华、杨强、蚂蚁金服漆远、今日头条李磊的独家访谈实录。

回复“资源”，一文梳理机器学习，深度学习，神经网络等各方面的资源。

回复“视频”，5分钟的视频带你轻松入门人工智能。

回复“程序员”，带你了解别人家的程序员如何学好AI。

回复“数据”，帮你弄清楚人工智能与数据科学之前的关系。

回复“课程”，跟我一起免费学习：谷歌大脑深度学习&Fast.ai最实战深度学习&David Silver深度强化学习。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由 AI100发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/69724.html

中国苹果 iPhone 摄像头

图库

AI100

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数