微软的语音交互“滑铁卢”:Cortana小娜悲惨收场,未来路在何方?

百家 作者:硅谷洞察 2019-11-29 00:17:36



热点追踪深度探讨 实地探访 / 商务合作


“hi Siri,给我讲个笑话”“天猫精灵,今天天气怎样”“小度,为我导航最近的加油站”……


用语音唤醒智能助手,如今已经在我们的日常生活中司空见惯。


“音箱大战”的澎湃之力,已经让偏远至村镇的群体都AI了起来,智能语音早已下沉得不能再下沉了。


在这样的大好局面中,微软语音助手Cortana小娜却传出了要“脱团单飞”的消息,即将终止在IOS和安卓两大移动应用平台上提供服务,这无疑是自绝于人民群众的自杀式行为。


小娜的失败给语音交互领域留下了哪些“遗产”,而它的创造者在失去移动端制霸权后,又将告别智能语音助手这一关键入口,接下来的航线又指向何处?



Cortana小娜的“美、强、惨”


今天语音交互的主流人群,可能都没有来得及能跟小娜在手机端产生一次对话。而在PC端偶尔召唤出来,最大的可能也是因为操作失误。


但这并不代表这位以FPS 游戏 Halo 中的 AI 角色命名的Cortana ,水平真的如此泯然众人矣。


准确来说,在AI黑科技方面,微软并不输给谷歌、苹果这些高光实验室。而小娜背后的微软亚洲研究院(人工智能-语音识别方向)更是产业界的“黄埔军校”。有着如此背景的小娜,问世时可比答非所问的Siri聪明多了。


在一则视频中,用户通过搜索引擎向Google Now、小娜、Siri提问“埃菲尔铁塔有多高?小娜在数年前就将知识图谱与AI相结合的方式来呈现答案,跳过引擎抓取的大量无用信息,直接告诉对方答案——铁塔的高度。



更关键的是,小娜所依托的微软亚洲研究院有着大量的中文语音识别、语义分析成果积累,当时Siri还是一个中文听不懂、回答颠三倒四,最大的作用就是讲笑话的搞笑型选手。


当时,小娜的定位是“智能助理”,当时已经可以处理复杂的口语指令,来帮用户打开第三方应用、查找文件、收发邮件等等。2016年,小娜的语音识别率就已经超越了人类。2018年早些时候,为了让小娜的表达听起来更人性化,微软还收购了一家名为“语义机器”的人工智能初创公司。


小娜所担负的理想,即使在今天看来,也极具前瞻意义。


在技术愿景上,小娜被设计为云端驱动(cloud-driven),许多智能计算都是在云端完成的,设备终端只做轻量级的整合。这使其跨平台统一服务成为了可能。


所以在应用场景上,微软工程师们提出了“Cortana Everywhere”(小娜无处不在)的想法。即让小娜在各种不同配置、不同版本、不同操作系统的终端设备上都能够被调用,并提供一致性的用户体验。只要智能终端具备一定的计算能力,可以运行小娜的客户端堆栈(Client Stack),就能够运行。


当时设想的足够运行小娜的最小设备是智能手环,在微软的Microsoft Band 上,小娜可以识别语音并以文字形式呈现出来。


当时的产品负责人在谈到小娜的理想化未来时,描绘了这样一个场景“一件衣服里内置了麦克风,它可以听到我说话,将信息传达给我口袋里的手机,然后手机和云端进行通讯。整个过程用户都不需要从口袋里掏出手机,佩戴耳机就可以听到小娜的回复。”


耳不耳熟?云+AI+泛终端,这个今天普遍出现在各种行业前沿技术峰会PPT上的智能交互画卷,几年前就被微软描画了出来。


(Microsoft Band 上的小娜效果)


可惜,凡事总有但是,小娜最终还是走上了“悲惨收场”的道路。


微软正式宣布战略性收缩小娜业务,将在2020年1月31日退出iOS和Android平台,这是一封来自官方的死刑宣判书。


其实早在今年1月份的时候,微软CEO纳德拉就宣布不再将Cortana视为Alexa、Google Assistant的竞争对手。但走到彻底放弃移动端应用市场这一步,也不由令人唏嘘——小娜明明应该是主角的剧本,最终却沦落成了炮灰,一切究竟是怎么发生的?


三人行必有炮灰:微软的语音交互“滑铁卢”


尽管有点马后炮的嫌疑,但今天我们回望微软在语音消费级市场的大溃败,或许能对当下还在场内的玩家有一个更为清晰的认识。


总体来说,小娜的“生不逢时”,主要体现在三个节点上:


1.生于智能,但困于终端。


智能语音助手的第一要义,除了在技术上要能实现足够高精准度的识别理解能力之外,最核心的一点是要有任务属性,即能够帮助人解决特定需求。也意味着,它必须能够获取其他设备和应用的控制权,才能够达到这样的要求。


但小娜除了在微软体系内拥有足够多的权限,比如调用和理解邮件、处理365office等等。而且大部分是发生在PC环境中,语音交互相比鼠标要位居其次。在更广大的移动场景中,受限于Windows Phone可怜的市场占有率,小娜很难做到像Siri、echo与google assistant那样,与自家硬件无缝整合。


比如在打开应用时,使用“Hey Cortana” 语音唤醒;亦或是始终保持语音待命,以低耗电状态运行等,这些必要的能力小娜都很难在竞争对手的设备上实现。


而缺少了来自终端用户行为的数据滋养,小娜在脑力进化、内容理解等能力上也逐步与对手们拉开了差距。微软在消费级移动终端上的失利,最终转化为小娜的败北。


2.生为语音,却难觅应用。


尽管微软在小娜应用开始,为其设计了非常具象的应用场景,但小娜推出时语音交互并没有被大多数用户接受,即使在今天,跟音箱里的语音助手聊两句就任由其落灰的也不少见。


更悲催的是,小娜出现的时候终端计算能力还并没有现在这么GPUCPU集体发功的强大,移动网络服务也不像现在这么高速、普及、稳定,当时如果遇上网络状况不好,小娜的语音识别就很慢,有些情况下甚至用不了。


而今天用户使用语音对话方式发出指令的不适感几乎消除了,小娜却已经身处强敌环伺的森林法则中,难以再翻身。



3.生于智能,却困于自封。


今天凡是拥有智能语音助手的厂商,早已达成共识,无论是行为数据的累积,还是交互习惯的培养,都需要尽可能多的与用户发生联系。开放,合作,是一切的前提。而微软闭关造城的霸主思想,或许是小娜注定失败的注脚。


2014年,被今日智能助手广泛致敬的“亚马逊Alexa+echo”模式,还只是个实验雏形。为了让任何人都愿意用,亚马逊成立一个新的部门Alexa Voice Services,敞开了招呼大家加入来开放能够用Alexa交流的软硬件,吊灯、冰箱、燃气灶、汽车……很多虽然今天依然看起来很傻,但今天Alexa成为全球应用最广泛的语音助手,拥有1.5万种以上的技能,与这种开放形态不无关系。



也是在同一年,时任微软Windows Phone项目高管Marcus Ash在被媒体问到小娜是否会登陆其他应用平台时,表示“微软只会在Windows Phone版Cortana彻底成熟之后才可能考虑其他平台,也不会考虑为iOS和Android的深度整合而开发底层访问功能”。


直到2015年,WP系统眼见着市场惨淡,无法为小娜提供有竞争力的发展空间,当时微软才宣布转战安卓和IOS。就连这样的平台开放也是非常有限的,因为是“中美特供”,当时只针对中国和美国市场提供服务。


而同一年,百度已经召开了“度秘”的发布会,将其打造成了一个集微软小冰(聊天机器人)+微软小娜(语音助手)+bing必应(搜索引擎)+垂类O2O的语音交互产品。随后,“小度”的能力伴随着DuerOS平台被开放给了众多软硬件开放者。


对于开放生态的“傲慢与偏见”,使小娜错过了向消费层生长出根须并持续进化的机会。


2018年的时候,微软也曾试图将小娜的重心继续加码安卓和IOS,对它进行了大规模的改进,包括更新的UI,支持在蓝牙上播放音乐,启动速度提升了20%,并与微软其他服务进行了更深层的整合,比如可以加入Skype会议。



尽管如此,无论是面对中国市场BAT等巨头的中文语音助手,还是在海外市场与谷歌、亚马逊和苹果等正面交锋,微软小娜无论是硬件基础规模,还是平台化的延展能力,都无法再逆风翻盘。


在微软的Build 2018中,通过Cortana与Alexa的互操作性展示,微软也只好承认了小娜本身的功能,已经不足以满足当下用户对语音助手的诉求了。次年1月,以小娜为核心的智能扬声器计划被宣告终止。


就连如今的退出,都在惨淡的成绩面前显得不那么悲情了。根据Sensor Tower的最新数据, Cortana应用在App Store上的“生产力”类别中仅排名第254,在Google Play中仅排名第145。好像退出也并没有损失很大的样子。


小娜原本有着最抢眼的开场,却在坚守着Windows和Office的微软脚步下,走向了移动的终局。


小娜走了,微软的语音交互未来在哪儿?


小娜虽然可以说是从移动端消弭了,但语音交互这个未来入口却不能轻言放弃。


从微软透露的信息我们知道,小娜还将作为微软唯一的语音助理工具存在,在微软所有的Windows产品中嵌入,包括Xbox游戏平台,再博一次。


小娜是否还有希望重回大众视野视野还未可知,但从微软的“滑铁卢”不难看到,语音作为AI引发的交互革命,赛事的焦灼点却往往在技术之外。


在“千箱大战”的热身过后,泛智能终端的语音交互战局才刚刚拉开帷幕,未来所有机器、智能硬件,比如汽车、家居、办公等都可能被这场浪潮席卷冲刷。在这个过程中,胜利者的成功也许无法复制,但失败者的教训却值得反复咀嚼。


语音交互巨作为对信息生态和生活方式的重构,涉及了非常复杂的社会链条,庞大如微软也难免步步踩坑。


目前看来,可以确定的是,建立产业链上下游合作生态将是第一奥义。当前,语音底层技术突破已经逼近天花板,大家都是在90%以上的极限成绩上反复拼小数点,在5G+AIoT的泛智能终端生态中占据先发位置,对未来的市场主导权争夺有着重要意义。



其次,国际化竞争态势日趋激烈。来自Google Assistant的数据显示,已经由此超过70%的互联网请求是自然语言、对话方式发出的。其中各个技术厂商包括创业者都有着各自的优势,但归根结底,用户体验才是抢夺市场的最高法则。


可以预料的是,除了在智能音箱外形上不断做新文章之外,未来的中国语音交互战场还会有新的硬件形态通过厮杀,来完成消费市场的真正变革。


大家怎么看待微软“小娜”的失败呢?你们认为是微软“小娜”的失败对语音助手行业有什么启示呢?欢迎大家留言讨论!



推荐阅读

区块链报告 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接