苹果如何让 Siri 在 HomePod 上变得更聪明?最新博文公布技术细节

百家 作者:DeepTech深科技 2018-12-05 12:41:23

扫描上图二维码购票,参与全球新兴科技峰会


智能音箱常发生一些搞笑事件,像是答非所问、容易被错误唤醒、胡乱下电商订单等,背后的问题与语音识别、噪音信息的干扰大有关系,苹果音频软件工程和 Siri Speech 团队在苹果的AI blog “机器学习期刊”撰文,透露了他们是如何在远场设置中优化 HomePod 上的 Siri。


在智能手机上使用语音助理时,用户的嘴巴通常是很靠近收音的麦克风,但使用智能音箱的情境则不同,用户往往在有点距离的位置来操控音箱,这种“远场交互”或是嘈杂环境就带来了许多挑战,包括回声、混响(reverberation)和噪音等,都会降低目标说话者音频的质量和可理解度,是智能音箱在设计上必须克服的难题。


而 HomePod 上 的 Siri 如何正确识别命令?简单来说,苹果为 HomePod 建立了一个多通道信号处理系统,使用 6 个麦克风,并在 Apple A8 芯片上连续进行多通道信号处理系统,同时,当环境噪声条件和说话者改变,多通道滤波也会持续性调节运作。


苹果指出,HomePod 的多通道信号处理系统主要有两大方面的技术,一是基于掩模的多通道滤波(Mask-based multichannel filtering),使用了深度学习来消除回声和背景噪声,二是基于无监督学习(Unsupervised Learning)打造的“在线学习”算法,可以处理多麦克风信号、分离同时声源。所以,当用户说出“Hey Siri”唤醒词时,集成上述两大方法的系统,就会为语音识别器选择出最好的音频流,消除干扰语音。


图|Siri 在 HomePod 上的在线多通道信号处理架构(图片来源:苹果)


信号处理从传统算法走向机器学习


耳朵可让人类听得清楚,识别声音的方向,或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能,现有技术还是很难实现,主要在于声音是一种叠加的信号,一个场景里面有各种的人声、噪声等叠加在一起,信号能量混在一起之后,想要将其分开就很困难。


传统声音信号处理的思路是基于噪音特征,比如噪音的形态(Pattern)是如何、在频率上有什么特性等,接着设计滤波器,把噪音留在滤网上,剩下的声音就留下来。但此法存在一个问题,世界上的噪声种类变化太多,聚合一起有各种排列组合,而且很多的动态噪音没有办法事先预测何时会出现。


以往主流作法是使用多个麦克风来收音、增强语音,焦点也多放在去除混响、噪声抑制。不过,近几年,前端的信号处理也开始引入了深度学习,在特征提取之前,对原始语音进行处理,如噪声抑制、回声消除、混响抑制等。


图|苹果智能音箱 HomePod(图片来源:苹果)


利用无监督学习进行盲源分离


在苹果公布的文章中,提出了多声道回声消除(MCEC)算法、基于掩模的回声抑制和抑制等方法,不过,更值得注意的是,苹果提出了一个关于盲源分离(BSS,Blind Source Separation)的观点:BSS 可以通过无监督学习把多个音频来源分离为单个音频流,但是如何从多个输出流选择正确的音频流(audio stream)仍然是个挑战。


因此,苹果认为需要建立自上而下的知识(Top-Down Knowledge)来了解用户的语音命令,除了使用唤醒词“Hey Siri”来识别目标对象的音频之外,他们还开发了一种“分离竞争说话者”(competing talker separation)的方法,并且通过深度学习来选择是哪一个讲话者正在发出命令,应专注于处理该讲话者。通过上述做法可以改善 Siri 在智能音箱上的体验。


盲源分离可以说是目前声学、语音识别领域一个很受关注的议题,许多科研人员或企业都想要突破这个问题,BSS 是指一种不需要预先得到资讯,从感测器所量测到的混合信号(mixtures)中,把信号源(sources)抽取、分离出来的方式,说得更简单一点,BSS 的目标就是在信号和混合过程均未知的情况下,分离出各种音源。


在 Competing Talker Separation 部分,苹果采用一种轻量的无监督学习方法,把麦克风阵列信号分解为独立的音频流,以进行盲源分离。此外,苹果也开发一个基于深度学习的音频流选择系统,当系统侦测到“Hey Siri”时,会为每个音频流打分数,并选择最高分的音频流,将其发送到 Siri 进行语音识别和完成任务。


语音被视为是继触控之后,将大量普及于日常生活的新交互模式,但仍旧有许多挑战等待被解决,近年来,图像或视频的 AI 发展,快速,但相较于机器视觉的多样化和活跃度,机器听觉领域仍处于起步阶段,而 AI 辅助语音处理优化智能语音助理在远场交互体验,也有机会为机器听觉带来更多突破。


-End-


参考:

https://machinelearning.apple.com/2018/12/03/optimizing-siri-on-homepod-in-far-field-settings.html


2019 年 1 月 19 日至 21 日,EmTech China 全球新兴科技峰会即将再度在京城启幕。本次会议无论从嘉宾阵容、会议规模、会议持续时间、内容设计上都将大幅提升!我们的目标很简单:将 EmTech China 打造成中国最顶级的科技盛事



全球从畜力、蒸汽动力再到电力,每次技术的进步都会带来产业结构的变革。而人工智能可以说是继电气化之后又一波为产业带来深远影响的新动能。虽然目前对于 AI 是否与制造业、医疗、材料、能源等行业一样是一个独立产业还存在争议,但由于 AI 赋能的特性,其所辐射及影响的产业层面将极为深远。在可预见的未来,所有产业都逃离不了 AI 化的趋势。

 

Anand Sanwal

→ CB Insights 联合创始人兼 CEO,一手打造硅谷 VC 决策背后的最强智库

 

Colin Parris

→ 通用电气全球副总裁,“百年老店”转型的 AI 领军人物

 

Dan Roth

→ 宾夕法尼亚大学教授,自然语言处理全球顶级专家

 

Kimberly Powell

→ 英伟达副总裁,医疗业务掌门人

 

Chris Urmson

→ 谷歌自动驾驶前负责人,Aurora Innovation 联合创始人兼 CEO,他是有着世界上最有价值工作经验的人


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

点击查看全文
公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接