业界 | 微软Azure认知服务:TTS系统音频合成媲美人类
选自Microsoft
作者:黄学东
机器之心编译
参与:张倩、刘晓坤
微软的「文本到语音(text-to-speech,TTS)」分析运行系统取得了里程碑式的突破,它可以使用深度神经网络让计算机合成的声音酷似人类录音,达到几乎无法分辨的地步。这一系统合成的语音拥有与人类类似的神经韵律和吐字发音。神经 TTS 可以在人类与 AI 系统交互时大大减轻听觉疲劳。
点开音频,你能听出哪个是微软合成的声音吗?
本周,微软的团队在佛罗里达州奥兰多的 Microsoft Ignite 会议上展示了神经网络驱动的「文本到语音」转换功能。这种功能目前可以通过 Azure 认知服务语音服务进行预览。
预览链接:https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/
「神经文本到语音」转换可以让人与机器人或虚拟助手的互动更加自然、有吸引力。它将电子书等数字文本转换为有声书,还可以用于改进车内导航系统。
「文本到语音」转换取得的进展是微软团队在过去两年中取得的突破之一,他们的贡献还包括将会话语音识别和机器翻译提升到可以与人类媲美的程度。

微软的「文本到语音」系统使用了深度神经网络,来克服传统「文本到语音」系统在匹配口语的重读和语调(称为韵律结构),以及将语音单元合成为计算机音频方面的局限性。
传统的「文本到语音」系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将导致合成音频变得沉闷无趣。微软的「文本到语音」系统可以同时执行韵律预测和声音合成,其结果更加流畅自然。
通过使用 Azure 的算力,微软可以传送实时的语音流,有助于人与聊天机器人或虚拟助理交流。该功能由 Azure Kubernetes Service 提供服务,保证了很高的可扩展性和可用性,并给予用户在单个端点使用神经「文本到语音」以及传统的「文本到语音」服务的能力。
预览服务目前提供两个预构建的英文版「文本到语音」的助理——Jessa 和 Guy。微软很快会加入更多的语言,以及 49 种语言的定制服务(面向希望为特定需求构建品牌声音的客户)。
原文链接:https://azure.microsoft.com/en-us/blog/microsoft-s-new-neural-text-to-speech-service-helps-machines-speak-like-people/
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675








机器之心
