从服务视障人士到大众“有声”阅读,AI 如何赋能内容创作?

百家 作者:微软科技 2020-12-20 11:57:42

(本文阅读时间:6分钟)

“这真的是机器人读的吗?”这是很多人听到由微软智能语音合成平台制作的有声小说《红楼梦》时的第一反应。因为在有声书中,林黛玉的声音略带微愠,贾宝玉言语委屈,而旁白则字正腔圆,这些声音不仅非常逼真堪比真人,而且还通过多种音色和多种语言风格,表现出不同的角色和不同的语境。

有声读物并不是新鲜事物,很早就有各种读屏软件可以实现从文字到声音的转换,但最大问题就是从断句到语气,一听便知是“电脑音”,非常生硬,体验并不好。而随着人工智能技术的进步,科学家和工程师们正在努力让 AI 的声音充满感情和表现力。尤其是对于视障人士来说,声音是他们感受世界的最重要方式,有温度的声音对于他们不仅是感知世界,更是陪伴。

近日,在“2020国际残疾人日”之际,微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司以及来自微软及各界的150余名志愿者,将共同创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心的“心目图书馆”
据悉,这些作品都是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的 AI(人工智能)语音创作的,其中包括著名艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。

“微软晓晓”到“AI 周迅”让声音有温度


对于视障人士来说,日常的“阅读”主要是通过触摸盲文书、听读屏软件或真人朗读的有声书等方式。但遗憾的是,这几种方式都存在一定的局限性。

比如,盲文书的数量非常有限,而且制作成本高、阅读时间长;读屏软件声音不够自然,机械音很难产生共情和共鸣,长时间聆听也容易疲劳;真人录音虽然效果很好,但制作周期长、成本高,即使是志愿者可以免费献声和免费制作,但录制制作完成一本有声书,最快也要花上两三个月的时间。

早在十几年前,微软就开始与中国最大的视力障碍人群公益组织——北京市红丹丹视障文化服务中心进行合作,为其提供技术和产品支持,共同探索用技术服务视障人群。尤其是在2014年,微软 AI 语音团队和红丹丹一起,为视障人士在微软 Azure 上搭建了云端有声读书馆——“心目图书馆”

微软的科学家和工程师们利用微软的 AI 智能语音技术平台,将文字合成有声电子读物产品,利用技术可以大批量地、自动化地的将电子书转变为有声书,不仅大大减少人工录制的人力和时间成本,也成倍丰富了视障人士有声阅读内容的来源。

“声音是视障人士获取知识、陶冶情操、丰富精神世界的重要方式。微软人工智能语音技术声音动听、语音自然,帮助我们降低了有声内容创作成本,心目图书馆的馆藏越来越丰富。应用微软文字转语音技术后,红丹丹能够合成一本有声书的效率大大提高,而且能够7*24小时不间断生成。”红丹丹创始人郑晓洁表示。

随着微软 AI 语音技术不断更新迭代,2019年,微软利用微软神经网络语音合成技术打造了自然的人工智能声音如“晓晓”。而此次,微软又与一直热心公益事业的著名演员周迅合作,通过定制她的 AI 声音,更加高效率地服务于视障人群。

“微软语音技术合成的 AI 声音非常自然、人性化、富有情感,最终呈现出来的周迅 AI 语音特别有说服力。我们非常荣幸能通过捐赠用周迅定制声音生成的有声读物,帮助视障朋友学习和成长。除了贡献公益事业,也很欣喜从中获得了促进娱乐业数字化转型,优化生产流程方式的更多思考。”周迅 AI 语音红丹丹公益项目发起人、鹿音苑音乐文化传播公司联合创始人曾宇表示。

据悉,通过“心目图书馆”,视障人士可以随时随地通过移动设备收听和下载有声读物,目前,该图书馆已经覆盖全国105所视障人士学校

逼真一分需百倍付出

声音背后的微软“黑科技”


技术的进步不应该加深“数字鸿沟”,反而应该成为帮助弱势群体和特定人群的强大助力。人工智能技术的创新对于社会和产业发展都带来深远积极的影响,未来也将逐渐融入人们的日常生活,让每个人都能享受到技术带来的便利。

早在2017年,微软就宣布5年内为“AI for Good”项目投资1.25亿美元,通过人工智能技术解决当今社会最重大的挑战,其中就包括了人工智能无障碍计划(AI for Accessibility)。2018年,微软宣布在五年内投入2500万美元到该计划当中,用于研发能够增强人类能力的人工智能技术,让全球残障人士更好地走进职场、融入现代生活、增进人际交往。

以微软的智能语音技术为例,经过持续不断迭代升级,目前基于 Azure 的深度神经网络语音模型几乎能够达到真人录音水平,并能够提供多角色、多情感、多风格,适用于丰富场景的平台原生或定制声音。

微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示:数字经济是21世纪发展主题之一。未来十年,全球经济增长将得益于数字技术的普及和在每一个行业的深入应用。我们要在科技进步的同时,确保人人不掉队,让每个人都能够参与到经济和社会的发展当中,并从中受益。

“微软的使命是予力世界每个人和每个组织成就不凡。我们通过持续创新打造更具包容性的技术和工具,不断降低技术门槛,让技术创新成果普惠大众,推动技术无障碍建设,帮助世界各地的公益组织通过创新技术实现公益事业的跨越发展。微软世界各地的员工都参与其中。”洪小文说。

而在这背后是来自微软的科学家和工程师付出的巨大努力。想要逼真一分,背后需要百倍付出。微软云计算与人工智能事业部首席产品总监丁秉公“揭秘”了,为什么人工智能合成的声音可以做到如此逼真?是怎样的黑科技在背后作为支撑?

丁秉公表示,利用 AI 技术进行语音识别和语音合成,简单来说,需要完成一个“ABC 公式”,即 A 是算法,算法是人工智能的核心;B 是大数据,有了足够大的数据,算法这个“厨师”才能做出好菜,否则巧妇难为无米之炊;C 是算力, AI 需要一个强大平台的支撑,以微软 Azure 云平台为例,它为人工智能提供一个安全、可靠、可信的计算平台,让算法能够在上面非常好的运行。

万物有声:不止公益,AI 赋能有声内容生产


视障人群通过聆听来“阅读”,但对于普通人来说,“有声化”阅读也越来越受到欢迎。随着“耳朵经济”的兴起,有声内容正在成为国人文化消费的重要场景。

以图书出版领域为例,近年来,纸声同步、纸声联动已经逐渐成为行业趋势,而 AI 技术大大提升了图书出版行业创作“有声内容”的生产力。因此,除了在公益领域,微软的 AI 语音识别和语音合成的技术和产品也在赋能机构媒体转型升级,协助更多内容创作者产出个性化音频内容,让声音成为品牌。

中信出版集团社会责任部主任孔彦表示,很多出版机构现在不止有读者,也有听众,都会推出有声书平台,不仅仅是服务视障人士,大众也非常喜欢。而 AI 技术可能帮助出版机构实现,文字向声音的转化更快捷,成本也大幅降低。

湛卢文化副总裁、湛卢阅读 APP 负责人陈漪也表示,AI 技术不仅能够帮助湛卢在有声内容制作上提升效率、降低成本,也可以帮助打造属于自己的声音品牌,为整体品牌赋能。

实际上,AI 演播员、AI 新闻主持人、AI 电台主播、AI 歌手……微软智能语音合成和语音识别解决方案,已经在落地多个业务场景,不止公益,而是具有经济和社会双重效益。

“技术必须以人为本、以人为中心。通过人工智能技术创新,微软希望能扩展每个人的能力,解放他们的思维和创意,使他们可以投入更具策略性和创新性的探索,从而帮助个人和组织实现更多、更重要的目标。通过微软 Azure 认知服务来赋能不同领域的工作者,可以让即使不具备机器学习专业技术背景的人也能轻松使用 AI,并由此产生出创新的连锁反应。”微软全球技术院士、微软 Azure AI 首席技术官黄学东表示。

体验有声内容创作工具平台

*本文转自中国经济周刊,记者:孙冰

推荐阅读

微软“编程一小时”让孩子在乐趣中玩转代码 在编程中培养同理心

高效、低成本的云上数据分析,来 Azure Global Marketplace

还在为零售业数字化发愁?Power Platform 治“数”有方!

精彩活动

【微软直播间】周周有精品,预告抢先看!

点击这里,体验有声内容创作工具平台
↓↓↓

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接