酷应用

从服务视障人士到大众“有声”阅读，AI 如何赋能内容创作？

百家作者：微软科技 2020-12-20 11:57:42

（本文阅读时间：6分钟）

“这真的是机器人读的吗？”这是很多人听到由微软智能语音合成平台制作的有声小说《红楼梦》时的第一反应。因为在有声书中，林黛玉的声音略带微愠，贾宝玉言语委屈，而旁白则字正腔圆，这些声音不仅非常逼真堪比真人，而且还通过多种音色和多种语言风格，表现出不同的角色和不同的语境。

有声读物并不是新鲜事物，很早就有各种读屏软件可以实现从文字到声音的转换，但最大问题就是从断句到语气，一听便知是“电脑音”，非常生硬，体验并不好。而随着人工智能技术的进步，科学家和工程师们正在努力让 AI 的声音充满感情和表现力。尤其是对于视障人士来说，声音是他们感受世界的最重要方式，有温度的声音对于他们不仅是感知世界，更是陪伴。

近日，在“2020国际残疾人日”之际，微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司以及来自微软及各界的150余名志愿者，将共同创作的首批人工智能有声内容，包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊，正式捐赠给北京市红丹丹视障文化服务中心的“心目图书馆”。

据悉，这些作品都是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的 AI（人工智能）语音创作的，其中包括著名艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音，以及多个微软智能语音合成平台声音（如晓晓、云野等）。

“微软晓晓”到“AI?周迅”让声音有温度

对于视障人士来说，日常的“阅读”主要是通过触摸盲文书、听读屏软件或真人朗读的有声书等方式。但遗憾的是，这几种方式都存在一定的局限性。

比如，盲文书的数量非常有限，而且制作成本高、阅读时间长；读屏软件声音不够自然，机械音很难产生共情和共鸣，长时间聆听也容易疲劳；真人录音虽然效果很好，但制作周期长、成本高，即使是志愿者可以免费献声和免费制作，但录制制作完成一本有声书，最快也要花上两三个月的时间。

早在十几年前，微软就开始与中国最大的视力障碍人群公益组织——北京市红丹丹视障文化服务中心进行合作，为其提供技术和产品支持，共同探索用技术服务视障人群。尤其是在2014年，微软 AI 语音团队和红丹丹一起，为视障人士在微软 Azure 上搭建了云端有声读书馆——“心目图书馆”。

微软的科学家和工程师们利用微软的 AI 智能语音技术平台，将文字合成有声电子读物产品，利用技术可以大批量地、自动化地的将电子书转变为有声书，不仅大大减少人工录制的人力和时间成本，也成倍丰富了视障人士有声阅读内容的来源。

“声音是视障人士获取知识、陶冶情操、丰富精神世界的重要方式。微软人工智能语音技术声音动听、语音自然，帮助我们降低了有声内容创作成本，心目图书馆的馆藏越来越丰富。应用微软文字转语音技术后，红丹丹能够合成一本有声书的效率大大提高，而且能够7*24小时不间断生成。”红丹丹创始人郑晓洁表示。

随着微软 AI 语音技术不断更新迭代，2019年，微软利用微软神经网络语音合成技术打造了自然的人工智能声音如“晓晓”。而此次，微软又与一直热心公益事业的著名演员周迅合作，通过定制她的 AI 声音，更加高效率地服务于视障人群。

“微软语音技术合成的 AI 声音非常自然、人性化、富有情感，最终呈现出来的周迅 AI 语音特别有说服力。我们非常荣幸能通过捐赠用周迅定制声音生成的有声读物，帮助视障朋友学习和成长。除了贡献公益事业，也很欣喜从中获得了促进娱乐业数字化转型，优化生产流程方式的更多思考。”周迅 AI 语音红丹丹公益项目发起人、鹿音苑音乐文化传播公司联合创始人曾宇表示。

据悉，通过“心目图书馆”，视障人士可以随时随地通过移动设备收听和下载有声读物，目前，该图书馆已经覆盖全国105所视障人士学校。

逼真一分需百倍付出

声音背后的微软“黑科技”

技术的进步不应该加深“数字鸿沟”，反而应该成为帮助弱势群体和特定人群的强大助力。人工智能技术的创新对于社会和产业发展都带来深远积极的影响，未来也将逐渐融入人们的日常生活，让每个人都能享受到技术带来的便利。

早在2017年，微软就宣布5年内为“AI for Good”项目投资1.25亿美元，通过人工智能技术解决当今社会最重大的挑战，其中就包括了人工智能无障碍计划（AI for Accessibility）。2018年，微软宣布在五年内投入2500万美元到该计划当中，用于研发能够增强人类能力的人工智能技术，让全球残障人士更好地走进职场、融入现代生活、增进人际交往。

以微软的智能语音技术为例，经过持续不断迭代升级，目前基于 Azure 的深度神经网络语音模型几乎能够达到真人录音水平，并能够提供多角色、多情感、多风格，适用于丰富场景的平台原生或定制声音。

微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示：数字经济是21世纪发展主题之一。未来十年，全球经济增长将得益于数字技术的普及和在每一个行业的深入应用。我们要在科技进步的同时，确保人人不掉队，让每个人都能够参与到经济和社会的发展当中，并从中受益。

“微软的使命是予力世界每个人和每个组织成就不凡。我们通过持续创新打造更具包容性的技术和工具，不断降低技术门槛，让技术创新成果普惠大众，推动技术无障碍建设，帮助世界各地的公益组织通过创新技术实现公益事业的跨越发展。微软世界各地的员工都参与其中。”洪小文说。

而在这背后是来自微软的科学家和工程师付出的巨大努力。想要逼真一分，背后需要百倍付出。微软云计算与人工智能事业部首席产品总监丁秉公“揭秘”了，为什么人工智能合成的声音可以做到如此逼真？是怎样的黑科技在背后作为支撑？

丁秉公表示，利用 AI 技术进行语音识别和语音合成，简单来说，需要完成一个“ABC 公式”，即 A 是算法，算法是人工智能的核心；B 是大数据，有了足够大的数据，算法这个“厨师”才能做出好菜，否则巧妇难为无米之炊；C 是算力， AI 需要一个强大平台的支撑，以微软 Azure 云平台为例，它为人工智能提供一个安全、可靠、可信的计算平台，让算法能够在上面非常好的运行。

万物有声：不止公益，AI 赋能有声内容生产

视障人群通过聆听来“阅读”，但对于普通人来说，“有声化”阅读也越来越受到欢迎。随着“耳朵经济”的兴起，有声内容正在成为国人文化消费的重要场景。

以图书出版领域为例，近年来，纸声同步、纸声联动已经逐渐成为行业趋势，而 AI 技术大大提升了图书出版行业创作“有声内容”的生产力。因此，除了在公益领域，微软的 AI 语音识别和语音合成的技术和产品也在赋能机构媒体转型升级，协助更多内容创作者产出个性化音频内容，让声音成为品牌。

中信出版集团社会责任部主任孔彦表示，很多出版机构现在不止有读者，也有听众，都会推出有声书平台，不仅仅是服务视障人士，大众也非常喜欢。而 AI 技术可能帮助出版机构实现，文字向声音的转化更快捷，成本也大幅降低。

湛卢文化副总裁、湛卢阅读 APP 负责人陈漪也表示，AI 技术不仅能够帮助湛卢在有声内容制作上提升效率、降低成本，也可以帮助打造属于自己的声音品牌，为整体品牌赋能。

实际上，AI 演播员、AI 新闻主持人、AI 电台主播、AI 歌手……微软智能语音合成和语音识别解决方案，已经在落地多个业务场景，不止公益，而是具有经济和社会双重效益。

“技术必须以人为本、以人为中心。通过人工智能技术创新，微软希望能扩展每个人的能力，解放他们的思维和创意，使他们可以投入更具策略性和创新性的探索，从而帮助个人和组织实现更多、更重要的目标。通过微软 Azure 认知服务来赋能不同领域的工作者，可以让即使不具备机器学习专业技术背景的人也能轻松使用 AI，并由此产生出创新的连锁反应。”微软全球技术院士、微软 Azure AI 首席技术官黄学东表示。