酷应用

依图夺冠世界级声纹识别竞赛！智能语音战场又破一城

百家作者：新智元 2019-09-10 13:19:12

??新智元报道??

编辑：木青

【新智元导读】去年年底才宣布进军智能语音市场，如今依图科技又攻下一城：9月初，夺冠全球声纹识别竞赛VoxSRC。依图正成为“边界重塑者”，业务愈加多元：计算机视觉、NLP、芯片、智能语音，逐渐备齐各项AI能力。

AI技术战场上，依图科技又攻下一城。

刚刚，在全球声纹识别竞赛VoxSRC（VoxCeleb Speaker Recognition Challenge）上，依图以大幅领先的成绩夺得第一名。

去年年底，依图宣布强势进军智能语音领域，并用“识别精度创中文语音识别新高点”的技术成就作为开场，如今在声纹识别技术上亦是登顶。

这两年来，依图不断在重塑边界，业务越来越多元，一直在挑战新领域，也屡摘桂冠——在AI技术上的记录既有深度也有广度，除拥有绝对优势的起家本领人脸识别外：

视觉计算：成为“AI国家队”，依图承建“视觉计算国家新一代人工智能开放平台”。
语音识别：在全球最大的中文开源数据库AISHELL-2中，依图2018年时短语音听写的字错率（CER）达到3.71%，大幅刷新当时的纪录；
AI芯片：算法即芯片，重磅推出拥有世界级算法优势的云端AI芯片——求索(questcore?)；
自然语言处理：基于机器学习的NLP技术，依图医疗与合作团队在世界顶级医学科研期刊《自然·医学》（Nature Medicine）刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。

计算机视觉、智能语音、NLP、芯片，依图的下一程又在哪里？

超过清华、约翰霍普金斯团队，拿下全球声纹识别竞赛冠军

所谓声纹识别就是说话人识别，根据人说话的声音，判定人的身份的技术。

VoxSRC是基于英国牛津大学两年前发布的公开声纹识别VoxCeleb数据集组织的学术界知名比赛。

本次参赛者来自中、美、法、日本等多个国家的高校与企业，包括中山大学、约翰霍普金斯大学、清华大学、法国国家信息与自动化研究所、平安科技、NEC、君林科技等。

这是依图首次且独立参与这场竞赛，参赛队伍名称为logicworld，比赛成绩大幅领先第二名，依图、第二名和第三名队伍的 EER（等错误率）分别是 0.98% 、1.42%和1.54%。EER是判断声纹识别算法系统的综合指标，EER越小系统性能越好。

VoxCeleb数据集来自YouTube名人采访视频，含有 7000 多个不同说话人超过 100 万段语音，时长总共超过 2000 小时。不仅数据量大，VoxCeleb还充分考虑了数据的多样性，61%的发言者为男性，并且涉及不同的种族、口音、职业和年龄。

此外，VoxCeleb的数据都来自无约束场景，比如红毯采访、会谈录音，因此音频中含有大量噪音，包括背景噪音、笑声、重叠的说话声和其他杂音，收录工具也不尽相同，有的甚至是手机拍摄的粗糙视频。

来源复杂的数据集对声纹识别技术水平的要求更高，声纹识别的高准确率可以提高采用声纹识别技术进行访问控制的系统的安全性。

VoxSRC挑战赛的另一大难点，同时也是其结果备受认可的一点，就是测试数据不含标注，也就是“盲测”，确保了比赛结果的公正与公平。

参赛团队的任务是分辨一对音频是来自同一个发言者还是来自不同的发言者，可以选择固定训练集，也可以使用无约束训练集（除测试集以外的任何数据）。

依图参加的是固定训练数据集任务，在这种情况下，参赛者只能使用赛方提供的VoxCeleb2开发集，该数据集含有来自5994个讲者的超过10万句话语。

深度学习拓展声纹识别边界，深耕算法的依图赢在起跑线上

此前，深度学习在声纹识别领域并不常见，从2012年开始，深度学习逐渐介入声纹识别，进行技术的重新洗牌。

事实上，相对于图像和NLP领域，目前声纹领域所用到的神经网络和深度学习算法相对简单，提升空间依然很大。

而依图正是拥有世界顶级算法的人工智能公司，可以说是直接赢在了起跑线上。

还有一点值得注意，这次依图参加的是固定训练集任务，而其识别精度比其他使用无约束训练集的团队还高。

目前，声纹识别的后端仍被PLDA等传统处理和分类技术占据，深度学习的介入可以促使声纹识别像人脸识别一样广泛应用。

去年年底强势进军，成为智能语音界一匹黑马！

依图科技在2018年底杀入智能语音领域成为一匹“黑马”。

用以宣布进军语音战场的则是技术与产业的双重亮眼成绩：

技术上，在全球最大的中文开源数据库AISHELL-2中，依图2018年12月时的短语音听写的字错率（CER）达到3.71%，相比原业内领先者提升约20%，大幅刷新彼时纪录。
产业上，依图联合微软推出基于Azure云服务的语音开放平台，并携手华为发布软硬件一体化的“智能语音联合解决方案”，将依图语音识别技术提供给第三方应用开发者。

那时候依图就强调语音一直以来都是该公司的关注课题，进入语音识别领域是自然而然的事情，立志做世界最好的中文普通话语识别技术。

讯飞依图BAT各家算法差异巨大，讯飞依图位列第一阵营

如同以往一直坚持的“技术王道”理念，在谈到关于未来预计推出的语音产品及其功能时，依图首席创新官吕昊博士曾经表示：“实际上，我们认为技术和场景是比产品和功能更关键的要素。”

依图2018年推出的中文语音识别算法，与业内原有领先者相比，不仅大幅提升了识别准确率，而且在单个算法模型上，有极为出色的多场景适用性表现。

在全球最大中文开源数据库AISHELL-2的三个测试子集，以及来自第三方的近场口音测试集（Accent）、近场安静聊天测试集（Chat）、语音节目测试集、电话测试集、远场测试集等测试场景中，依图均处于业界领先水平，而且字错率几乎全部在15%以下。

其中，在AISHELL2的-2018A-EVAL数据集中，依图的识别准确率高达96.29%，字错率仅为3.71%，领先第二名约20%。

依图联合创始人兼CEO 朱珑

而构建生态方面，2018年12月，依图宣布与微软Azure云服务联合发布语音开放平台，将行业领先的语音识别技术能力开放给第三方应用开发者。依图也携手华为联合发布“智能语音联合解决方案”，该方案基于依图语音开放平台，以及华为全栈全场景昇腾系列芯片和面向数据中心侧的 Atlas 300 AI加速卡。

已有的生态布局，加上从语音识别到声纹识别不断进行边界拓展的技术积累，依图已经在智能语音方面握了一手好牌。

边界重塑者：视觉感知、NLP、AI芯片、智能语音，依图备齐各项AI能力

不止是在语音领域成为“黑马”，今年5月，依图在发布会上重磅推出了拥有世界级算法优势的云端AI芯片——求索，打破了算法公司与芯片硬件公司的“次元壁”。

在近两年来，依图一直在“跨界”尝试，不断重塑业务边界。