酷应用

云智能数智人要有「有趣的灵魂」

百家作者：机器之心 2023-02-04 14:05:09

机器之心报道

机器之心编辑部

1 月 10 日到 11 日，机器之心「AI 科技年会」在线举行。本次活动中，基于对 2022 年人工智能研究、技术和应用的观察，机器之心邀请业内知名专家、高管及本年度深度合作企业，共同总结了过去一年人工智能的重要经历与成果，讨论了未来 AI 的发展方向。

过去几年，越来越多的数智人在各行各业不同场景成功「入职」，也推动更多行业体验到数智人作为数字经济展现之一，为实体场景服务带来的切实改变。11 日，腾讯云智能产品资深专家苏丹发表了主题演讲《腾讯云智能数智人》。他在演讲中主要介绍了腾讯云智能数智人的发展过程、关键技术支撑以及基于这些关键技术构建的平台产品。

以下为苏丹在机器之心 AI 科技年会上的演讲内容，机器之心进行了不改变原意的编辑、整理。

大家好，我是苏丹，来自腾讯云智能。今天很高兴有机会在这里跟大家做一个分享，题目是腾讯云智能数智人。内容主要包括三个部分：第一部分整体介绍腾讯云智能数智人的发展过程，首先介绍市场、政策的发展背景；第二部分介绍一些支撑数智人的关键技术；第三部分分享一下我们利用以上技术构建的一些平台产品。

第一部分数智人的市场和政策发展。相信大家在过去一两年都会有所察觉，整个市场发展非常火热。随着全真互联网的发展，包括外部输入，数字人在各行各业的落地正快速发展。IDC 在 2022 年做了一个报告分析数字人市场现状和机会，里面提到 2026 年整体市场规模大概能够达到 100 亿左右。从 2021 年到 2026 年，每年增速大概能保持 60% 到 100%，整个市场发展还是很快的。未来支持达到 100 亿规模的时候，数字人在各个行业快速落地会面临规模化复制的瓶颈，因为传统定制周期都比较长。

2022 年腾讯研究院也做了一个简单的机会预测，里面提到 AI 技术已经渗透到数字人制作全流程。随着数字人制作流程管线化和智能化，生产数字人形象周期、成本和效率都会有一个很大发展。在应用环节， AI 在感知、决策、理解以及整体交互上都有很强的应用（后面我们也会展开介绍）。

另一方面，我们也看到过去一两年里，数字人行业标准也在往一个比较好的方向发展 —— 很多行业，比如金融、证券、期货等，包括诸如中国人工智能产业发展联盟、通信标准化协议等国家层面，都在一些环节中做了规范和引导，支撑整个行业的快速发展。

现在，整体回顾一下我们自己数智人发展过程中的几个节点，以及为什么会发展到当前这样一个形态。

其实，我们团队最早是做对话式 AI，对传统对话式 AI 比较直观的理解是从文本对话慢慢演化到语音交互，包括现在智能家居和车载语音助手的形态。过去两年（我们）也进一步发现，如果将数智人与交互过程结合，可以很大程度提升客户交互体验，因为交互的过程更自然。

比如，人跟人的交流分几个步骤。首选，我们会感知到信息（比如，接收到对方语音、表情和动作）；然后进一步对这些信息进行理解。对于数字人来说，它背后有一些行业知识图谱，行业知识的积累可以给出一些反馈或者回答，并做出决策，通过更自然的表达传递给客户，表情、动作、姿态、整体驱动的各个层面都比较逼真。结合这些，我们将对话式 AI 与这种数字形象进行深度结合，打造一个多模态人际交互界面系统，提升整体服务体验。

过去四年多，我们一直致力于探索行业场景方案，希望数智人不光是外在形象展示，还能在一些实际落地场景里助力整个行业发展。过去四年，从 2018 年做的分身技术在 RICE 大会上首发，再到传媒、政务、金融等多个行业落地首发，以及今年面向公益特殊群体做手语直播，都在向行业输出一些技术价值和社会责任。输出过程中，（我们）也能看到很多同行一起朝着助力产业数字化的方向前进。

总体来说，我们的目标其实是在行业洞察或者是行业场景理解基础上，结合一些 AI 或者人物智能技术，从技术维度上助力行业提升运营效率和服务质量，提升客户感受。这里面的核心就是人工智能技术的支撑。

数智人背后的关键技术包括哪些呢？首先，数智本身是一个非常综合的 AI 类应用，每一个环节都有 AI 技术的深度参与。从最开始的数智人制作，比如形象建模中就会用到很多像视觉生成或者 3D 建模、 3D 重建的一些技术。数智人的制作不只是个静态过程，外在的包括像贴图，骨骼绑定以及表情制作，动作生成方面也有一些挑战，我们也在这里应用了诸如腾讯在游戏领域的一些积累和技术。

在驱动技术上，包括从文本或者语音进行数智人的口型、表情以及动作驱动，也综合利用了腾讯内部多个 AI 实验室（比如腾讯优图实验室、腾讯 AI lab 等）能力。在对话能力上，我们沿用了与智能的 AI 对话能力，有行业知识图谱、自然语言理解、决策智能等方面。整体而言，它其实是一个 AI 综合类应用，而且对 AI 各维度技术都有一个比较强的要求。

首先，在数智人定制环节，我们重点介绍一下当前的照片建模。大家都知道一些照片建模能力，传统（方案）一般是 CG 。这种方案一般会分为几个过程：方便拿到图片之后制作 3D 模型，再做一些融合不变形，再结合一些毛发、衣服等，做完之后再做一些贴图材质制作，再做绑定。生产一个数智人的周期一般要 2 -3 个月，这个周期还是一个比较理想的状态。现在也有比如像相机阵列的扫描方式，这种方式成本或者硬件成本相对比较高。

我们当前做的一个技术（如下图左边）是，通过一个人几张不同角度照片就能快速建模成一个比较写实的数智人。这里面通过一些 AI 手段进行几何重建、纹理重建，包括融合变形的一些制作技术，再结合一些人工的后处理，比如在口腔或者肢体里面做一些后处理。基本上 1 - 2 个人力一周时间就能做出比较理想的效果。

另外，在 2D 数智人定制方面，我们最近也发现一个趋势，就是对传统主播的打造。在制作这种比较精品形象的时候，一般会到专业录影棚进行数据采集，时间成本会比较高。我们一般会要求主播录制差不多一天左右的素材，进行整体采集。

但是，目前在企业里面，尤其像保险或者一些销售行业，对数智人定制规模有非常大的需求。比如，他们基本上会每周发送若干个视频给客户，做一些最新内容的讲解。为了支撑这样一个大规模定义需求，随着视觉生成技术的不断迭代优化，我们最新构建的方案只要录制一个两、三分钟的视频，通过我们的一些端到端技术，就可以快速构建一个 2D 数智人形象。在后续使用过程中，只要输入一些文本，我们就可以通过 TTS 和同步口型生成，打造一个一模一样的数智人分身。这里可以看一下效果。大家能看到，这里的声音、形象跟真人差异不太大。

右图数智人的播报内容：「你好，查询到您在 **** 投保了终身寿险，我们本次来电是做续保回访的。是这样的，您在我司购买的终身寿险马上就要到期了，本期保费 **** 元，为保障您的保单权益，请您在银行尾号为 **** 的银行卡存入足够的余额，我司将于 11 月 18 日开始扣款。」

除了前面介绍的形象定制之外，驱动技术是让数智人能够真正活起来、动起来的核心技术，目前普遍支持文本或者语音驱动。在腾讯内部，早在 2019 年，腾讯就在端到端的语音合成模型基础上，提出了一种改进的显示时长的合成模型，不仅能够杜绝端到端模型的一些重复或者漏字问题，我们还在此基础上进一步构建了一个多模态的数字驱动合成框架。

在几个大的系统里面，输入一个文本，系统会从文本提取各种各样信息（包括表情感、重音位置、动作、激动程度等等），通过多模态生命系统将这些信息合成真人或驱动 3D 卡通数字人形象。近几年， AI 驱动技术在多个方面持续优化和迭代。

比如，语音合成已经能够支持多风格、多情感，能够合成更丰富表现力的语音，能通过 SML 一些标识语言进行灵活、全方位细腻度的控制；在口型驱动方面，目前口型也更逼真准确，支持主流 ARKit，还有一些新的 metahuman 标准；音频驱动可以扩展到更多语种方言，对口语化和噪声等问题更加鲁棒；在动作生成方面，我们构建了庞大的动作库，已实现 AI 自动动作预测。

接下来介绍几个主要方面的效果提升。首先，针对 ARKit，它一个标准的口型驱动方案，因为目前 ARKit 仍然是一个比较常见的，使用比较广泛的主流标准。

metahuman 是近两年来一个效果非常好的超写实数智人方案。它有着很多优势，比如非常高效便捷，制作过程也非常简单。我们针对 metahuman 控制器实现了一个新的口型驱动方案，能支持对于骨骼融合变形法线综合控制，通用性也比较好。

随着 3D 数智人广泛应用于用行业场景，与真人进行交流服务，也需要更忠实、自然地去表达情感。所以，目前驱动技术一直朝着更多情感、更丰富表现力的（方向）发展。实际上，目前数智人的表达可以支持多种不同情感，不管文本驱动还是语音驱动。比如，我们可以从输入的一段文本自动预测它的情感，生成带情感的语音和面部表情。

图注：（高兴）告诉你一个好消息，我抢到我偶像演唱会门票。

进一步，我们现在结合腾讯一些新 NLP 技术（比如，这里面的情感分析、情感归因技术），能够在一段或者一句文本中进行更细粒度的表达。之前的情感作用在整段文本范围。现在，同一句话也有不同程度、更细腻的变化。

动作预测和生成也是一个让数智人变得更生动的重要技术模块。首先，我们前期就支持 2D 形象的动作驱动。近段时间，我们在 3D 数智人方面，借助腾讯游戏部门多年积累的一些生产管线（比如，自研的绑定动捕动画工具箱的一些处理工具），能快速制作、迁移一些高质量动作动画，构建了大规模 3D 动作库。同时，我们建立了基于文本进行智能动作预测和自动插入的功能。

除了 AI 驱动之外，真人动捕驱动也很重要。一般动捕方式包括传统光学动捕、惯性动捕还有视觉动捕。近些年来，单目视频动捕（单目摄像头动捕）也受到比较多关注，因为它能提供非常轻量的面向 UGC 场景的解决方案，优势是操作简单，成本也会比较低。我们也在持续提升单目视频动捕的准确性、鲁棒性、效率等。

在单目视频动捕方面，我们这里也展示两个工作。一个是整个三维人体姿态和形体的估计方法。另外就是适用于多场景的精准 3D 手势姿态。

前面介绍了我们在技术上的一些提升，我们将这些能力综合起来打造了一些平台产品。这里介绍数智人产品云服务应用平台，整体架构可以分为三层。

第一层是生产。生产包括形象、驱动中枢和多模态交互。结合形象维度，我们又拓展了一些空间方面工作，称之为空间工坊。形象工厂又分为 2D （包括 2D 真人生产管线）和 3D 写实与 3D 风格化生产管线。生产之后，会把它放到货架上，货架里面也会有诸如服装、发饰等资产。再结合一些驱动中枢、交互能力，进行完整整合。在整合之上，我们有两个平台：一个是数智人内容生产平台，一个是交互数智人平台。

刚才介绍，应用平台里有两个底层平台：一个高效的内容生产平台，还有一个是交互平台。什么是内容生产平台？就是我们能够快速制作数字人视频。比如，只需要输入演播文本，或者输入音频，结合音频就可以让数智人可以编排它的动作、形象、音色，包括服饰、配饰、姿态等，生成一个完整的数智人视频。

交互数人平台更多的是模拟面对面交流。我们可以选择一个数智人（可以是 2D 真人、2D 卡通、 3D 卡通，包括 3D 超写实数智人），选完形象之后，可以去配置衣服、发饰等。我们可以设置一个场景，建立一些智能对话 bot，编排它跟客户的一些对话方案。