酷应用

NVIDIA 发布全新预训练模型，迁移学习工具包3.0全面公开可用

百家作者：VRPinea 2021-06-30 21:47:14

6月24日，英伟达在CVPR 2021期间发布了全新预训练模型，并宣布迁移学习工具包（TLT）3.0全面公开可用。

迁移学习工具包在NVIDIA TAO平台指导工作流程以创建AI的过程中，起到核心作用。新版本包括各种高精度和高性能计算机视觉和对话式AI预训练模型，以及一套强大的生产级功能，可将AI开发能力提升10倍。

此外，NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2VidCameo。该模型借助生成式对抗网络(GAN)，只需上传一张人物图像，即能让参会者在参会期间时刻保持跟上传图像相似的仪容。

无需从零训练，快速定制AI模型

对于许多尝试使用开源AI产品创建模型进行训练的工程和研究团队来说，在生产中部署自定义、高精度、高性能AI模型可能是一段十分艰难的开发历程。NVIDIA提供高质量的预训练模型和TLT以帮助降低大规模数据采集和标注成本，同时告别从头开始训练AI机器学习模型的负担。初入计算机视觉和语音服务市场的企业，现在也可以在不具备大规模AI开发团队的情况下部署生产级AI。

迁移学习，是将现有神经网络模型中的学习特征提取到新模型中，这降低了AI模型应用到某一具体领域的应用门槛。NVIDIA 迁移学习工具包(TLT)，在一个简化的训练工具包中提供了迁移学习的能力，通过抽象出AI深度学习框架的复杂性来简化训练，使得开发人员只需用一小部分数据，就能快速定制出满足自身应用需求的高质量AI模型。

此外，TLT 3.0现在还与数家领先合作伙伴的平台集成，这些合作伙伴提供大量多样化的高质量标签数据，使端到端AI机器学习工作流程变得更快。现在可以使用这些合作伙伴的服务来生成和注释数据、通过与TLT无缝集成进行模型训练和优化并使用DeepStream SDK，或Jarvis部署模型以创建可靠的计算机视觉和对话式AI应用。

内置多款预训练模型，降低开发门槛

TLT 3.0内置多种新版预训练模型，范围包括计算机视觉和自然语言领域，像是车牌识别、心率监测、情绪识别、人脸特征点和语音识别等，要来加速企业采用AI的过程。预训练模型和迁移学习能降低AI模型的开发门槛，用户不必从零开始大规模收集训练资料、标注资料，而是以少量资料来微调预训练模型即可。

预训练模型有2大类，一是计算机视觉。新版特色包括比热门姿势预测模型OpenPose推论速度快9倍、支持边缘即时推论的BodyPostNet模型，还有用来侦测人员的语义分割网络PeopleSemSegNet，以及车牌侦测和识别、手势侦测、情绪识别、人脸特征点等。

另一类是自然语言相关的对话式AI，新版特色有全新的语音识别模型CitriNet、用于问答的新模型Megatron Uncased，以及数款可支持语音转文本、命名实体识别(Named-entity recognition)、标点符号和文本分类的预训练模型。

这些在市面上已经有出现的应用案例，比如Recycleye已经用TLT和后端的DeepStream SDK来做垃圾（waste）分类；还有Nota用类似的方案实现智慧交通，通过更好的调度来减少路面塞车时间。

重塑视频会议

用GAN改变参会者仪容

除了发布TLT 3.0外，NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2Vid Cameo。该模型借助生成式对抗网络(GAN)，仅用一张人物2D图像即可合成逼真的AI人脸说话动态，能让参会者在会议期间时刻保持着良好的参会状态。

用于视频会议的时，只需要上传一张个人照片——比如穿正装的照片，那么Vid2Vid Cameo就会藉由这张照片，加上会议过程中捕捉人物动作、面部表情，将动作应用于上传的静态照片，形成动态视频。在家参与网络会议时，即便现实中穿睡衣也能在画面中看起来是穿着正装的。此外，如果参会者往左转，该技术还能调整视角，使得参会者看起来是直接面朝摄像头的。

该模型基于NVIDIA DGX系统开发，使用包含18万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别20个关键点，这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征（包括眼睛、嘴和鼻子）的位置进行编码。

然后，它会从通话主导者的参照图像中提取这些关键点，这些关键点可以提前发送给其他的视频会议参与者，也可以重新用于之前的会议。这样一来，视频会议平台只需发送演讲者面部关键点的移动情况数据，无需将某参与者的大量直播视频流推送给其他人。对于接收者一端，GAN模型会使用此信息，模拟参照图像的外观以合成一个视频。

通过仅来回压缩及发送头部位置和关键点，而不是完整的视频流，此技术将视频会议所需的带宽降低10倍，从而提供更流畅的用户体验。该模型可以进行调整，传输不同数量的关键点，以实现在不影响视觉质量的条件下，适应不同的带宽环境。这样在网络质量不佳的时候，也不会有问题。

以GPU出名的NVIDIA，驱动了PC游戏市场的增长，重新定义了现代计算机图形、高性能计算和人工智能。NVIDIA现在的软件实力也不容小觑，已经成为其关键竞争力。NVIDIA Omniverse就是专为虚拟协作和物理属性准确的实时模拟打造的开放式平台。在共享的虚拟空间中用户和团队主要设计工具、资源和项目以协同进行迭代，该平台也让创作者、设计师和工程师的复杂可视化工作流程发生转变。Omniverse平台目标应用场景和行业包括：建筑、工程和施工，制造业、媒体与娱乐产业、超级计算、云服务等平台。

从桌面到数据中心再到云端，NVIDIA的可视化平台一直在推动着创新的发展，同时带来了非凡的性能与功能。无论是在开发尖端产品、讲述沉浸式故事，亦或是重塑未来城市， NVIDIA的专业解决方案都能够帮助用户更快地取得更好的效果。NVIDIA逐步走到台前，软硬件协同，更好地解决了客户需求，加速客户的AI升级。