酷应用

LongCat-Video-Avatar – 美团开源的数字人视频生成模型

软件来源：AI工具集 2025-12-22 14:35:58

LongCat-Video-Avatar是什么

LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频，保持人物身份一致性和自然动态。LongCat-Video-Avatar支持多种生成模式，包括音频文本生成视频（AT2V）、音频文本图像生成视频（ATI2V）和视频续写。通过解耦音频信号与动作、避免重复内容和减少 VAE 错误累积等技术，实现高质量、长时间的视频生成，可用于演员表演、歌手动态、播客、销售演示及多人互动场景。

LongCat-Video-Avatar的主要功能

多模式视频生成：支持音频文本生成视频（AT2V）、音频文本图像生成视频（ATI2V）和视频续写，满足不同场景的多样化需求。
自然动态与身份一致性：模型能保持人物身份一致，生成自然的面部表情、口型同步和肢体动作，在多人互动场景中能维持自然流畅的对话行为。
高质量视频生成：通过解耦音频信号与动作，避免静音时的僵硬行为，减少像素退化，确保长视频的稳定性和一致性。
多样化应用场景：适用演员表演、歌手展示、播客、销售演示等场景，为不同领域提供高质量的视频生成解决方案。

LongCat-Video-Avatar的技术原理

解耦语音与动作（Disentangled Unconditional Guidance）：通过区分语音信号与整体动作，模型在静音片段中也能生成自然的肢体动作，避免因过度依赖语音信号导致的静态行为，实现更自然的动态表现。
参考跳过注意力机制（Reference Skip Attention）：该机制有选择性地引入参考图像信息，能保持人物身份的一致性，防止因参考图像过度泄漏导致的“复制粘贴”现象，平衡视觉保真度与动作多样性。
跨块潜在缝合策略（Cross-Chunk Latent Stitching）：通过减少自回归生成中冗余的 VAE 解码 – 编码循环，降低像素退化问题，避免长视频生成中的累积误差，确保视频的连贯性和一致性。
基于扩散模型的统一框架（Unified DiT-based Framework）：采用基于扩散模型（Diffusion Model）的架构，能生成超逼真的长时长视频，支持多种生成模式，包括音频文本到视频（AT2V）、音频文本图像到视频（ATI2V）以及视频续写。
多流音频输入支持：支持单流或多流音频输入，通过 L-ROPE（Learnable Relative Positional Encoding）技术实现音频与视觉信息的绑定，适应复杂的多人交互场景。