FlowAct-R1 – 字节推出的实时交互数字人视频生成框架

动态 来源:AI工具集 2026-01-26 02:56:40

FlowAct-R1是什么

FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架,仅需单张参考图和音频,支持流式生成无限时长的全身动态视频。框架通过分块扩散强制策略和多模态大语言模型实现低延迟(1.5秒首帧)和25fps的稳定实时响应,能精细控制数字人的面部表情与肢体动作,适用视频会议、虚拟陪伴和直播互动等场景,具有强大的泛化能力,可驱动多种风格角色。

FlowAct-R1的主要功能

  • 实时交互与无限时长生成:框架仅需单张参考图和音频输入,可流式生成无限时长的全身动态视频,支持长时间稳定运行,无崩脸等常见问题。
  • 低延迟与高帧率:框架能实现1.5秒首帧低延迟和25fps的稳定实时响应,确保交互过程流畅自然,适用视频会议、直播互动等场景。
  • 全身动作与表情控制:通过多模态指令精细控制数字人的面部表情和肢体动作,如倾听、思考、手势等,让交互更加生动、真实。
  • 强大的泛化能力:框架不限特定人物,可从单张参考图驱动各种风格的角色,包括写实照片、二次元动漫、艺术画风等。

FlowAct-R1的技术原理

  • 流式生成与无限时长:框架采用分块扩散强制策略,将视频切成小块逐块生成,用结构化记忆库确保画面衔接,实现理论上的无限时长生成。
  • 实时性能优化:框架爱结合多阶段蒸馏技术,将扩散模型的去噪步数压缩至3步。结合FP8量化和算子融合,大幅降低显存读写开销,最终实现25fps、480p的实时生成能力。
  • 全身控制与行为规划:框架爱引入多模态大语言模型作为“大脑”,根据语音和上下文判断数字人应做出的动作,实现细粒度的自然动作规划,消除机械感。
  • 高保真视觉效果:框架在生成过程中保持高保真视觉效果,通过优化的模型架构和训练策略,确保生成视频在不同风格和场景下的高质量表现。

FlowAct-R1的项目地址

  • 项目官网:https://grisoon.github.io/FlowAct-R1/

  • arXiv技术论文:https://arxiv.org/pdf/2601.10103

FlowAct-R1的应用场景

  • AI直播:框架能实现24小时不间断、实时互动的直播,支持多语言和风格切换,提升观众参与感。
  • 视频会议:作为虚拟参会者,提供自然的肢体语言和互动,增强会议真实感,支持多语言翻译。
  • 虚拟陪伴:生成个性化虚拟伴侣,提供情感支持和互动娱乐,满足用户陪伴需求。
  • 在线教育:作为虚拟教师,提供生动教学和个性化辅导,支持多语言教学。
  • 客户服务:作为虚拟客服,实时解答客户问题,提供多语言支持,提升客户满意度。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接