酷应用

新闻
- 看点
- 观点
- 读点
- 热点
科技
- 数码
- 软件
- 应用
- 极客
企服
- 电商
- 运营
- 移动
- 访谈
- 动态
- 招聘
- 访谈
- 百家
安全
- 业界
- 快讯
- 技术
- 校园
- 工具
文娱
- 明星
- 影视
- 音乐
- 网娱
- 韩娱
- 词典
游戏
- 手游
- 页游
- 端游
好货
- 报道
- 值得买
- 健康

lingbot-VA – 蚂蚁灵波科技开源的视频-动作世界模型

动态来源：AI工具集 2026-02-07 23:22:18

lingbot-VA 是什么

LingBot-VA 是蚂蚁灵波科技开源的全球首个面向通用机器人控制的因果视频-动作世界模型。模型将视频世界建模与策略学习统一为自回归框架，使机器人能同时预测未来状态，执行精确闭环控制。模型仅需30-50次真实演示即可学习新技能，在长程任务、数据高效后训练和泛化能力上显著优于主流基准模型。

lingbot-VA 的主要功能

统一视频-动作建模：将视觉动态预测与动作执行整合到单一框架，实现”边想象、边行动”的闭环控制。
长程任务执行：模型擅长处理需要多步骤规划的复杂任务（如准备早餐、拆包裹），具备长期记忆能力，不会被循环状态迷惑。
高效后训练：仅需30-50次真实演示即可学习新技能，成功率比基准模型（如π₀.₅）高约20%。
跨场景泛化：模型支持精细操作（插入试管、拾取螺丝）、柔性物体操作（折叠衣物）及铰接物体控制（打开抽屉）。

lingbot-VA 的技术原理

自回归扩散架构：LingBot-VA 采用自回归扩散框架，将视觉动态预测与动作推理统一到单一交错序列中，使机器人能同时推理未来状态、执行精确的闭环控制，实现视频生成与动作决策的深度融合。
三阶段处理框架：框架分为三个阶段：自回归视频生成模块根据当前观测和语言指令预测未来帧；逆向动力学模型（IDM）从预测视频中解码出具体动作；在执行动作后，用真实观测替换视频 KV-cache，将模型锚定在实际结果上，形成闭环控制。
逆向动力学模型：IDM 能从预测视频中准确解码动作，在不同环境和不同机器人本体之间展现出良好的泛化能力，是连接”想象”与”执行”的关键桥梁。
真实数据预训练：模型在大规模机器人视频-动作数据集上进行预训练，学习丰富的视觉动态特性，为理解物理世界的演变在其中运作奠定坚实基础。

lingbot-VA 的项目地址

项目官网：https://technology.robbyant.com/lingbot-va
GitHub仓库：https://github.com/Robbyant/lingbot-va
HuggingFace模型库：https://huggingface.co/collections/robbyant/lingbot-va
技术论文：https://github.com/Robbyant/lingbot-va/blob/main/LingBot_VA_paper.pdf

lingbot-VA 的应用场景

家庭长程任务：LingBot-VA 可执行准备早餐、拆包裹等需要多步骤规划与长期记忆的家庭复合任务。
高精度工业操作：模型适用插入试管、拾取螺丝等要求亚毫米级控制精度的精密工业场景。
柔性物体处理：LingBot-VA 能处理折叠衣物等可变形物体，理解材质特性、适应动态形变过程。
铰接物体交互：模型支持打开抽屉等机械结构操作，精准处理约束条件与运动学关系。
少样本快速适应：模型特别适用仅需30-50次演示即可学习新技能的数据高效场景。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表爱尖刀立场

本文由小啊喵发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/master/486899.html

AI工具集 LingBot-VA 蚂蚁灵波科技

图库

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数