UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型
UnifoLM-VLA-0是什么
UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号,实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务,在 LIBERO 仿真基准测试中平均准确率达 98.7%,展现出强大的空间推理能力和跨任务泛化性能。

UnifoLM-VLA-0的主要功能
通用机器人操作:作为端到端的视觉-语言-动作模型,UnifoLM-VLA-0 能通过自然语言指令控制人形机器人完成复杂操作任务,包括整理物品、叠毛巾、分拣水果、工具归位、擦拭桌面等12类多步骤长程任务。
空间感知与推理:模型具备强大的2D/3D空间理解能力,包括物体检测与分割、3D边界框预测、空间关系推理(如”左边的铅笔”)、 affordance 推理(可抓取位置判断)以及轨迹规划。
单策略多任务:仅需单一模型权重即可泛化到不同场景和任务,无需针对每个任务单独训练,展现出优异的跨任务迁移能力。
UnifoLM-VLA-0的技术原理
模型架构:基于开源 Qwen2.5-VL-7B 视觉语言大模型,新增 Action Head 动作预测头,构建端到端的视觉-语言-动作架构,实现从视觉感知和自然语言理解直接输出机器人控制动作。
持续预训练:模型在覆盖机器人与通用场景的多任务数据集上进行持续预训练,整合 2D 检测分割、层次化任务分解、3D 物体检测、空间推理、轨迹预测等多样化监督信号,强化模型的多模态感知与物理理解能力。
动作建模:模型引入动作块预测机制,同时施加前向与逆向动力学约束,对动作序列进行统一建模,使模型深入理解机器人与物体间的物理交互动态,支持长程动作规划与决策。
空间增强:通过深度融合文本指令与 2D/3D 空间细节,建立语义逻辑与几何空间的精准对齐,显著提升空间感知与几何理解能力,满足操作任务对指令理解和空间推理的要求。
UnifoLM-VLA-0的项目地址
项目官网:https://unigen-x.github.io/unifolm-vla.github.io/
GitHub仓库:https://github.com/unitreerobotics/unifolm-vla
UnifoLM-VLA-0的应用场景
家庭服务:模型可执行整理桌面、折叠毛巾、擦拭污渍等日常家务操作任务。
办公辅助:模型能完成收拾文具、整理书包、工具归位等办公环境维护工作。
医疗健康:支持开启药瓶、分装药品等需要精细操作的医疗辅助场景。
教育培训:可用于按颜色分类物品、堆叠积木等结构化认知教学演示。
工业分拣:模型支持实现按规则将水果、零件等物品分类放置到指定区域的自动化分拣。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675


![99跑起来太难了今天就是一整个大乌龙事件[悲伤]讨厌水逆 2昆明 ](https://imgs.knowsafe.com:8087/img/aideep/2021/10/4/eca59838bdc102dcf3ed634b9b990778.jpg?w=250)




dulianmaomao
