从 VLA 到人形全身控制,仅用1/10的数据量,实现40%性能反超

张开发
2026/4/19 0:12:31 15 分钟阅读

分享文章

从 VLA 到人形全身控制,仅用1/10的数据量,实现40%性能反超
面向人形机器人灵巧移动操作的 VLA 模型——质量配比≫规模目录01 核心突破从“混合训练”到“拆分学习”破解体貌差异难题02 数据高效之道少而精的训练配方重构数据利用逻辑预训练从人类第一视角视频中提取通用先验后训练用机器人数据适配关节控制微调少量任务数据实现快速适配03 关键技术支撑从训练到部署的全链路优化MM-DiT更高效的动作生成架构训练时实时动作分块RTC解决部署延迟难题定制化遥操作 pipeline保障数据质量04 实测性能8项长时任务验证刷新通用操作上限核心测试结果05 局限性与未来趋势上图来源于PSI联合英伟达等团队最新提出的Ψ0展示了在配备Dex3-1灵巧手的Unitree G1人形机器人平台上完成擦拭桌面、放置瓶子等一系列任务。与GR00T N1.6、π0.5等通过大规模混合数据端到端训练的思路不同Ψ0的核心在于将学习过程解耦以解决人类视频与人形机器人数据在动作分布上的本质差异问题。通过“语义学习”与“控制学习”的分阶段范式Ψ0在多个长程灵巧操作任务上的整体成功率相比数据量超十倍的GR00T N1.6等基线模型提升了40%以上。这一结果揭示了数据质量与配比的重要性可能超越规模的简单堆砌。当然该方法性能高度依赖预训练数据质量且长程任务执行仍需任务拆解距离端到端自主推理尚有距离。01 核心突破从“混合训练”到“拆分学习”破解体貌差异难题传统人形机器人控制模型普遍采用人类数据与机器人数据混合训练的方式但这种思路存在本质缺陷人类与机器人在运动学特征、动作频率、自由度等方面存在不可调和的差异单一模型同时学习两种截然不同的动作分布必然导致效率低下和性能妥协。即使引入领域自适应或数据融合技术也难以解决复杂长时任务中的精准控制问题。Ψ₀的核心创新在于拆分学习流程与功能定位构建“视觉-语言骨干网络动作专家底层控制器”的三级架构让不同模块专注处理专属任务视觉-语言骨干网络VLM基于Qwen3-VL-2B-Instruct预训练专注从人类第一视角视频中学习任务语义和视觉-动作关联无需直接适配机器人关节控制动作专家采用多模态扩散TransformerMM-DiT仅通过机器人数据训练专门学习关节空间的精准动作序列生成底层控制器复用成熟的RL-based跟踪策略AMO负责将高层动作指令转化为15自由度的下肢关节角度保障运动稳定性。这种设计彻底摆脱了“用单一模型适配异质数据”的困境既充分利用了人类视频的丰富任务先验又通过专门训练确保了机器人控制的精准性实现了“数据价值最大化”与“控制精度最优化”的平衡。02 数据高效之道少而精的训练配方重构数据利用逻辑在大模型 scaling 思维主导的当下Ψ₀反其道而行之——证明“数据质量×利用方式”远比单纯的数量堆砌更重要。其训练流程分为三个阶段每个阶段都有明确的目标与数据适配策略预训练从人类第一视角视频中提取通用先验预训练阶段的核心目标是学习“任务是什么”和“动作与视觉的关联”而非直接学习机器人动作。研究选用EgoDex数据集约829小时人类第一视角操作视频和少量人形机器人数据Humanoid Everyday31小时。采用统一的动作表示空间——将人类手部与机器人末端执行器的动作都编码为48自由度的任务空间向量包含手腕位姿和指尖位置等关键信息。为降低计算成本模型仅需预测单步动作而非长序列同时通过FAST tokenizer将连续动作转化为离散令牌平均压缩至20个令牌大幅提升训练效率。预训练的核心公式聚焦于动作令牌的自回归预测该公式表示模型在给定历史动作、任务指令 () 和当前观测 () 的情况下逐步预测后续动作令牌的概率本质是让模型学习“看到什么场景、收到什么指令时该做什么动作”的通用逻辑。后训练用机器人数据适配关节控制预训练完成后冻结VLM参数动作专家单独通过Humanoid Everyday数据集约300万帧真实机器人数据进行后训练。这一阶段的核心是让模型学习“机器人该如何动”直接在关节空间生成36自由度的动作序列包含手部、手臂、躯干姿态及运动速度等。动作专家采用流匹配flow-matching训练目标其中是添加高斯噪声后的动作模型需要学习从含噪动作中恢复真实动作的映射关系。这种设计让动作专家能更好地捕捉机器人的运动动力学特征生成平滑且符合物理约束的动作序列。微调少量任务数据实现快速适配针对具体任务仅需用80条teleoperation 轨迹约对应少量小时级数据微调动作专家即可让模型快速掌握长时复杂任务。这种“预训练学通用→后训练学适配→微调学专属”的流程使得Ψ₀的总机器人数据量仅为30小时不足传统方法的1/10却实现了更优性能。03 关键技术支撑从训练到部署的全链路优化Ψ₀的实用性能不仅依赖架构创新还得益于多项针对性技术优化解决了从模型训练到真实场景部署的核心痛点▲图|模型的训练与部署流程MM-DiT更高效的动作生成架构相比传统扩散TransformerDiTMM-DiT通过双调制设计和联合注意力机制实现视觉-语言特征与动作特征的深度融合。在每个Transformer块中时间条件特征分别调制动作特征和视觉-语言特征随后两类特征进行全局联合注意力计算大幅提升了“指令-视觉-动作”的关联精度。消融实验显示MM-DiT在双臂协调任务中的整体成功率比传统DiT高10%以上尤其在精细操作任务中优势明显。▲图|面向视觉 - 语言 - 动作模型的 MM-DiT 架构训练时实时动作分块RTC解决部署延迟难题▲图|实时动作分块系统设计大模型的推理延迟会导致机器人动作卡顿或抖动这是制约VLAs落地的关键问题。Ψ₀采用训练时实时动作分块技术在训练过程中随机屏蔽部分动作令牌让模型学习基于已执行动作生成后续连贯序列。部署时通过异步推理机制——控制线程30Hz负责动作执行推理线程提前计算下一段动作分块确保动作切换无缝衔接彻底消除了“思考-执行”间隙导致的抖动。▲图|实时动作分块效果展示定制化遥操作 pipeline保障数据质量▲图| 真实机器人遥操作设备搭建高质量的微调数据是精准控制的前提。Ψ₀设计了单操作者全身体控方案通过PICO头显和手腕追踪器捕捉上半身姿态MANUS数据手套获取手指精细动作腰部和足部追踪器提供移动指令再通过多目标逆运动学求解器转化为机器人关节配置。这种方案既保障了操作的灵活性与精准性又避免了多操作者协同的复杂性采集的数据更符合真实任务场景的动作逻辑。04 实测性能8项长时任务验证刷新通用操作上限团队在Unitree G1人形机器人平台配备Dex3-1灵巧手上针对8项长时复杂任务进行实测涵盖取水、清洁、搬运、倾倒等日常场景每项任务包含3-5个子任务单任务步数超过2000步30Hz采样全面考验模型的长时规划与精准控制能力。▲图|真实世界任务设置核心测试结果整体成功率平均比第二名基线模型GR00T N1.6高40%以上在“推购物车取物”“拉托盘扔垃圾”等需要全身协调的任务中成功率达到90%▲图|真实世界基准测试结果技能覆盖在抓取、放置、旋转、行走、深蹲等9类核心技能中均保持最高成功率尤其在“精细手指操作”如拧水龙头和“双臂协同”如搬箱子任务中优势显著数据效率仅用30小时机器人数据性能超过使用10倍以上数据的传统模型证明其数据利用效率的优越性。对比其他基线模型π0.5、InternVLA-M1、EgoVLA等Ψ₀的优势集中体现在三个方面长时任务的稳定性无中途失效、动作执行的流畅性无抖动或碰撞、跨任务的泛化性无需大幅调整即可适配不同场景。05 局限性与未来趋势尽管Ψ₀展现出强大的性能但仍存在明显的技术边界与改进空间▲图|人形机器人全身运动操作任务展示数据规模局限受计算资源限制未验证更大规模人类视频或机器人数据的增益效果后续可探索进一步 scaling 的潜力硬件依赖当前性能基于Unitree G1平台实现其有效载荷能力限制了重载操作任务的适配需在更强大硬件平台上验证泛化性动态环境适配未充分考虑动态干扰如物体移动、外部碰撞在非结构化动态场景中的鲁棒性有待测试多任务联合优化目前采用单任务微调策略多任务联合训练时性能会下降需探索更高效的多任务学习机制。▲图|消融实验结果从行业发展视角看Ψ₀证明无需依赖海量机器人数据通过合理拆分学习流程、优化数据利用方式就能实现高精度的全身操作。这种思路为资源有限的研究团队提供了可行路径也为行业从“数据堆砌”转向“技术创新驱动”提供了重要参考。未来随着动态环境适配、多模态融合等技术的补充这种“拆分学习少而精数据”的思路或有望成为通用人形机器人控制的主流范式。Ref论文题目Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation论文地址https://arxiv.org/pdf/2603.12263v1.pdf项目地址https://psi-lab.ai/Psi0

更多文章