从 VLA 到人形全身控制，仅用1/10的数据量，实现40%性能反超

张开发

• 2026/6/9 17:49:11 • 15 分钟阅读

分享文章

面向人形机器人灵巧移动操作的 VLA 模型——质量配比≫规模目录01 核心突破从“混合训练”到“拆分学习”破解体貌差异难题02 数据高效之道少而精的训练配方重构数据利用逻辑预训练从人类第一视角视频中提取通用先验后训练用机器人数据适配关节控制微调少量任务数据实现快速适配03 关键技术支撑从训练到部署的全链路优化MM-DiT更高效的动作生成架构训练时实时动作分块RTC解决部署延迟难题定制化遥操作 pipeline保障数据质量04 实测性能8项长时任务验证刷新通用操作上限核心测试结果05 局限性与未来趋势上图来源于PSI联合英伟达等团队最新提出的Ψ0展示了在配备Dex3-1灵巧手的Unitree G1人形机器人平台上完成擦拭桌面、放置瓶子等一系列任务。与GR00T N1.6、π0.5等通过大规模混合数据端到端训练的思路不同Ψ0的核心在于将学习过程解耦以解决人类视频与人形机器人数据在动作分布上的本质差异问题。通过“语义学习”与“控制学习”的分阶段范式Ψ0在多个长程灵巧操作任务上的整体成功率相比数据量超十倍的GR00T N1.6等基线模型提升了40%以上。这一结果揭示了数据质量与配比的重要性可能超越规模的简单堆砌。当然该方法性能高度依赖预训练数据质量且长程任务执行仍需任务拆解距离端到端自主推理尚有距离。01 核心突破从“混合训练”到“拆分学习”破解体貌差异难题传统人形机器人控制模型普遍采用人类数据与机器人数据混合训练的方式但这种思路存在本质缺陷人类与机器人在运动学特征、动作频率、自由度等方面存在不可调和的差异单一模型同时学习两种截然不同的动作分布必然导致效率低下和性能妥协。即使引入领域自适应或数据融合技术也难以解决复杂长时任务中的精准控制问题。Ψ₀的核心创新在于拆分学习流程与功能定位构建“视觉-语言骨干网络动作专家底层控制器”的三级架构让不同模块专注处理专属任务视觉-语言骨干网络VLM基于Qwen3-VL-2B-Instruct预训练专注从人类第一视角视频中学习任务语义和视觉-动作关联无需直接适配机器人关节控制动作专家采用多模态扩散TransformerMM-DiT仅通过机器人数据训练专门学习关节空间的精准动作序列生成底层控制器复用成熟的RL-based跟踪策略AMO负责将高层动作指令转化为15自由度的下肢关节角度保障运动稳定性。这种设计彻底摆脱了“用单一模型适配异质数据”的困境既充分利用了人类视频的丰富任务先验又通过专门训练确保了机器人控制的精准性实现了“数据价值最大化”与“控制精度最优化”的平衡。02 数据高效之道少而精的训练配方重构数据利用逻辑在大模型 scaling 思维主导的当下Ψ₀反其道而行之——证明“数据质量×利用方式”远比单纯的数量堆砌更重要。其训练流程分为三个阶段每个阶段都有明确的目标与数据适配策略预训练从人类第一视角视频中提取通用先验预训练阶段的核心目标是学习“任务是什么”和“动作与视觉的关联”而非直接学习机器人动作。研究选用EgoDex数据集约829小时人类第一视角操作视频和少量人形机器人数据Humanoid Everyday31小时。采用统一的动作表示空间——将人类手部与机器人末端执行器的动作都编码为48自由度的任务空间向量包含手腕位姿和指尖位置等关键信息。为降低计算成本模型仅需预测单步动作而非长序列同时通过FAST tokenizer将连续动作转化为离散令牌平均压缩至20个令牌大幅提升训练效率。预训练的核心公式聚焦于动作令牌的自回归预测该公式表示模型在给定历史动作、任务指令 () 和当前观测 () 的情况下逐步预测后续动作令牌的概率本质是让模型学习“看到什么场景、收到什么指令时该做什么动作”的通用逻辑。后训练用机器人数据适配关节控制预训练完成后冻结VLM参数动作专家单独通过Humanoid Everyday数据集约300万帧真实机器人数据进行后训练。这一阶段的核心是让模型学习“机器人该如何动”直接在关节空间生成36自由度的动作序列包含手部、手臂、躯干姿态及运动速度等。动作专家采用流匹配flow-matching训练目标其中是添加高斯噪声后的动作模型需要学习从含噪动作中恢复真实动作的映射关系。这种设计让动作专家能更好地捕捉机器人的运动动力学特征生成平滑且符合物理约束的动作序列。微调少量任务数据实现快速适配针对具体任务仅需用80条teleoperation 轨迹约对应少量小时级数据微调动作专家即可让模型快速掌握长时复杂任务。这种“预训练学通用→后训练学适配→微调学专属”的流程使得Ψ₀的总机器人数据量仅为30小时不足传统方法的1/10却实现了更优性能。03 关键技术支撑从训练到部署的全链路优化Ψ₀的实用性能不仅依赖架构创新还得益于多项针对性技术优化解决了从模型训练到真实场景部署的核心痛点▲图|模型的训练与部署流程MM-DiT更高效的动作生成架构相比传统扩散TransformerDiTMM-DiT通过双调制设计和联合注意力机制实现视觉-语言特征与动作特征的深度融合。在每个Transformer块中时间条件特征分别调制动作特征和视觉-语言特征随后两类特征进行全局联合注意力计算大幅提升了“指令-视觉-动作”的关联精度。消融实验显示MM-DiT在双臂协调任务中的整体成功率比传统DiT高10%以上尤其在精细操作任务中优势明显。▲图|面向视觉 - 语言 - 动作模型的 MM-DiT 架构训练时实时动作分块RTC解决部署延迟难题▲图|实时动作分块系统设计大模型的推理延迟会导致机器人动作卡顿或抖动这是制约VLAs落地的关键问题。Ψ₀采用训练时实时动作分块技术在训练过程中随机屏蔽部分动作令牌让模型学习基于已执行动作生成后续连贯序列。部署时通过异步推理机制——控制线程30Hz负责动作执行推理线程提前计算下一段动作分块确保动作切换无缝衔接彻底消除了“思考-执行”间隙导致的抖动。▲图|实时动作分块效果展示定制化遥操作 pipeline保障数据质量▲图| 真实机器人遥操作设备搭建高质量的微调数据是精准控制的前提。Ψ₀设计了单操作者全身体控方案通过PICO头显和手腕追踪器捕捉上半身姿态MANUS数据手套获取手指精细动作腰部和足部追踪器提供移动指令再通过多目标逆运动学求解器转化为机器人关节配置。这种方案既保障了操作的灵活性与精准性又避免了多操作者协同的复杂性采集的数据更符合真实任务场景的动作逻辑。04 实测性能8项长时任务验证刷新通用操作上限团队在Unitree G1人形机器人平台配备Dex3-1灵巧手上针对8项长时复杂任务进行实测涵盖取水、清洁、搬运、倾倒等日常场景每项任务包含3-5个子任务单任务步数超过2000步30Hz采样全面考验模型的长时规划与精准控制能力。▲图|真实世界任务设置核心测试结果整体成功率平均比第二名基线模型GR00T N1.6高40%以上在“推购物车取物”“拉托盘扔垃圾”等需要全身协调的任务中成功率达到90%▲图|真实世界基准测试结果技能覆盖在抓取、放置、旋转、行走、深蹲等9类核心技能中均保持最高成功率尤其在“精细手指操作”如拧水龙头和“双臂协同”如搬箱子任务中优势显著数据效率仅用30小时机器人数据性能超过使用10倍以上数据的传统模型证明其数据利用效率的优越性。对比其他基线模型π0.5、InternVLA-M1、EgoVLA等Ψ₀的优势集中体现在三个方面长时任务的稳定性无中途失效、动作执行的流畅性无抖动或碰撞、跨任务的泛化性无需大幅调整即可适配不同场景。05 局限性与未来趋势尽管Ψ₀展现出强大的性能但仍存在明显的技术边界与改进空间▲图|人形机器人全身运动操作任务展示数据规模局限受计算资源限制未验证更大规模人类视频或机器人数据的增益效果后续可探索进一步 scaling 的潜力硬件依赖当前性能基于Unitree G1平台实现其有效载荷能力限制了重载操作任务的适配需在更强大硬件平台上验证泛化性动态环境适配未充分考虑动态干扰如物体移动、外部碰撞在非结构化动态场景中的鲁棒性有待测试多任务联合优化目前采用单任务微调策略多任务联合训练时性能会下降需探索更高效的多任务学习机制。▲图|消融实验结果从行业发展视角看Ψ₀证明无需依赖海量机器人数据通过合理拆分学习流程、优化数据利用方式就能实现高精度的全身操作。这种思路为资源有限的研究团队提供了可行路径也为行业从“数据堆砌”转向“技术创新驱动”提供了重要参考。未来随着动态环境适配、多模态融合等技术的补充这种“拆分学习少而精数据”的思路或有望成为通用人形机器人控制的主流范式。Ref论文题目Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation论文地址https://arxiv.org/pdf/2603.12263v1.pdf项目地址https://psi-lab.ai/Psi0

更多文章

前端开发 2026/5/12 18:41:22

BilibiliDown终极指南：3分钟掌握B站视频批量下载的完整解决方案

BilibiliDown终极指南：3分钟掌握B站视频批量下载的完整解决方案【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_…

张开发

前端开发 2026/5/12 18:41:21

Qt6.4内置PDF模块实战：5步打造带缩略图导航的阅读器（Windows环境）

Qt6.4 PDF阅读器开发实战：构建高效缩略图导航系统在Windows平台上开发PDF阅读器时，性能优化和用户体验往往是开发者最关注的两个核心问题。Qt6.4引入的原生PDF模块为开发者提供了全新的解决方案，相比以往依赖第三方库的方式，不仅…

张开发

前端开发 2026/5/12 18:41:19

Qwen3-VL-4B Pro参数详解：Temperature/Max Tokens滑块调节效果实测

Qwen3-VL-4B Pro参数详解：Temperature/Max Tokens滑块调节效果实测 1. 项目概述 Qwen3-VL-4B Pro是基于阿里通义千问官方Qwen/Qwen3-VL-4B-Instruct模型构建的高性能视觉语言模型服务。相比轻量版的2B模型，这个4B版本在视觉语义理解和逻辑推理能力方面…

张开发

前端开发 2026/5/12 18:41:17

Pixel Dream Workshop 快速上手：Python 零基础入门到生成第一幅AI画作

Pixel Dream Workshop 快速上手：Python 零基础入门到生成第一幅AI画作 1. 前言：为什么选择Pixel Dream Workshop 如果你对AI绘画感兴趣但苦于没有编程基础，这篇教程就是为你量身定制的。Pixel Dream Workshop是一个对新手极其友好的AI绘画工…

张开发

前端开发 2026/5/12 18:41:16

突破Navicat试用期限制：从原理到实践的完整技术指南

突破Navicat试用期限制：从原理到实践的完整技术指南【免费下载链接】navicat_reset_mac navicat16 mac版无限重置试用期脚本项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 作为数据库管理领域的行业标准工具，Navicat凭借其直…

张开发

前端开发 2026/5/12 18:41:14

Qwen3-VL-30B部署避坑指南：从下载到运行一气呵成

Qwen3-VL-30B部署避坑指南：从下载到运行一气呵成 1. 为什么选择Qwen3-VL-30B Qwen3-VL-30B是目前通义千问系列中最强大的视觉-语言模型，它在多个方面实现了显著提升： 更优秀的文本理解和生成：能够处理复杂语义和长文本更深入的…

张开发

前端开发 2026/6/3 14:42:26

Windows桌面终极革命：Seelen-UI完整指南

Windows桌面终极革命：Seelen-UI完整指南【免费下载链接】Seelen-UI The Fully Customizable Desktop Environment for Windows 10/11. 项目地址: https://gitcode.com/GitHub_Trending/se/Seelen-UI 你是否厌倦了Windows千篇一律的桌面体验？想要…

张开发

前端开发 2026/5/12 18:41:11

KEIL 5.38如何手动安装ARM Compiler V5？完整配置流程分享

KEIL 5.38手动安装ARM Compiler V5全流程指南：从零配置到项目迁移在嵌入式开发领域，维护历史遗留代码是工程师们经常面临的挑战。当你在KEIL 5.38环境下打开一个老项目时，可能会遇到这样的报错："Error: C3900U: Unrecogniz…

张开发

前端开发 2026/5/12 18:41:09

AI辅助开发：探索未来数字图书馆——为你的zlibrary应用注入智能问答能力

今天想和大家分享一个有趣的实践：如何用AI为数字图书馆（比如zlibrary这类应用）增加智能问答能力。这个功能可以让读者直接和书籍"对话"，获得更直观的阅读辅助体验。项目构思我设想了一个简单的演示页面，主…

张开发

前端开发 2026/5/12 18:41:07

告别重复劳动：用快马平台生成自动化工具，批量搞定vlookup跨表匹配

告别重复劳动：用快马平台生成自动化工具，批量搞定vlookup跨表匹配作为一名经常需要处理大量数据匹配工作的分析师，我深知手动使用vlookup函数进行跨表匹配有多痛苦。每次都要重复打开表格、输入公式、拖动填充，不仅效率低下&…

张开发

前端开发 2026/5/30 9:29:35

如何用帧插值技术实现视频流畅度优化：从原理到实战的完整指南

如何用帧插值技术实现视频流畅度优化：从原理到实战的完整指南【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/v…

张开发

前端开发 2026/5/12 20:30:47

实战分享：如何用本地替换和插桩调试搞定Kasada最新版x-kpsdk-cd环境检测

逆向工程实战：Kasada最新版x-kpsdk-cd环境检测的深度调试策略在当今Web安全防护体系中，Kasada作为新一代反自动化攻击解决方案，其x-kpsdk-cd机制通过动态加密和运行时环境检测构建了强大的防御层。面对从280位扩展到294位的加密数组和Proxy保…

张开发

从 VLA 到人形全身控制，仅用1/10的数据量，实现40%性能反超

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

BilibiliDown终极指南：3分钟掌握B站视频批量下载的完整解决方案

Qt6.4内置PDF模块实战：5步打造带缩略图导航的阅读器（Windows环境）

Qwen3-VL-4B Pro参数详解：Temperature/Max Tokens滑块调节效果实测

Pixel Dream Workshop 快速上手：Python 零基础入门到生成第一幅AI画作

突破Navicat试用期限制：从原理到实践的完整技术指南

Qwen3-VL-30B部署避坑指南：从下载到运行一气呵成

Windows桌面终极革命：Seelen-UI完整指南

KEIL 5.38如何手动安装ARM Compiler V5？完整配置流程分享

AI辅助开发：探索未来数字图书馆——为你的zlibrary应用注入智能问答能力

告别重复劳动：用快马平台生成自动化工具，批量搞定vlookup跨表匹配

如何用帧插值技术实现视频流畅度优化：从原理到实战的完整指南

实战分享：如何用本地替换和插桩调试搞定Kasada最新版x-kpsdk-cd环境检测