高精度与鲁棒无法兼得的问题解决了!北京人形推出Heracles:人形机器人通用控制器

张开发
2026/4/12 9:55:29 15 分钟阅读

分享文章

高精度与鲁棒无法兼得的问题解决了!北京人形推出Heracles:人形机器人通用控制器
当前人形机器人通用控制长期存在高精度任务执行与强扰动鲁棒恢复无法兼顾的核心矛盾纯参考跟踪控制器在标称状态下精度优异但遭遇强扰动时会输出僵硬、非类人的动作并直接摔倒纯生成式模型虽能生成自然恢复动作却难以保证任务执行的精准度。X‑Humanoid 团队提出的Heracles 框架以状态条件扩散中间件为核心创新在不破坏零样本跟踪精度的前提下赋予机器人类人化的扰动恢复能力实现无需显式模式切换的自适应通用控制在摔倒恢复、极限扰动等场景性能显著超越传统方案。原文链接高精度与鲁棒无法兼得的问题解决了北京人形推出Heracles人形机器人通用控制器论文标题Heracles: Bridging Precise Tracking and Generative Synthesis for General Humanoid Control论文链接https://arxiv.org/abs/2603.27756痛点直击人形机器人控制的“两难困境“现有通用控制器无法平衡高精度任务执行与强扰动鲁棒性核心矛盾如下本质问题未将高层意图生成与低层高频物理执行解耦无法像人类运动系统一样在扰动时自动重规划轨迹、稳定后平滑回归任务。Heracles 通过分层中间件设计从架构层面破解这一底层矛盾。上述方案的本质问题未将高层轨迹生成与低层高频物理执行解耦无法像人类运动系统一样在失衡时自动重规划轨迹、恢复稳定后平滑回归任务。Heracles 框架通过分层生成中间件从架构层面彻底解决这一底层矛盾。核心架构跟踪与生成的无缝融合Heracles 采用分层解耦、多速率闭环架构如图 2 所示整体分为两大核心模块严格遵循 “慢规划、快执行” 的生物运动逻辑上层状态条件扩散生成中间件25Hz 低频规划根据机器人实时状态动态调制参考轨迹状态正常时近似直通、状态偏离时生成类人恢复轨迹。下层通用物理跟踪器50Hz 高频执行稳定跟踪调制后的参考轨迹输出平滑、物理可行的关节控制指令。框架全程无需显式状态机与切换规则仅依靠实时状态反馈即可在 “精准跟踪模式” 与 “生成恢复模式” 之间隐式平滑过渡。状态条件扩散生成中间件核心创新生成中间件是框架的 “大脑”负责将原始参考指令修正为物理可行、类人自然的短时域轨迹核心设计基于流匹配生成模型。1几何残差参数化不直接预测绝对轨迹坐标而是预测相对于当前本体状态的残差轨迹大幅降低近标称状态下的模型冗余让中间件在正常工况下近似 “指令直通”τ t β t r t \tau_t \beta_t r_tτt​βt​rt​其中β t \beta_tβt​为锚定当前状态的静态基准r t r_trt​为模型生成的残差增量状态接近参考时残差趋近于 0扰动较大时残差主导生成恢复路径。2连续条件流匹配将轨迹生成建模为残差空间上的条件流匹配问题通过学习连续向量场实现稳定生成训练损失聚焦速度匹配L vel E [ ∥ v ^ ( x t , t , c t ) − ( x 1 − x 0 ) ∥ 2 2 ] \mathcal{L}_{\text{vel}} \mathbb{E}\left[ \left\| \hat{v}(x_t, t, c_t) - (x_1 - x_0) \right\|_2^2 \right]Lvel​E[∥v^(xt​,t,ct​)−(x1​−x0​)∥22​]其中c t [ p t , m t ] c_t [p_t, m_t]ct​[pt​,mt​]为状态‑参考条件向量推理时仅需少量欧拉积分步即可快速输出可行轨迹。3定向热启动与非对称噪声增强定向热启动以朝向目标的线性插值作为 ODE 求解器初始值保证生成方向合理减少积分步数。非对称噪声增强仅对本体状态加噪参考指令保持干净有效弥合训练与真实部署的分布差异。通用物理跟踪器执行核心下层跟踪器负责高精度、高稳定、高频次执行轨迹是框架落地真机的关键核心技术亮点为改进有限标量量化iFSQ。1观测与动作空间观测空间为三维融合结构:o t { p t , m t , z d } o_t \{ p_t, m_t, z_d \}ot​{pt​,mt​,zd​}p t p_tpt​本体感知包含重力投影、根角速度、关节位置 / 速度、上一时刻动作。m t m_tmt​参考运动包含根速度、关节目标位置、朝向误差。z d z_dzd​离散运动嵌入由 iFSQ 量化得到的语义令牌。动作空间输出目标关节位置由底层 PD 控制器转换为稳定扭矩指令。2改进 iFSQ 离散量化采用改进有限标量量化iFSQ将高频运动信号压缩为紧凑语义令牌相比传统 VQ‑VAE码本利用率更高、跟踪误差更低量化后可形成清晰的运动语义聚类如图 6 所示。3自适应运动采样将运动语料划分为均匀时间 bin根据跟踪难度动态更新采样权重自动聚焦高难度动态技能解决大规模运动数据训练失衡问题。4奖励函数与域随机化奖励函数由跟踪奖励与物理正则奖励组成如表 1 (a) 所示兼顾跟踪精度与运动平滑性训练中注入全面域随机化如表 1 (b) 所示覆盖摩擦、质心偏移、外部推力等扰动显著提升虚实迁移能力。多速率闭环协同机制生成中间件每 0.04 秒更新一次短时域关键帧轨迹。物理跟踪器每 0.02 秒执行一次高频控制。本体状态实时回传至中间件形成 “生成规划‑物理执行‑状态反馈” 的完整闭环扰动下可快速响应并重规划。实验验证精度与鲁棒性双突破实验平台为Unitree G1 全尺寸人形机器人在 IsaacLab 仿真与真机环境完成全面验证关键训练超参数如表 2 所示。标准运动跟踪性能在101 个未见过的运动序列上测试覆盖行走、奔跑、舞蹈、武术、日常动作等Heracles 任务完成率**90.6%**超越所有对比基线如表 4 (b) 所示。关节位置误差、根高度误差、根朝向误差、线速度误差均达到最优水平。面对突变、非连续的参考信号仍保持稳定跟踪泛化能力突出。定性对比可见如图 3 所示基线方法在高难度武术动作中快速摔倒Heracles 可完整稳定执行。摔倒恢复能力核心优势在躺姿站起、俯卧站起、侧翻站起等极端恢复任务上专项评估任务完成率高达**90.0%相对 MLP 基线提升104.5%**远超第二名 VQ‑VAE69.8%如表 5 所示。关节位置误差与朝向误差显著优于所有方法恢复动作流畅自然如图 5 所示。真机实现全向摔倒恢复仰卧、侧卧、俯卧三种初始姿态均可自主平稳站起无固定方向策略如图 7 所示。扰动鲁棒性分析传统纯跟踪控制器遇强扰动时会强行最小化即时误差输出刚性矫正动作直接摔倒Heracles 可涌现类人恢复行为迈出补偿步扩大支撑面。协调手臂摆动调整角动量。躯干渐进回正稳定后平滑回归原任务。全程无僵硬动作、无物理不可行扭矩鲁棒性提升显著。消融实验核心模块不可或缺固定物理跟踪器单独消融生成中间件关键设计结果如表 6 所示移除定向热启动完成率下降 3.8%关节误差上升 22.3%轨迹方向稳定性大幅降低。移除非对称噪声增强完成率下降 13.2%高度误差上升 91.5%仿真‑真机分布差距扩大鲁棒性直接崩溃。移除运动学感知加权完成率下降 9.4%朝向误差上升 48.6%大姿态变换场景跟踪失效。所有核心模块共同作用才能保障框架的跟踪精度与恢复鲁棒性。结论与范式价值核心贡献提出生成式控制中间件全新范式首次在统一框架内实现高精度零样本跟踪与类人扰动恢复。实现状态驱动的隐式自适应切换无需人工规则在跟踪与恢复间平滑过渡。在全尺寸人形机器人上完成真机验证可直接部署于复杂真实环境。局限与未来方向框架依赖大规模高质量运动捕捉数据集小样本 / 零参考学习能力有待提升。未融合视觉、触觉等多模态感知复杂非结构化环境适应性可进一步加强。未来可扩展至双足跑酷、精细操作、人机交互、多机器人协同等更复杂场景。总结Heracles 框架跳出 “纯跟踪” 与 “纯生成” 的二元对立以状态条件扩散中间件重构人形机器人控制逻辑让人形机器人在保持高精度任务执行能力的同时获得接近人类的抗扰动与摔倒恢复能力。它不仅是控制算法的创新更为人形机器人从实验室走向家庭服务、工业作业、应急救援等真实场景提供了可工程化、可规模化落地的通用控制底层方案。重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

更多文章