开创VLA的那帮人,正在抛弃VLA

张开发
2026/4/13 14:33:14 15 分钟阅读

分享文章

开创VLA的那帮人,正在抛弃VLA
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 行业动态和行业报告等。▲【具身智能】微信群转载自机器之心具身智能真的变天了上个星期 明星创业公司 Generalist AI 发布的 GEN-1 模型凭借在各项机器人任务中的极高成功率引发了行业震动。GEN-1 在三个核心维度上都实现了跨越式提升成功率超过 99%速度提升 2-3 倍只需要上代模型 1/10 的数据和微调就能达到同样的性能表现。Generalist AI 成立于 2024 年核心愿景是让「通用型机器人」成为现实。凭借其极具潜力的技术路线该公司在早期就获得了包括英伟达和 boldstart ventures 等机构的投资支持。该公司的核心创始团队可谓豪华 ——CEO Pete Florence 来自 Google DeepMindCTO Andrew Barry 来自波士顿动力首席科学家 Andy Zeng 曾任 Google DeepMind 研究科学家。加入 Generalist 前该公司的部分成员参与了 PaLM-E、RT-2 等模型的研发与发布负责将 ChatGPT、GPT-4 规模化推广至数亿用户或参与 Atlas、Spot、Stretch 等关键自动驾驶技术与机器人系统开发。在 GEN-1 之前他们推出的 GEN-0 模型已经验证了「物理交互数据可以转化为可预测、可扩展的机器智能」。GEN-1 发布后Generalist CEO Pete Florence 本周发布的一篇博客文章再次成为了社区讨论的热点。在文中作者直指目前具身智能领域流行的 VLA视觉 - 语言 - 动作模型趋势。作为 VLA 概念的共同开创者他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义因为在他们看来过于在意工具的标签反而会限制通往物理 AGI 的想象力。让我们看看他是怎么说的。在 GEN-1 中大约 99% 的参数是从零开始训练的。在过去这或许会被视为一种疯狂之举。但对于 Generalist 而言这却是一个深思熟虑的抉择。这一决策源于我们坚定不移的信念 —— 我们为此已潜心耕耘两年之久 —— 即只要拥有足够的数据通过对基础模型保持完全的掌控权便能以更快的步伐推动前沿技术的突破。GEN-1 绝非那种仅仅生硬地「外挂」了机器人动作模块的微调版视觉 - 语言模型VLM它也不仅仅是一个单纯的「世界模型」。它是一个拥有「一等公民」地位、专为物理交互场景而原生构建的基础模型。越来越多的证据表明只要具备充足的数据与算力从零开始进行训练training from scratch始终是致胜之道。在 2026 年初「世界模型」正迎来属于它的高光时刻而在 2023 至 2025 年间风头正劲的则是「视觉 - 语言 - 动作模型」VLA。追逐热点与潮流本就是学术研究领域的常态。在 Generalist我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。事实上我们正是 VLA 概念的共同开创者之一自 2023 年起我们便持续在机器人领域发表关于世界模型的研究成果而我们在这一领域的实际探索与耕耘更是早在数年前便已启动。既然如此为何我们偏不给模型贴上标签呢原因有三首先你的终极目标远比你所使用的「工具」标签本身更为重要其次正如你不会将所有的矩形都统称为正方形一样概念的界定需要精准最后是因为技术供给侧的格局终将发生演变。接下来我们将逐一深入剖析这三个层面的考量。目标比工具上的标签更重要首先也是最重要的是目标比方法更具力量。几年前John Schulman 在一篇对比「理念驱动」与「目标驱动」研究的文章中对这一区别做出了精辟的阐述理念驱动型研究往往追随潮流致力于改进最新的技术方法而目标驱动型研究则首先确立一个具体的预期成果随后着手解决实现该成果过程中遇到的任何障碍。这种区分至关重要因为它不仅决定了你会构建出什么更关键的是它决定了你不会被哪些事物所干扰。正如 Schulman 所指出的 —— 这也是我本人的切身体会 —— 通常而言目标驱动型路径往往更具成效。当前围绕「世界模型」展开的讨论本质上属于理念驱动型研究。诚然这些技术本身确实令人振奋。但构建一个「世界模型」本身或许并非真正的终极目标 —— 即便对于那些正投身于世界模型研究的科研人员而言情况亦是如此。真正值得深思的问题在于你的终极目标究竟是什么我们认为一个极具价值且值得长期追求的目标是实现机器人技术的「完全零样本」Fully Zero-shot能力即让机器人能够以极高的成功率和运行速度执行那些它们从未见过的各类任务且在执行过程中完全无需任何针对特定任务的训练数据。如果所涉任务种类繁多、复杂度极高且具有足够的应用价值那么实现这一目标便可被视为需要具备「完全物理通用人工智能」Full Physical AGI能力的标志。不过在此终极目标达成之前我们还可以设定一系列具体的阶段性里程碑从而构建一条循序渐进的进阶路径与其一步到位追求「完全零样本」不如先允许为特定任务姑且称之为任务 X提供少量机器人训练数据并确保机器人能以极高的性能水平完成该任务。如此一来目标驱动型的研发路线图便清晰可见在持续提升任务执行性能的同时逐步削减所需训练数据量 X。假如我们能仅凭大约一小时的机器人训练数据便在各类任务中普遍实现 99% 以上的成功率那么这项技术将具备广阔的商业应用前景。这便是一个具体、可量化且完全独立于具体技术方法之外的「目标驱动型」里程碑。此外正如我此前的经验所印证的那样在科研工作中若能确立既具体又充满雄心的目标往往能起到事半功倍的效果它将成为一个强有力的跳板引领研究工作向更广阔的领域拓展。奇妙的是这种做法往往比单纯选择某种「看似能解决各类问题」的技术方法要有效得多。一个典型的例证便是最早问世的多模态语言模型之一其最初的研发初衷正是为了服务于一项特定的机器人技术目标。然而在随后的评估测试中该模型却在医疗诊断等一系列基准测试中展现出了卓越的性能。这一成果的诞生正是源于一种「凡是解决问题所需皆全力以赴」的务实心态而非那种死守某种特定技术方法不放的僵化思维。相反以目标为导向能赋予你灵活性让你得以考量任何有助于达成目标的方法。我们究竟能走多远其次若仅通过「非此即彼」or的问题例如必须严格在方法 A 和方法 B 之间二选一来框定机器学习这种做法是具有局限性的。更深层的真谛在于去追问「我们究竟能走多远」或者更进一步去对既定目标与约束条件建立更为深刻的理解。人们往往很自然地认为事物必须被归入特定的类别或者在多种方法或资源来源中必须「择其一」而用之。几乎每一个学科都可能陷入这种思维陷阱。举几个贴近现实的例子在机器人学发展的早期阶段曾流行着这样一种观点 —— 研究者必须在「感知」与「控制」这两大领域中择一深耕。又如在 2020 年代初期许多 AI 公司的产品经理曾普遍认为每一个细分应用场景都注定需要一套专属的定制模型却未能意识到「大规模协同训练」cotraining所能带来的巨大收益。然而真正值得探究的问题其实是在既定的约束条件下我们究竟能实现怎样的突破我们究竟能走多远而在这些约束条件中又有哪些是可以被打破或消除的我们究竟能走得多远举一个具体的例子著名的 Chinchilla 论文正是这种思维理念结出的硕果它不仅荣获了 NeurIPS 大会的「杰出论文奖」更在工业界产生了立竿见影的巨大影响。在绝大多数情况下一个「非此即彼」or的问题往往可以转化为一个「兼而有之」and的问题随后这个问题又可进一步转化为「各类成分应各占多少比例」的配比问题最终它将升华为一个关于宏大目标与核心约束条件的深层探究。在过去两年间我们正是秉持着这一理念对自身的训练方法进行了持续的迭代与优化。在过去一年多的时间里我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」VLA、「世界模型」World Models乃至更为前沿的探索方向。当一个模型所融合的跨学科能力越丰富将其强行归入某一特定类别也就越发困难。归根结底真正具有决定性意义的唯有一点它究竟能带我们走多远视觉-语言模型只是一根「拐杖」第三供给侧将会发生变化。你不仅要考量当前的制约因素更要思考这些制约因素将如何不可避免地发生演变。制约因素变化得越快这一点就显得愈发重要。有人指出当前的一个制约因素在于机器人领域的数据量尚不充裕。但这并非一种具有长远眼光的观点。如今随着我们掌握了超过 50 万小时的物理交互数据我们已能够摆脱这一制约去探索更深层的问题。同理将「视觉 - 语言」训练引入机器人领域其背后的一大动因正是因为机器人领域自身的数据积累尚显不足。因此从某种意义上讲在机器人数据尚未充裕的过渡期内所有的「视觉 - 语言」训练都可以被视为一种有益的「拐杖」。诚然世间现存的视频数据以字节计确实远多于语言数据但归根结底它依然只是一根「拐杖」。那么当不再需要这根「拐杖」时下一步该走向何方届时你还会想要依赖这根「拐杖」吗迈向物理 AGI目标的力量远胜于具体的方法我们应当在既定的制约条件下寻求最优解而非局限于既有的类别划分中去「选赛道」况且这些制约因素本身也是注定会发生变化的。自 Generalist 成立之初我们便始终致力于对一切进行彻底的重构与反思旨在推动具身通用人工智能Physical AGI的实现。正是基于这一理念我们打造出了 GEN-1—— 这是一个完全从零开始训练的模型其训练所依据的正是我们所拥有的亦是全球规模最大的物理交互数据集。无论是模型的架构设计、训练流程还是推理执行机制其每一个环节都经过了精心设计与反复迭代在这一过程中我们完全摆脱了那些由他人出于不同目的而预设的决策框架所带来的束缚。我们已向世人展示了该模型所具备的惊人潜能 —— 从机器人领域的 Scaling Laws到仅需数小时便能泛化适应全新环境与具身形态的能力再到通过大规模预训练所涌现出的即兴智能…… 而这一切仅仅是一个开端。参考内容https://x.com/peteflorence/status/2041529286562402804本文系学术转载如有侵权请联系CVer小助手删文【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/KVLEe【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群

更多文章