热线电话：13121318867

首页大数据时代3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

2025-06-30

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

编辑：LRST

【新智元导读】中科院自动化所提出BridgeVLA模型，通过将3D输入投影为2D图像并利用2D热图进行动作预测，实现了高效且泛化的3D机器人操作学习。实验表明，BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率，仅需3条轨迹即可在基础任务中达到96.8%的成功率。

近年来，视觉-语言-动作（VLA）模型在机器人操作任务中大放异彩，成为推动通用机器人操作的重要引擎。

但现有的VLA模型，大多只以2D信息作为输入，且需要大量的机器人数据进行微调；

反观以PerAct，RVT-2为代表的3D操作策略，通常仅需要10条轨迹就能够取得不错的效果，因此，一个很自然的想法是，是否能将现有的2D VLA升级为3D VLA，使其同时兼具2D VLA的效果以及3D操作策略的效率？

中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答！

论文链接： https://www.arxiv.org/abs/2506.07961

项目主页： https://bridgevla.github.io/home_page.html

实验表明，BridgeVLA仅需采集3条轨迹就能在基础设置中实现96.8%的任务成功率。

在多种泛化性设置中，比如未见过的干扰物、高度、光照、物体种类以及未见过的物体技能组合等，BridgeVLA展现出碾压式的性能，相较于基线模型取得了32%的性能提升。

在仿真中，BridgeVLA屠榜了主流3D机器人操作基准，在RLBench、COLOSSEUM、GemBench等三个仿真基准中均取得了最先进的性能。

2D VLA的泛化，3D Policy的效率，这下全部打包带走！

缩小VLM和VLA之间的迁移差距

图1. BridgeVLA统一输入与输出的方案，兼顾泛化性与高效性

近来，OpenVLA、pi0等2D VLA架构在机器人领域取得了广泛关注，它们借助预训练多模态大模型强大的表征能力，将自然语言指令、图像观测与动作预测串联在一起，展现出很强的泛化能力。

然而，这类型2D VLA所带来的代价同样很大：为了让模型真正学会每个任务，往往需要上百条专家演示。这其中的数据收集、清洗与标注需要高昂的人力成本，很难在更大规模的工业场景下落地。

与此同时，研究者们发现，如果直接在3D空间中学习动作策略，凭借3D输入蕴含的显式空间结构信息，模型只需极少的轨迹就能掌握操作技能，具有很高的数据效率。

因此，理论上来讲，将3D信息和VLA相结合是有可能构造出一个高性能且高效率的3D VLA模型的。然而，当前已有的3D VLA模型却并未实现上述期待。

BridgeVLA的研究团队发现，这背后有两个方面的原因：

1）这些方案输出形式割裂。大多数3D VLA方法把动作输出建模为 token 序列，这样的做法割裂了动作输出与观测输入之间的空间对应关系，难以充分利用三维几何信息。

2）这些方案的输入和预训练多模态大模型的输入分布不匹配。预训练VLM是以2D 图像作为输入的，而这与微调阶段的3D 输入分布差异巨大，导致直接迁移效果不佳。

基于这些观察，BridgeVLA的研究团队提出：如果将3D输入与动作输出都统一到2D空间，同时将预训练阶段的输入和输出也统一到2D空间的话，将可以同时继承2D VLA的泛化能力与3D操作策略的数据效率。

BridgeVLA是如何设计的？

图2. BridgeVLA 2D热度图预训练与3D动作微调结构图

BridgeVLA的训练流程主要分为两个阶段：首先是2D 热度图预训练，然后是3D动作微调。预训练阶段主要用于提升模型的空间感知能力，使其具备从图像和语言描述中精准定位目标区域的能力；而微调阶段则通过三视角图像进行动作预测，完成具体的 3D 操作策略学习。

传统的预训练多模态大模型在预训练阶段主要通过预测token 序列来完成分类或生成任务，而这样的token序列并不具备任何的空间结构。

为了使模型具备空间定位能力，BridgeVLA 设计了一种热度图预训练方式，训练模型根据文本指令预测关于目标对象位置的概率热度图，并使用了 RoboPoint 中的目标检测数据集进行预训练。

在模型结构上，BridgeVLA使用了由SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干。

预训练时，模型的输入为图像与其对应的文本描述（如图中红色的杯子在哪），然后通过PaliGemma提取特征，最后使用一个可学习的上采样模块生成与原图同分辨率的热度图。

整个过程采用交叉熵损失进行监督训练。这种预训练策略使VLM获得了空间感知能力，能够根据语言描述在图像中精准定位目标区域，为后续下游3D操作策略学习提供帮助。

在微调阶段，模型的目标是根据3D点云和语言指令输出合理的机器人动作。

具体来说，BridgeVLA首先从顶部、正面和右侧三个方向将点云渲染为三幅2D图像，并将其作为输入送入经过重新预训练的 VLM 主干网络。模型随后会为每个视角生成一张2D 热度图。

为了保持微调与预训练的一致性，VLM 的输入中不包含机器人状态或其他非视觉信息，从而避免输入分布偏移。通过结合深度图和相机参数，三个热度图可以被反投影，从而得到末端执行器的位置估计。

末端执行器的旋转姿态和夹爪开闭状态则通过额外引入的MLP进行预测。

泛化性能与采样效率的兼得

BridgeVLA在多个主流3D操作榜单上都取得了最先进的性能。在RLBench中成功率达88.2%，相较于基准模型提升了6.8%

而在环境出现颜色、材质、物体大小等12种干扰的COLOSSEUM环境中相较于之前SoTA方法提升了7.3%，在同样极具挑战的GemBench环境中，即使面对全新位置、全新物体的考验，BridgeVLA也取得了最佳的50%的成功率。

这些实验都证明了BridgeVLA具备很强的泛化能力，充分利用了预训练多模态模型中蕴含的丰富视觉与语言先验知识。

图3. BridgeVLA 在RLBench上的实验结果

图4. BridgeVLA 在COLOSSEUM上的实验结果

图5. BridgeVLA 在GemBench上的实验结果

BridgeVLA同时在真机实验中进行了大规模实验，BridgeVLA可以很好的克服干扰物、不同高度、不同光照条件、不同背景的影响，同时也具有一定的组合泛化能力、和全新物体的泛化能力，这都得益于预训练骨干网络中蕴含的先验特征。

同时BridgeVLA也证明了其极高的数据效率，仅仅使用3条轨迹就可以达到96.8%的基础任务成功率，几乎与使用10条轨迹训练的版本持平，结果表明BridgeVLA不仅泛化能力强，而且对数据要求极低，非常适合在真实机器人系统中部署与扩展。

图6. BridgeVLA 在真机实验上的实验结果

BridgeVLA通过统一预训练的输入输出到二维图像空间，建立起了一个高性能且高数据效率的3D VLA新范式。

可以预见，未来将有更多类似的探索推动 VLA 模型持续演进，迈向新的高度。

参考资料：

https://bridgevla.github.io

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ 免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

泛化能力特征目标检测数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇【CDA干货】LSTM 为何会产生误差？深入剖析其背后的原因

下一篇探索 CDA 数据分析师在线课程：开启数据洞察之旅

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

2D VLA的泛化，3D Policy的效率，这下全部打包带走！

缩小VLM和VLA之间的迁移差距

BridgeVLA是如何设计的？

泛化性能与采样效率的兼得

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ 免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

精准取数之道：CDA数据分析师视角下的数据查询语言 ...

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

2D VLA的泛化，3D Policy的效率，这下全部打包带走！

缩小VLM和VLA之间的迁移差距

BridgeVLA是如何设计的？

泛化性能与采样效率的兼得

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ 免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

精准取数之道：CDA数据分析师视角下的数据查询语言 ...

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ 免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0