这是一个关于机器人学习的故事,而且它的灵感来自一个看似简单但深刻的观察:小孩子是如何学会拿东西的。
想象一个婴儿坐在地板上,周围散放着各种玩具。他不是一开始就能精准地拿起任何东西,而是通过反复玩耍几个简单的玩具——积木、球、铃铛——慢慢理解了物体的形状、大小和重量。一旦掌握了这些基础,他就能够拿起从未见过的新东西。这个过程看起来很自然,但其中蕴含的学习原理却深刻得令人惊讶。
加州大学伯克利分校的一个研究团队,包括Dantong Niu、Yuvan Sharma、Baifeng Shi、Rachel Ding、Matteo Gioia、Haoru Xue、Henry Tsai、Konstantinos Kallidromitis、Anirudh Pai、Shankar Shastry、Trevor Darrell、Jitendra Malik和Roei Herzig等研究者,决定用这个简单的观察来解决机器人领域一个长期存在的难题。他们的研究成果发表在2025年10月,论文编号为arXiv:2510.12866v1。这项研究提出了一个名为LEGO的框架,其核心思想是:机器人也可以通过在简单玩具上的训练,学会抓取真实世界中的各种物体。
一、问题的根源:机器人为什么不能像人一样学习机器人在执行抓取任务时面临一个根本性的困境。当工程师们训练一个机器人在某些特定物体上抓取时,这个机器人往往无法处理与训练对象不同的新物体。这就像一个学生只在教科书上学过如何计算正方形的面积,突然被要求计算圆形的面积时就完全懵了。这种现象在机器学习中被称为"泛化能力差"。
为什么会这样呢?原因在于机器人的视觉系统学到的往往是非常具体的特征。当它看到一个红色的立方体时,它学到的可能是"这个红色的东西"而不是"立方体这个形状"。所以当它看到一个蓝色的立方体时,它就不认识了。这就像一个人只见过红色的苹果,突然看到绿色的苹果时会感到困惑一样。
更糟的是,现有的解决方案往往需要大量的数据。一些最先进的机器人模型需要数百万个训练样本才能学会基本的抓取技能。这就像为了让一个学生掌握乘法,你需要给他做一百万道乘法题,这显然不符合学习的自然规律。
二、灵感来源:向孩子们学习研究团队的突破性想法来自认知科学的研究。心理学家们发现,婴幼儿并不是通过接触成千上万种不同物体来学习操纵技能的。相反,他们通过掌握少数几个简单玩具的特性,然后将这些知识应用到新物体上。这个过程被称为"原型学习"。
这个观察给了研究团队一个启发:如果机器人也能以类似的方式学习呢?不是用真实世界的物体进行训练,而是用一些简单的、有代表性的形状进行训练。这就引出了他们研究的核心创新——"塞尚玩具"的概念。
这个名字来自著名画家保罗·塞尚的一句话:"用圆柱体、球体、圆锥体来对待自然,一切都要放在适当的透视中。"塞尚认为,复杂的物体实际上可以分解为几个简单的基本形状。研究团队决定用这个艺术原理来指导他们的机器人训练。
三、玩具的设计:四个简单形状的无限组合研究团队选择了四个基本的几何形状作为他们的"积木":球体、立方体、圆柱体和圆环。这些形状看起来非常简单,但它们的组合方式却能创造出令人惊讶的多样性。
具体来说,他们随机地将这些形状组合在一起。一个玩具可能由一个球体和一个立方体组成,另一个可能由三个圆柱体和两个环组成。每个形状的大小也会随机变化——球体的直径可以从1厘米到8厘米,立方体的尺寸可以在各个维度上变化很大。此外,每个玩具还会被随机着色,可能是蓝色、红色、绿色或黄色。
通过这种方式,研究团队生成了250个独特的玩具。这些玩具看起来都很奇怪,不像任何真实世界中的物体。这正是设计的妙处——这些玩具足够不同寻常,以至于机器人无法通过简单的记忆来学习,但又足够有结构性,使得机器人可以学到关于形状、大小和组合的通用原理。
四、数据收集:从虚拟到真实研究团队在两个环境中收集了机器人抓取这些玩具的数据。首先,他们在一个名为ManiSkill的虚拟模拟器中进行了实验,使用一个模拟的Franka机械臂和夹爪。这就像在电脑游戏中进行练习一样。他们收集了2500个虚拟抓取演示。
但虚拟世界和真实世界之间总是存在差异。所以研究团队还进行了真实世界的实验。他们用3D打印机制造了这250个玩具的物理版本,然后使用真实的Franka机械臂通过远程操纵收集了1500个真实的抓取演示。此外,他们还用一个名为Unitree H1-2的人形机器人,配备了灵巧的机械手,收集了500个额外的演示。
这个数据收集过程非常重要。通过让人类操作者远程控制机器人进行抓取,研究团队确保了收集到的数据质量很高,同时也确保了每个玩具都有多种不同的抓取方式被记录下来。毕竟,一个物体可以用许多不同的方式被抓取,机器人需要学会这种多样性。
五、核心创新:检测池化机制现在我们来到了这项研究最精妙的部分——一个名为"检测池化"(Detection Pooling,简称DetPool)的新技术。这个技术看起来很复杂,但其核心思想其实很简单。
想象你在一个嘈杂的餐厅里试图听某个特定的人说话。周围有很多噪音——其他人的谈话声、碗碟的碰撞声、背景音乐。你的大脑做的一件事是自动地将注意力集中在那个人的声音上,忽略其他的声音。这就是所谓的"选择性注意"。
检测池化对机器人的视觉系统做的就是类似的事情。当机器人看一张图片时,它需要识别出要抓取的目标物体,然后集中所有的注意力在那个物体上,忽略背景、其他物体,甚至桌子或房间的其他部分。
技术上,这是这样工作的:首先,研究团队使用一个名为SAM 2的图像分割模型来识别目标物体在图像中的位置,并创建一个"掩码"——本质上是一个标记出物体所在区域的地图。然后,他们修改了视觉编码器(一个处理图像的神经网络)的注意力机制,使其只关注物体对应的像素区域,而完全忽略其他区域。最后,他们对物体区域的所有特征进行平均,得到一个专注于物体本身的视觉表示。
这个看似简单的改变实际上非常强大。它确保了机器人学到的不是"这个特定背景下的红色立方体",而是"立方体这个形状"。这就是为什么机器人能够泛化到完全不同的物体上。
六、完整的学习系统研究团队构建的完整系统包括几个相互配合的部分。在视觉处理方面,他们使用了一个预训练的视觉编码器,称为MVP,它已经在大量图像上学过如何识别视觉特征。这个编码器与检测池化机制结合,产生了一个专注于物体的视觉表示。
然后,这个视觉表示被输入到一个基于Transformer的策略网络中。Transformer是现代深度学习中的一种强大架构,它能够处理序列数据并学会复杂的时间依赖关系。在这个案例中,Transformer接收过去16个时间步的视觉和本体感觉信息(关于机器人自身位置和姿态的信息),然后预测接下来16个时间步的动作。
整个系统使用行为克隆进行训练,这是一种模仿学习的方法。简单来说,机器人就是在学习模仿人类操作者的动作。训练目标是最小化预测动作和真实动作之间的差异。
七、模拟环境中的测试:令人惊讶的结果研究团队首先在虚拟环境中测试了他们的方法。他们在一个包含65个真实物体的测试集上评估了他们的模型,这些物体来自YCB数据集,这是机器人操纵研究中的一个标准基准。
结果令人印象深刻。当使用2500个演示进行训练时,他们的模型在模拟中达到了80%的成功率。更重要的是,他们与两个最先进的基线进行了比较:π0-FAST和OpenVLA-OFT。这两个模型都是大规模预训练的视觉-语言-动作模型,参数数量分别为30亿和70亿,远大于LEGO的8600万参数。
令人惊讶的是,LEGO不仅超越了这两个更大的模型,而且表现出了更好的数据效率。当数据量增加时,LEGO的性能稳定地提高,而OpenVLA-OFT实际上在更多数据上表现更差,这表明它过度拟合了。π0-FAST则根本无法从这个相对较小的数据集中学到有用的东西。
这个结果的含义是深刻的。它表明,仅仅拥有更多参数和更多预训练数据并不总是更好。有时候,正确的架构设计和学习策略可以用更少的资源实现更好的结果。
八、真实机器人的验证:从虚拟到现实但模拟中的成功并不能保证真实世界中的成功。这就是所谓的"现实差距"问题——在虚拟环境中学到的东西在真实世界中往往表现不佳。所以研究团队进行了真实机器人实验。
在第一组真实机器人实验中,他们使用了一个Franka Emika Panda机械臂,配备了一个Robotiq夹爪。这是一个标准的工业机械臂,有7个关节。他们在64个真实YCB物体上测试了他们的模型,每个物体测试16次。
结果是66.67%的成功率。这是一个很好的成功率,特别是考虑到他们只用1500个真实演示进行训练。为了进行比较,他们还测试了其他方法。OpenVLA-OFT只达到了9.47%的成功率。ShapeGrasp,一个基于大型语言模型的方法,达到了26.56%。π0-FAST在零样本设置下达到了61.82%,但当在他们的数据上微调时达到了76.56%。
LEGO的66.67%成功率排在第二位,仅次于微调后的π0-FAST。但这个比较很重要:π0-FAST是在一个包含75000个演示的大型机器人数据集上预训练的,然后在他们的1500个演示上进行微调。相比之下,LEGO完全是从零开始训练的,没有任何预训练。这表明LEGO的数据效率是非常高的。
九、灵巧手的挑战:更复杂的机器人为了进一步验证他们方法的通用性,研究团队还在一个更复杂的机器人系统上进行了测试:Unitree H1-2人形机器人,配备了Inspire RH56DFTP灵巧手。这种手有6个自由度,总共12个关节,能够执行非常精细的操纵任务。
这是一个更具挑战性的设置,因为灵巧手的控制比简单的夹爪复杂得多。研究团队在13个日常物体上测试了他们的模型,每个物体测试5次。
结果是50.77%的成功率。虽然这个数字低于Franka实验,但这是可以预期的,因为任务更加困难。更重要的是,LEGO再次超越了其他基线。π0-FAST只达到了26.15%,OpenVLA-OFT只达到了18.46%。这再次证明了LEGO方法的有效性和通用性。
十、深入理解:消融研究揭示了什么为了真正理解他们的方法为什么有效,研究团队进行了一系列的消融研究——这是一种通过逐步移除系统的不同部分来理解每个部分的重要性的方法。
首先,他们研究了检测池化的重要性。他们将DetPool与其他池化方法进行了比较,包括注意力池化、CLS池化和简单的平均池化。结果非常清楚:DetPool显著优于所有其他方法,性能提升22%到48%。这证实了他们的核心创新确实是关键。
接下来,他们研究了训练数据的两个关键方面:演示的数量和玩具多样性的影响。他们训练了多个模型,使用1、25、125、250、500和1000个不同的玩具,每个模型使用不同数量的演示。结果表明,增加玩具的多样性确实有帮助,但效果有递减。然而,演示的数量有更强的影响。这与认知科学的发现一致,即重复练习对学习的影响往往大于接触多样的例子。
他们还研究了模型大小的影响。他们尝试了不同大小的Transformer骨干网络,从小到大。结果表明,ViT-Base(8600万参数)是最优的选择,它在性能和计算效率之间达到了很好的平衡。更大的模型并不一定更好,有时甚至更差。
此外,他们研究了每个基本形状的重要性。通过逐个移除四种形状中的每一种,他们发现球体是最关键的,移除它会导致最大的性能下降。环和圆柱体的重要性相对较低。这很有趣,因为它表明并非所有的基本形状对学习都同样重要。
最后,他们研究了玩具复杂性的影响。他们发现,由两个原始形状组成的玩具对性能的贡献最大,而由五个形状组成的更复杂的玩具的贡献较小。这可能是因为测试集中的真实物体往往有相对简单的结构。
十一、为什么这一切都有效:泛化的秘密现在让我们退一步,思考为什么这个方法有效。核心在于一个关键的洞察:物体识别和操纵的关键不在于物体的具体外观,而在于其结构特性。
当机器人学会了如何抓取各种由四个基本形状组成的随机组合时,它实际上学到了关于形状、大小和结构的深层原理。这些原理是通用的。当机器人看到一个真实的物体,比如一个杯子时,它能够识别出杯子具有圆柱形的主体和某种形式的把手,然后应用它从玩具中学到的关于如何抓取圆柱形物体的知识。
检测池化的作用是确保机器人学到的是这些结构特性,而不是特定的视觉外观。通过强制视觉系统只关注物体本身,而忽略背景和其他干扰,机器人被迫学到关于物体形状和结构的信息,而不是关于特定像素模式的信息。
这就像学习一门语言时的区别。如果你只在一个特定的教室里学英语,你可能会学到"在这个教室里说英语"。但如果你在各种不同的环境中学习,你会学到"英语本身",然后你就可以在任何地方使用它。
十二、实际意义:这对机器人学意味着什么这项研究的实际意义是深远的。首先,它表明我们不需要收集数百万个真实机器人演示来训练有效的操纵策略。仅仅1500个演示就足以实现强大的泛化性能。这大大降低了开发机器人系统的成本和时间。
其次,它提供了一个新的思考方式来思考机器人学习。与其试图用越来越多的数据和越来越大的模型来解决问题,我们可以思考如何设计更好的学习环境和更好的架构来促进泛化。
第三,这项研究与认知科学的联系表明,我们可以从人类和动物学习的方式中获得灵感来改进机器学习。这是一个重要的跨学科见解。
第四,检测池化机制是一个通用的技术,可以应用于任何使用视觉Transformer的机器人学习系统。它不仅仅局限于抓取任务,还可以应用于其他需要物体识别和操纵的任务。
十三、局限性和未来方向研究团队也诚实地讨论了他们工作的局限性。首先,他们的方法主要关注刚体物体。对于具有不同物理特性的物体,比如柔软的布料或易碎的陶瓷,性能可能会下降。
其次,他们的工作专注于单步抓取任务。许多真实世界的操纵任务涉及多个步骤,比如拿起一个物体,移动它,然后放下它。扩展到这些更复杂的任务是一个重要的未来方向。
第三,虽然他们的模型相对较小,但在资源受限的机器人上部署仍然可能很困难。进一步优化模型的计算效率是一个实际的需求。
尽管有这些局限性,这项研究代表了机器人学习领域的一个重要进步。它表明,通过正确的设计和灵感来自认知科学,我们可以构建更有效、更高效的机器人学习系统。
十四、更广泛的影响:机器人的未来这项研究的意义超越了学术界。在现实世界中,机器人正在越来越多的领域被部署——从制造业到物流,从医疗保健到家庭服务。这些应用中的许多都涉及操纵各种不同的物体。
如果我们能够用更少的数据和更少的计算资源训练机器人执行这些任务,那么机器人技术就会变得更加可及和实用。一个小公司或初创企业可能无法负担收集数百万个机器人演示的成本,但他们可能能够负担收集几千个演示的成本。
此外,这项研究表明,机器人学习不一定需要大型的预训练模型。这意味着组织可以在自己的特定任务上训练定制的模型,而不必依赖于大型科技公司提供的通用模型。这可能会导致更多样化和分散的机器人生态系统。
最后,这项研究表明,认知科学和机器学习之间的交叉可以产生强大的见解。也许我们对人类和动物学习的理解可以指导我们如何构建更好的人工智能系统。反过来,机器学习的进步可能也会为认知科学提供新的见解。
##########
Q&A
Q1:什么是"塞尚玩具",为什么研究团队选择用这些简单的形状来训练机器人?
A:塞尚玩具是由四个基本几何形状(球体、立方体、圆柱体和圆环)随机组合而成的训练物体。研究团队受到画家塞尚的启发,他认为复杂物体可以分解为简单形状。这些玩具足够不同寻常,使机器人无法通过简单记忆学习,但又有足够的结构性,让机器人学到关于形状和组合的通用原理,从而能够泛化到真实物体。
Q2:检测池化(DetPool)机制具体是如何工作的,为什么它对机器人的泛化能力如此重要?
A:检测池化首先识别目标物体的位置并创建一个掩码,然后修改视觉编码器的注意力机制,使其只关注物体区域而忽略背景。最后对物体特征进行平均。这很重要是因为它强制机器人学到物体的结构特性(如形状)而非特定的视觉外观,这样机器人就能识别和操纵从未见过的新物体。
Q3:LEGO方法与其他大型预训练模型相比有什么优势?
A:LEGO仅用1500个真实演示就能在YCB数据集上达到67%的成功率,而OpenVLA-OFT和π0-FAST这样的大型模型虽然参数量大得多且经过大规模预训练,但在相同任务上表现更差。这表明LEGO具有更高的数据效率,不需要大量预训练数据就能实现强大的泛化性能。
