北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文由HMILab完成。HMILab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文80余篇,谷歌引用9700余次。荣获世界人工智能顶会AAAI最佳论文奖,位列世界最大学术源代码仓库TrendingResearch第一位。
为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的RoboMamba多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,并都取得了先进的性能表现。同时,本文发现当RoboMamba具备强大的推理能力后,我们可以通过极低的训练成本使得RoboMamba掌握多种操纵位姿预测能力。
论文:RoboMamba:MultimodalStateSpaceModelforEfficientRobotReasoningandManipulation论文链接:https://arxiv.org/abs/2406.04339项目主页:https://sites.google.com/view/robomamba-webGithub:https://github.com/lmzpai/roboMamba图1.RoboMamba具备的机器人相关能力,其中包括任务规划、提示性任务规划、长程任务规划、可操纵性判断、可操纵性生成、未来与过去预测、末端执行器位姿预测等。
摘要
机器人操纵的一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大模型(MLLM)可以处理一系列基本任务,但它们仍然面临两个方面的挑战:1)处理复杂任务的推理能力不足;2)MLLM微调和推理的计算成本较高。最近提出的状态空间模型(SSM),即Mamba,其具备线性推理复杂度同时在序列建模中展示了令人期待的能力。受此启发,我们推出了端到端机器人MLLM—RoboMamba,它利用Mamba模型提供机器人推理和行动能力,同时保持高效的微调和推理能力。
具体来说,我们首先将视觉编码器与Mamba集成在一起,通过共同训练将视觉数据与语言嵌入对齐,使我们的模型具有视觉常识和与机器人相关的推理能力。为了进一步增强RoboMamba的操纵位姿预测能力,我们探索了一种仅使用简单PolicyHead的高效微调策略。我们发现,一旦RoboMamba拥有足够的推理能力,它可以通过极少的微调参数(模型的0.1%)和微调时间(20分钟)来掌握多种操作技能。在实验中,RoboMamba在通用和机器人评估基准上展示了出色的推理能力,如图2所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人MLLMs快7倍。
图2.概述:Robomamba是一种高效的机器人多模态大模型,同时具备强大的推理和操作能力。RoboMamba-2.8B在通用MLLM基准上实现了与其他7BMLLM可竞争的推理性能,同时在机器人任务中展示了长程推理能力。随后,我们引入了一种极其高效的微调策略,使RoboMamba具备操纵位姿预测能力,只需20分钟即可微调一个简单的策略头。
本文主要贡献总结如下:
我们创新地将视觉编码器与高效的Mamba语言模型集成,构建了全新的端到端机器人多模态大模型,RoboMamba,其具备视觉常识和机器人相关的全面推理能力。为了使RoboMamba具备末端执行器操纵位姿预测能力,我们探索了一种使用简单PolicyHead的高效微调策略。我们发现,一旦RoboMamba达到足够的推理能力,它可以以极低的成本掌握操纵位姿预测技能。在我们的大量实验中,RoboMamba在通用和机器人推理评估基准上表现出色,并在模拟器和真实世界实验中展示了令人印象深刻的位姿预测结果。研究背景
数据的scalingup显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息,多模态大语言模型(MLLMs)应运而生,赋予LLMs视觉指令跟随和场景理解的能力。受MLLMs在通用环境中强大能力的启发,近期研究旨在将MLLMs应用于机器人操作领域。一些研究工作使机器人能够理解自然语言和视觉场景,自动生成任务计划。另一些研究工作则是利用MLLMs的固有能力,使其具备预测操作位姿的能力。
机器人操作涉及在动态环境中与物体交互,需要类人推理能力以理解场景的语义信息,以及强大的操纵位姿预测能力。虽然现有基于机器人MLLM可以处理一系列基础任务,但它们在两个方面仍然面临挑战。
1)首先,预训练的MLLMs在机器人场景中的推理能力被发现是不足的。正如图2
所示,当微调后的机器人MLLMs遇到复杂推理任务时,这种缺陷会带来挑战。
2)其次,由于现有MLLM注意力机制的计算复杂度较高,微调MLLMs并使用它们生成机器人操作动作会产生更高的计算成本。
为了平衡推理能力和效率,NLP领域出现了几项研究。尤其是,Mamba引入了创新的选择性状态空间模型(SSM),在保持线性复杂度的同时,促进了上下文感知的推理。
受此启发,我们提出一个问题:“我们能否开发出一种高效的机器人MLLM,既具备强大的推理能力,又能以非常经济的方式获得机器人操作技能?”
RoboMamba方法
2.RoboMamba模型结构
图3.Robomamba整体框架。RoboMamba通过视觉编码器和投影层将图像投影到Mamba的语言嵌入空间,然后与文本tokens连接,并输入到Mamba模型中。为了预测末端执行器的位置和方向,我们引入简单的MLP策略头,并使用池化操作从语言输出tokens生成的全局token作为输入。RoboMamba的训练策略。为了进行模型训练,我们将训练流程分为两个阶段。在Stage1,我们引入对齐预训练(Stage1.1)和指令共同训练(Stage1.2),以使RoboMamba具备常识推理和机器人相关的推理能力。在Stage2,我们提出机器人操作微调,以高效地赋予RoboMambaLow-Level操作技能。
3.RoboMamba通用视觉和机器人推理能力训练
在构建了RoboMamba架构后,接下来的目标是训练我们的模型学习通用视觉推理和机器人相关的推理能力。如图3所示,我们将Stage1的训练分为两个子步骤:对齐预训练(Stage1.1)和指令共同训练(Stage1.2)。具体而言,与以往的MLLM训练方法不同,我们的目标是使RoboMamba能够理解通用视觉和机器人场景。鉴于机器人领域涉及许多复杂且新颖的任务,RoboMamba需要更强的泛化能力。因此,我们在Stage1.2阶段采用了共同训练策略,将高层次的机器人数据(例如任务规划)与通用指令数据结合起来。我们发现,共同训练不仅可以获得更具泛化能力的机器人策略,还由于机器人数据中的复杂推理任务而带来的通用场景推理能力增强。训练细节如下:
Stage1.1:对齐预训练。我们采用LLaVA过滤的558k图像-文本配对数据集进行跨模态对齐。如图3所示,我们冻结CLIP编码器和Mamba语言模型的参数,仅更新投影层。通过这种方式,我们可以将图像特征与预训练的Mamba词嵌入对齐。
Stage1.2:指令共同训练。在这一阶段,我们首先遵循先前MLLM的工作进行通用视觉指令数据收集。我们采用了655KLLaVA混合指令数据集和400KLRV-Instruct数据集,分别用于学习视觉指令跟随和减轻幻觉。需要注意的是,减轻幻觉在机器人场景中起着重要作用,因为机器人MLLM需要基于真实场景生成任务规划,而不是想象中的场景。例如,现有的MLLMs可能公式化地回答“打开微波炉”时说“步骤1:找到把手”,但许多微波炉没有把手。接下来,我们结合了800KRoboVQA数据集,以学习高层次的机器人技能,如长程任务规划、可操纵性判断、可操纵性生成、未来与过去预测等。在共同训练期间,如图3所示,我们冻结CLIP编码器的参数,并在1.8m合并数据集上微调投影层和Mamba。所有来自Mamba语言模型的输出都使用交叉熵损失进行监督。
4.RoboMamba操纵能力微调训练
在RoboMamba强大的推理能力基础上,北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作我们在本节介绍了我们的机器人操作微调策略,在图3中称为训练Stage2。现有的基于MLLM的机器人操作方法在操作微调阶段需要更新投影层和整个LLM。虽然这种范式可以赋予模型动作位姿预测能力,但它也破坏了MLLM的固有能力,并且需要大量的训练资源。为了解决这些挑战,我们提出了一种高效的微调策略,如图3所示。我们冻结RoboMamba的所有参数,并引入一个简单的Policyhead来建模Mamba的输出token。Policyhead包含两个MLP分别学习末端执行器位置和方向,总共占用整个模型参数的0.1%。根据前期工作where2act,位置和方向的损失公式如下:
其中,N表示训练样本的数量,Tr(A)表示矩阵A的迹。RoboMamba只预测图像中接触像素的二维位置(x,y),然后使用深度信息将其转换为三维空间。为了评估这一微调策略,我们使用SAPIEN模拟生成了一个包含1万条末端执行器位姿预测的数据集。
在操作微调之后,我们发现一旦RoboMamba具备了足够的推理能力,它可以通过极高效的微调来获取位姿预测技能。由于微调参数(7MB)极少且模型设计高效,我们只需20分钟即可实现新的操作技能学习。这一发现突出了推理能力对于学习操作技能的重要性,并提出了一个新的视角:我们可以在不影响MLLM固有推理能力的情况下,高效地赋予其操作能力。最后,RoboMamba可以使用语言响应进行常识和与机器人相关的推理,并使用Policyhead进行动作位姿预测。
定量实验
1.通用推理能力评估(MLLMBenchmarks)
为了评估推理能力,我们使用了几个流行的基准,包括VQAv2、OKVQA、GQA、OCRVQA、VizWiz、POPE、MME、MMBench和MM-Vet。除此之外,我们还在RoboVQA的18k验证数据集上直接评估了RoboMamba的机器人相关推理能力,涵盖了机器人任务,如任务规划、提示性任务规划、长程任务规划、可操纵性判断、可操纵性生成、过去描述和未来预测等。
表1.Robomamba与现有MLLMs在多个基准上的通用推理能力比较。
如表1所示,我们将RoboMamba与以前最先进的(SOTA)MLLM在通用的VQA和最近的MLLM基准测试上进行比较。首先,我们发现RoboMamba仅使用2.7B语言模型,就在所有VQA基准测试中取得了令人满意的结果。结果表明,简单的结构设计是有效的。对齐预训练和指令协同训练显著提高了MLLM的推理能力。例如,由于在协同训练阶段引入了大量的机器人数据,RoboMamba在GQA基准上的空间识别性能得到了提高。同时,我们还在最近提出的MLLM基准上测试了我们的RoboMamba。与以前的MLLMs相比,我们观察到我们的模型在所有基准测试中都取得了具有竞争力的结果。虽然RoboMamba的一些性能仍然低于最先进的7BMLLM(e.g.,LLaVA1.5和SPHINX),但我们优先使用更小更快的Mamba-2.7B来平衡机器人模型的效率。在未来,我们计划为资源不受限制的场景开发RoboMamba-7B。
2.机器人推理能力评估(RoboVQABenchmark)
另外,为了全面比较RoboMamba与机器人相关的推理能力,我们在RoboVQA验证集上与LLaMA-AdapterV2进行基准测试。我们选择LLaMA-AdapterV2作为基准,因为它是当前SOTA机器人MLLM(ManipLLM)的基础模型。为了进行公平的比较,我们加载了LLaMA-AdapterV2预训练参数,并使用其官方指令微调方法在RoboVQA训练集上对其进行了两个epoch的微调。如图4a)所示,RoboMamba在BLEU-1到BLEU-4之间实现了卓越的性能。结果表明,我们的模型具有先进的机器人相关推理能力,并证实了我们的训练策略的有效性。除了更高的准确率外,我们的模型实现的推理速度比LLaMA-AdapterV2和ManipLLM快7倍,这可以归因于Mamba语言模型的内容感知推理能力和效率。
图4.RoboVQA上与机器人相关的推理对比。
3.机器人操纵能力评估(SAPIEN)
为了评估RoboMamba的操作能力,我们将我们的模型与四个基线进行了比较:UMPNet,Flowbot3D,RoboFlamingo和ManipLLM。在比较之前,我们复现所有基线并在我们收集的数据集上训练它们。对于UMPNet,我们在预测的接触点上执行操作,方向垂直于物体表面。Flowbot3D在点云上预测运动方向,选择最大的流作为交互点,并使用流方向表示末端执行器的方向。RoboFlamingo和ManipLLM分别加载OpenFlamingo和LLaMA-AdapterV2预训练参数,并遵循各自的微调和模型更新策略。如表2所示,与之前的SOTAManipLLM相比,我们的RoboMamba在可见类别上实现了7.0%的改进,在不可见类别上实现了2.0%的改进。在效率方面,RoboFlamingo更新了35.5%(1.8B)的模型参数,ManipLLM更新了LLM中的适配器(41.3M),包含0.5%的模型参数,而我们的微调Policyhead(3.7M)仅占模型参数的0.1%。RoboMamba比以前基于MLLM的方法更新的参数少了10倍,而推理速度提高了7倍。结果表明,我们的RoboMamba不仅具有强大的推理能力,而且能够以低成本的方式获得操纵能力。
表2.Robomamba与其他baseline的成功率比较
定性结果
图4.RoboMamba面对现实世界中各种机器人下游任务的可视化。
如图4所示,我们可视化了RoboMamba在各种机器人下游任务中的推理结果。在任务规划方面,相较于LLaMA-AdapterV2,RoboMamba凭借其强大的推理能力,展现出了更准确、更长远的规划能力。为了进行公平的比较,我们还对RoboVQA数据集上的基准LLaMA-AdapterV2进行了微调。对于操纵位姿预测,我们使用了FrankaEmika机械臂来与各种家庭物品进行交互。我们将RoboMamba预测的3D位姿投影到2D图像上,使用红点表示接触点,末端执行器表示方向,如图右下角所示。