多种AI模型帮助机器人更透明地执行复杂计划

来源:
导读 您的每日待办事项清单可能非常简单:洗碗、购买杂货和其他细节。你不太可能写下拿起第一个脏盘子或用海绵清洗盘子,因为家务活中的每一个微...

您的每日待办事项清单可能非常简单:洗碗、购买杂货和其他细节。你不太可能写下“拿起第一个脏盘子”或“用海绵清洗盘子”,因为家务活中的每一个微型步骤都感觉很直观。虽然我们可以不加思考地例行完成每个步骤,但机器人需要一个复杂的计划,其中涉及更详细的轮廓。

麻省理工学院的 Improbable AI 实验室是计算机科学与人工智能实验室 (CSAIL) 内的一个小组,它为这些机器提供了一个新的多模式框架:层次规划的组合基础模型 (HiP),该模型可以利用三种不同基础模型的专业知识。与 OpenAI 的 GPT-4(ChatGPT 和 Bing Chat 构建的基础模型)一样,这些基础模型接受了大量数据的训练,适用于生成图像、翻译文本和机器人等应用。

该作品发布在arXiv预印本服务器上。

与 RT2 和其他在配对视觉、语言和动作数据上进行训练的多模态模型不同,HiP 使用三种不同的基础模型,每个模型都在不同的数据模态上进行训练。每个基础模型捕获决策过程的不同部分,然后在需要做出决策时一起工作。HiP 消除了访问配对视觉、语言和动作数据的需要,而这些数据很难获得。HiP 还使推理过程更加透明。

人类日常琐事可能是机器人的“长期目标”——一个总体目标,涉及首先完成许多较小的步骤——需要足够的数据来计划、理解和执行目标。虽然计算机视觉研究人员试图为这个问题构建整体基础模型,但配对语言、视觉和动作数据的成本很高。相反,HiP 代表了一种不同的多模式配方:将语言、物理和环境智能廉价地整合到机器人中的三重奏。

“基础模型不必是单一的,”未参与该论文的 NVIDIA AI 研究员 Jim Fan 说道。“这项工作将具体代理规划的复杂任务分解为三个组成模型:语言推理器、视觉世界模型和行动规划器。它使困难的决策问题变得更加容易处理和透明。”

该团队相信他们的系统可以帮助这些机器完成家务,例如收起一本书或将一个碗放入洗碗机中。此外,HiP 可以协助完成多步骤的构建和制造任务,例如按特定顺序堆叠和放置不同的材料。

评估 HiP

CSAIL 团队测试了 HiP 在三项操作任务上的敏锐度,其表现优于同类框架。该系统通过开发适应新信息的智能计划来进行推理。

首先,研究人员要求它将不同颜色的块相互堆叠,然后将其他块放在附近。问题是:一些正确的颜色不存在,因此机器人必须将白色块放入颜色碗中才能绘制它们。HiP 经常准确地适应这些变化,特别是与 Transformer BC 和 Action Diffuser 等最先进的任务规划系统相比,它通过调整其计划来根据需要堆叠和放置每个方块。

另一项测试:将糖果和锤子等物品放入棕色盒子中,而忽略其他物品。它需要移动的一些物体很脏,因此 HiP 调整了计划,将它们放入清洁箱中,然后放入棕色容器中。在第三次演示中,机器人能够忽略不必要的物体来完成厨房的子目标,例如打开微波炉、清理水壶以及打开灯。一些提示步骤已经完成,因此机器人通过跳过这些指示进行适应。

三管齐下的等级制度

HiP 的三管齐下的规划流程按层次结构运行,能够根据不同的数据集(包括机器人之外的信息)对其每个组件进行预训练。该顺序的底部是一个大型语言模型(LLM),它通过捕获所需的所有符号信息并制定抽象任务计划来开始构思。该模型应用在互联网上找到的常识知识,将其目标分解为子目标。例如,“泡一杯茶”变成“往壶里装水”、“烧壶”以及后续所需的动作。

“我们想要做的就是采用现有的预训练模型并让它们成功地相互连接,”博士阿努拉格·阿贾伊(Anurag Ajay)说。麻省理工学院电气工程与计算机科学系 (EECS) 的学生和 CSAIL 附属机构。“我们不是推动一种模型来做所有事情,而是结合利用不同形式的互联网数据的多种模型。当串联使用时,它们有助于机器人决策,并有可能帮助完成家庭、工厂和建筑工地的任务。 ”

这些模型还需要某种形式的“眼睛”来了解它们运行的​​环境并正确执行每个子目标。该团队使用大型视频扩散模型来增强法学硕士完成的初始规划,该规划从互联网上的镜头中收集有关世界的几何和物理信息。反过来,视频模型会生成观察轨迹计划,细化法学硕士的大纲以纳入新的物理知识。

这个过程被称为迭代细化,允许 HiP 对其想法进行推理,在每个阶段吸收反馈以生成更实用的大纲。反馈流程类似于撰写文章,作者可以将草稿发送给编辑,并在合并修订后,出版商审查所有最后的更改并最终确定。

在这种情况下,层次结构的顶部是一个以自我为中心的动作模型,或者一系列第一人称图像,可以根据周围环境推断应该采取哪些动作。在此阶段,视频模型的观察计划被映射到机器人可见的空间上,帮助机器决定如何在长视野目标内执行每项任务。如果机器人使用 HiP 泡茶,这意味着它将准确标出壶、水槽和其他关键视觉元素的位置,并开始完成每个子目标。

尽管如此,多模态工作仍因缺乏高质量视频基础模型而受到限制。一旦可用,它们可以与 HiP 的小规模视频模型连接,以进一步增强视觉序列预测和机器人动作生成。更高质量的版本还将降低视频模型当前的数据要求。

话虽如此,CSAIL 团队的方法总体上仅使用了极少量的数据。此外,HiP 的训练成本低廉,并展示了使用现成的基础模型来完成长期任务的潜力。

“Anurag 所展示的是我们如何采用在单独任务和数据模式上训练的模型并将其组合成机器人规划模型的概念验证。未来,HiP 可以通过可以处理触摸的预训练模型进行增强麻省理工学院 EECS 助理教授兼 Improbable AI 实验室主任、资深作者 Pulkit Agrawal 说道。该小组还在考虑应用 HiP 来解决现实世界中机器人技术的长期任务。

Ajay 和 Agrawal 是一篇描述这项工作的论文的主要作者。麻省理工学院教授和 CSAIL 首席研究员 Tommi Jaakkola、Joshua Tenenbaum 和 Leslie Pack Kaelbling 也加入了他们的行列;CSAIL 研究附属机构兼 MIT-IBM AI 实验室研究经理 Akash Srivastava;研究生 Seungwook Han 和 Yilun Du;前博士后 Abhishek Gupta,现任华盛顿大学助理教授;和前研究生李爽博士

标签:

免责声明:本文由用户上传,如有侵权请联系删除!