谷歌DeepMind的新RT-2系统使机器人能够执行新颖的任务
随着人工智能的进步,我们期待未来拥有比以往更多的机器人和自动化。它们已经围绕着我们——可以熟练地在你的家中导航的机器人真空吸尘器,可以招待毛茸茸的朋友的机器人宠物伴侣,以及可以接管周末家务的机器人割草机。我们似乎正在慢慢走向现实生活中的杰森一家。但尽管它们看起来很聪明,这些机器人也有其局限性。
GoogleDeepMind推出了RT-2,这是第一个用于机器人控制的视觉-语言-动作(VLA)模型,它有效地将机器人游戏提升了几个层次。该系统接受来自互联网的文本数据和图像的训练,就像ChatGPT和Bing等人工智能聊天机器人背后的大型语言模型的训练一样。
另外:研究人员如何破解ChatGPT以及它对未来人工智能发展意味着什么
【资料图】
我们的家用机器人可以执行简单的任务,它们被编程来执行。例如,对地板进行吸尘,如果左侧传感器检测到墙壁,请尝试绕过它。但传统的机器人控制系统无法处理新情况和意外变化——通常,它们一次只能执行一项任务。
RT-2旨在随着时间的推移适应新情况,从网络和机器人数据等多个数据源中学习,以理解语言和视觉输入,并执行它从未遇到过或从未接受过训练的任务。
“在网络规模数据上预训练的视觉语言模型(VLM)正在从RT-1机器人数据中学习,成为RT-2,这是一种可以控制机器人的视觉语言动作(VLA)模型,”来自Google深心。
谷歌深度思维
传统的机器人可以被训练来捡起球并在捡起立方体时绊倒。RT-2灵活的方法使机器人能够训练捡起球,并能够弄清楚如何调整其四肢来捡起立方体或其他它以前从未见过的玩具。
传统机器人需要对数十亿个数据点进行耗时的现实世界训练,即它们必须物理识别物体并学习如何拾取它,RT-2接受大量数据训练,并且可以将这些知识转化为行动,执行以前从未经历过的任务。
谷歌DeepMind机器人主管VincentVanhoucke表示:“RT-2将信息转化为行动的能力表明机器人有望更快地适应新的情况和环境。”“在超过6,000次机器人试验中测试RT-2模型时,团队发现RT-2在训练数据中的任务或“看到”任务上的功能与我们之前的模型RT-1一样。而且它几乎翻了一番它在新颖、未见过的场景中的表现从RT-1的32%提高到62%。”
DeepMind团队采用了两个现有模型:PathwaysLanguageandImageModel(PaLI-X)和PathwaysLanguageModelEmbodied(PaLM-E)来训练RT-2。PaLI-X帮助模型处理视觉数据,对大量图像和视觉信息以及其他相应的描述和在线标签进行训练。借助PaLI-X,RT-2可以识别不同的对象,了解其周围场景的上下文,并将视觉数据与语义描述相关联。
PaLM-E帮助RT-2解释语言,因此它可以轻松理解指令并将其与周围的事物以及当前正在做的事情联系起来。
当DeepMind团队改编这两个模型作为RT-2的骨干时,它创建了新的VLA模型,使机器人能够理解语言和视觉数据,并随后生成它所需的适当动作。
RT-2本身并不是一个机器人——它是一个可以比以往更有效地控制机器人的模型。支持RT-2的机器人可以使用视觉和语言数据执行各种复杂程度的任务,例如通过读取文档上的标签按字母顺序组织文件并对它们进行排序,然后将它们放在正确的位置。
它还可以处理复杂的任务。例如,如果您说:“我需要邮寄这个包裹,但我没有邮票了”,RT-2可以确定首先需要做什么,例如找到附近出售邮票的邮局或商人,然后选择包装,并从那里处理物流。
另外:什么是GoogleBard?这是您需要了解的一切
Vanhoucke补充道:“RT-2不仅展示了人工智能的进步如何迅速融入机器人技术,而且还展示了更多通用机器人的巨大前景。”
让我们希望“承诺”更倾向于实现《杰森一家》的情节,而不是《终结者》的情节。