DeepMind新型AI模型可帮助机器人执行物理任务甚至无需训练

GoogleDeepMind正在推出两个新的人工智能模型，旨在帮助机器人"执行比以往更广泛的现实世界任务"。第一个模型名为"双子座机器人"（GeminiRobotics），它是一个视觉-语言-动作模型，能够理解新的情况，即使没有经过训练。

双子座机器人基于双子座2.0（Google旗舰人工智能模型的最新版本）构建。在一次新闻发布会上，GoogleDeepMind高级总监兼机器人技术主管卡罗琳娜-帕拉达（CarolinaParada）说，GeminiRobotics"借鉴了Gemini对多模态世界的理解，并通过添加物理动作作为一种新的模态，将其转移到现实世界中"。

新模型在三个关键领域取得了进步，GoogleDeepMind称，这三个领域对于打造有用的机器人至关重要：通用性、交互性和灵巧性。除了概括新场景的能力外，"双子座机器人"还能更好地与人和环境互动。它还能执行更精确的物理任务，如折叠一张纸或取下一个瓶盖。

GoogleDeepMind的新型双子座机器人模型让机器人更加灵巧。

帕拉达说："过去，我们在这些领域中的每一个领域都单独取得了进展，而现在，我们正在用一个单一的模型[大幅]提高所有三个领域的性能。这使我们能够制造出能力更强、反应更灵敏、对环境变化更稳健的机器人。"

GoogleDeepMind还推出了双子座机器人-ER（即具身推理），该公司将其描述为一种先进的视觉语言模型，能够"理解我们复杂多变的世界"。

正如帕拉达解释的那样，当你在打包午餐盒时，面前的桌子上摆放着各种物品，你需要知道所有东西的位置，以及如何打开午餐盒、如何拿取物品、放在哪里。这正是双子座机器人-ER需要完成的推理工作。它的设计目的是让机器人专家与现有的底层控制器（控制机器人运动的系统）连接，使他们能够启用由GeminiRobotics-ER支持的新功能。

GeminiRobotics还能帮助机器人执行一系列任务。

在安全性方面，GoogleDeepMind研究员维卡斯-辛德瓦尼（VikasSindhwani）告诉记者，该公司正在开发一种"分层方法"，并补充说，双子座机器人-ER模型"经过训练，可以评估在特定场景下执行潜在动作是否安全"。该公司还发布了新的基准和框架，以帮助人工智能行业进一步开展安全研究。去年，GoogleDeepMind推出了"机器人宪法"，这是一套受艾萨克-阿西莫夫（IsaacAsimov）启发而制定的机器人规则。

GoogleDeepMind正与Apptronik合作"打造下一代仿人机器人"。GoogleDeepMind还允许"可信测试人员"访问其GeminiRobotics-ER模型，包括AgileRobots、AgilityRobotics、BostonDynamics和EnchantedTools。"Parada说："我们非常专注于构建能够理解物理世界并在物理世界中采取行动的智能。我们非常高兴能够在多种体现和多种应用中利用这一点。"