基于GPT-4模型的新型NVIDIA AI代理可用于训练复杂机器人技能

站长云网 2023-10-20 互联网 AI编辑

英伟达研究院(NVIDIAResearch)今天宣布,它已开发出一种名为"尤里卡"(Eureka)的新型人工智能代理,该代理由OpenAI的GPT-4支持,可自主教授机器人复杂的技能。

访问购买页面:

京东NVIDIA系列商品汇总

该公司在一篇博客文章中说,Eureka可以自主编写奖励算法,它首次训练机器人的手像人类一样完成快速转笔技巧。尤里卡还教会了机器人打开抽屉和柜子、抛接球、操作剪刀等近30项任务。

"强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个试错过程,"NVIDIA公司人工智能研究高级主管、Eureka论文的作者阿尼玛-阿南德库马尔(AnimaAnandkumar)在博文中说。"Eureka是开发新算法的第一步,它整合了生成学习和强化学习方法来解决困难任务。"

NVIDIAResearch还发布了Eureka人工智能算法库,供人们使用NVIDIAIsaacGym(一款用于强化学习研究的物理模拟参考应用)进行实验。IsaacGym基于NVIDIAOmniverse构建,Omniverse是一个基于OpenUSD框架构建3D工具和应用的开发平台。

人工智能代理的热潮已持续数月之久,包括今年四月Auto-GPT、BabyAGI和AgentGPT等自主人工智能代理的兴起。

目前NVIDIAResearch的工作建立在先前工作的基础上,包括最近的Voyager,这是一个使用GPT-4构建的人工智能代理,可以自主玩Minecraft。本周,《纽约时报》发表了一篇关于将聊天机器人转变为在线代理的文章,英属哥伦比亚大学计算机科学教授、曾担任OpenAI研究员的杰夫-克鲁尼(JeffClune)说:"这是一个巨大的商业机会,有可能带来数万亿美元的收益。这对社会有巨大的上升空间和巨大的影响。"

在一篇题为《Eureka:通过编码大型语言模型进行人类级奖励设计》的新研究论文中,作者说,"Eureka利用最先进的LLM(如GPT-4)非凡的零点生成、代码编写和上下文改进能力,对奖励代码进行进化优化"。

由此产生的奖励可用于通过强化学习获得复杂的技能。"在没有任何特定任务提示或预定义奖励模板的情况下,Eureka生成的奖励函数优于人类设计的专家奖励。在一套包含10种不同机器人形态的29种开源RL环境中,Eureka在83%的任务中表现优于人类专家,平均归一化提高了52%。"

"Eureka是大型语言模型与英伟达GPU加速仿真技术的独特结合,"英伟达高级研究科学家JimFan在博文中说,他也是该项目的贡献者之一。"我们相信,Eureka将实现灵巧的机器人控制,并为艺术家提供一种制作物理逼真动画的新方法。"

责任编辑:站长云网