基于GPT-4模型的新型NVIDIA AI代理可用于训练复杂机器人技能

英伟达研究院（NVIDIAResearch）今天宣布，它已开发出一种名为"尤里卡"（Eureka）的新型人工智能代理，该代理由OpenAI的GPT-4支持，可自主教授机器人复杂的技能。

访问购买页面:

京东NVIDIA系列商品汇总

该公司在一篇博客文章中说，Eureka可以自主编写奖励算法，它首次训练机器人的手像人类一样完成快速转笔技巧。尤里卡还教会了机器人打开抽屉和柜子、抛接球、操作剪刀等近30项任务。

"强化学习在过去十年中取得了令人印象深刻的胜利，但仍然存在许多挑战，例如奖励设计，这仍然是一个试错过程，"NVIDIA公司人工智能研究高级主管、Eureka论文的作者阿尼玛-阿南德库马尔（AnimaAnandkumar）在博文中说。"Eureka是开发新算法的第一步，它整合了生成学习和强化学习方法来解决困难任务。"

NVIDIAResearch还发布了Eureka人工智能算法库，供人们使用NVIDIAIsaacGym（一款用于强化学习研究的物理模拟参考应用）进行实验。IsaacGym基于NVIDIAOmniverse构建，Omniverse是一个基于OpenUSD框架构建3D工具和应用的开发平台。

人工智能代理的热潮已持续数月之久，包括今年四月Auto-GPT、BabyAGI和AgentGPT等自主人工智能代理的兴起。

目前NVIDIAResearch的工作建立在先前工作的基础上，包括最近的Voyager，这是一个使用GPT-4构建的人工智能代理，可以自主玩Minecraft。本周，《纽约时报》发表了一篇关于将聊天机器人转变为在线代理的文章，英属哥伦比亚大学计算机科学教授、曾担任OpenAI研究员的杰夫-克鲁尼（JeffClune）说："这是一个巨大的商业机会，有可能带来数万亿美元的收益。这对社会有巨大的上升空间和巨大的影响。"

在一篇题为《Eureka：通过编码大型语言模型进行人类级奖励设计》的新研究论文中，作者说，"Eureka利用最先进的LLM（如GPT-4）非凡的零点生成、代码编写和上下文改进能力，对奖励代码进行进化优化"。

由此产生的奖励可用于通过强化学习获得复杂的技能。"在没有任何特定任务提示或预定义奖励模板的情况下，Eureka生成的奖励函数优于人类设计的专家奖励。在一套包含10种不同机器人形态的29种开源RL环境中，Eureka在83%的任务中表现优于人类专家，平均归一化提高了52%。"

"Eureka是大型语言模型与英伟达GPU加速仿真技术的独特结合，"英伟达高级研究科学家JimFan在博文中说，他也是该项目的贡献者之一。"我们相信，Eureka将实现灵巧的机器人控制，并为艺术家提供一种制作物理逼真动画的新方法。"