亚马逊将提供人类基准测试团队来测试人工智能模型

站长云网 2023-11-30 5iter.com 站长云网

亚马逊希望用户能更好地评估人工智能模型,并鼓励更多人类参与到这一过程中来。在AWSre:Invent大会上,AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣布了Bedrock上的模型评估(ModelEvaluationonBedrock)功能,该功能现已推出预览版,适用于其存储库AmazonBedrock中的模型。

如果没有透明测试模型的方法,开发人员最终可能会使用那些对于问答项目来说不够准确的模型,或者对于他们的使用案例来说过于庞大的模型。

Sivasubramanian说:"模型选择和评估不只是在开始时进行,而是要定期重复进行。我们认为有一个人在环路中是很重要的,因此我们提供了一种方法,可以轻松管理人工评估工作流和模型性能指标"。

一些开发人员常常不知道是否应该在项目中使用更大的模型,因为他们以为功能更强大的模型可以满足他们的需求。后来他们发现,他们本可以在更小的模型上进行开发。模型评估包括两个部分:自动评估和人工评估。在自动化版本中,开发人员可以进入Bedrock控制台,选择一个模型进行测试。然后,他们就可以评估模型在摘要、文本分类、问题解答和文本生成等任务中的鲁棒性、准确性或毒性等指标的表现。

Bedrock包括流行的第三方人工智能模型,如Meta的Llama2、Anthropic的Claude2和StabilityAI的StableDiffusion。

AWS提供测试数据集,客户也可以将自己的数据带入基准测试平台,以便更好地了解模型的表现。系统随后会生成一份报告。

如果需要人工参与,用户可以选择与AWS人工评估团队或自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及想要使用的数据集。AWS将为与评估团队合作的客户提供定制的价格和时间安排。

AWS负责生成式人工智能的副总裁VasiPhilomin表示,更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前,了解模型是否不符合一些负责任的人工智能标准,比如较低或过高的毒性敏感度。

Philomin说:"重要的是,模型要适合我们的客户,要知道哪种模型最适合他们,我们正在为他们提供一种更好的评估方法。"AWS不会要求所有客户都对模型进行基准测试,因为一些开发人员以前可能使用过Bedrock上的一些基础模型,或者对模型的功能有一定的了解。仍在探索使用哪种模型的公司可以从基准测试过程中获益。

Sivasubramanian还表示,当人类评估人工智能模型时,他们可以检测到自动化系统无法检测到的其他指标--比如同理心或友好度。

AWS表示,虽然基准测试服务还处于预览阶段,但它只对评估过程中使用的模型推理收费。

虽然没有特定的人工智能模型基准标准,但一些行业普遍接受特定的指标。Bedrock基准测试的目标不是对模型进行广泛评估,而是为企业提供一种衡量模型对其项目影响的方法。

责任编辑:站长云网