Google推出全新人工智能模型Gemini 2.0 用途更为广泛

站长云网 2024-12-11 5iter.com 站长云网

Google的下一个主要人工智能模型已经到来,以对抗来自OpenAI的新产品的夹击。本周三,Google发布了Gemini2.0Flash,该公司称其除文本外,还能原生生成图像和音频。2.0Flash还可以调用第三方应用程序和服务,使其能够接入Google搜索、执行代码等。

2.0Flash的实验版本将从今天开始通过GeminiAPI和Google的人工智能开发者平台AIStudio和VertexAI提供。不过,音频和图像生成功能仅面向"早期访问合作伙伴"推出,并将于1月份全面推出。

Google表示,在未来几个月内,它将为AndroidStudio、ChromeDevTools、Firebase,GeminiCodeAssist等产品带来各种版本的2.0Flash。

第一代Flash(1.5Flash)只能生成文本,并不是为要求特别高的工作负载而设计的。Google表示,这种新模式更具通用性,部分原因在于它可以调用搜索等工具并与外部API进行交互。

产品主管图尔西-多希(TulseeDoshi)在周二的发布会上说:"我们知道,Flash在速度和性能之间取得了平衡,因此深受开发人员的欢迎。有了2.0版Flash,它的速度一如既往,而且功能更加强大。"

Google声称,根据自己的测试,2.0Flash在某些基准测试中的速度是该公司Gemini1.5Pro模型的两倍,而且在编程和图像分析等方面有了"显著"改进。事实上,该公司表示,2.0Flash凭借其卓越的数学能力和"事实性",取代1.5Pro成为Gemini的旗舰模型。

如前所述,2.0Flash可以生成并修改文本和图像。该模型还能采集照片和视频以及录音,以回答相关问题(例如"他说了什么?)

音频生成是2.0Flash的另一项主要功能,多希将其描述为"可操纵"和"可定制"。例如,该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。

她补充说:"你可以让它说得慢一点,也可以让它说得快一点,甚至可以让它说像海盗一样的话。"

目前Google没有提供2.0Flash的图像或音频样本。至少在撰写本文时,我们无法得知其质量与其他机型的输出相比如何。

Google表示将使用其SynthID技术对2.0Flash生成的所有音频和图像进行水印处理。在支持SynthID的软件和平台上(即选定的Google产品),模型的输出将被标记为合成。

这是为了消除对滥用的担忧。事实上,深度伪造是一种日益严重的威胁。根据身份验证服务公司Sumsub的数据,从2023年到2024年,全球检测到的深度伪造增加了4倍。

2.0Flash的正式版本将于1月份发布。但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(MultimodalLiveAPI),以帮助开发人员创建具有实时音频和视频流功能的应用程序。

Google表示,通过使用多模态实时API,开发人员可以创建实时、多模态的应用程序,并通过摄像头或屏幕输入音频和视频。该API支持集成各种工具来完成任务,并且可以处理"自然对话模式",例如中断,这与OpenAI的RealtimeAPI大体一致。

多模态实时API已于今天上午全面推出。

责任编辑:站长云网