Google推出全新人工智能模型Gemini 2.0 用途更为广泛

站长云网 2024-12-11 5iter.com 站长云网

Google的下一个主要人工智能模型已经到来，以对抗来自OpenAI的新产品的夹击。本周三，Google发布了Gemini2.0Flash，该公司称其除文本外，还能原生生成图像和音频。2.0Flash还可以调用第三方应用程序和服务，使其能够接入Google搜索、执行代码等。

2.0Flash的实验版本将从今天开始通过GeminiAPI和Google的人工智能开发者平台AIStudio和VertexAI提供。不过，音频和图像生成功能仅面向"早期访问合作伙伴"推出，并将于1月份全面推出。

Google表示，在未来几个月内，它将为AndroidStudio、ChromeDevTools、Firebase，GeminiCodeAssist等产品带来各种版本的2.0Flash。

第一代Flash（1.5Flash）只能生成文本，并不是为要求特别高的工作负载而设计的。Google表示，这种新模式更具通用性，部分原因在于它可以调用搜索等工具并与外部API进行交互。

产品主管图尔西-多希（TulseeDoshi）在周二的发布会上说："我们知道，Flash在速度和性能之间取得了平衡，因此深受开发人员的欢迎。有了2.0版Flash，它的速度一如既往，而且功能更加强大。"

Google声称，根据自己的测试，2.0Flash在某些基准测试中的速度是该公司Gemini1.5Pro模型的两倍，而且在编程和图像分析等方面有了"显著"改进。事实上，该公司表示，2.0Flash凭借其卓越的数学能力和"事实性"，取代1.5Pro成为Gemini的旗舰模型。

如前所述，2.0Flash可以生成并修改文本和图像。该模型还能采集照片和视频以及录音，以回答相关问题（例如"他说了什么？）

音频生成是2.0Flash的另一项主要功能，多希将其描述为"可操纵"和"可定制"。例如，该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。

她补充说："你可以让它说得慢一点，也可以让它说得快一点，甚至可以让它说像海盗一样的话。"

目前Google没有提供2.0Flash的图像或音频样本。至少在撰写本文时，我们无法得知其质量与其他机型的输出相比如何。

Google表示将使用其SynthID技术对2.0Flash生成的所有音频和图像进行水印处理。在支持SynthID的软件和平台上（即选定的Google产品），模型的输出将被标记为合成。

这是为了消除对滥用的担忧。事实上，深度伪造是一种日益严重的威胁。根据身份验证服务公司Sumsub的数据，从2023年到2024年，全球检测到的深度伪造增加了4倍。

2.0Flash的正式版本将于1月份发布。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（MultimodalLiveAPI），以帮助开发人员创建具有实时音频和视频流功能的应用程序。

Google表示，通过使用多模态实时API，开发人员可以创建实时、多模态的应用程序，并通过摄像头或屏幕输入音频和视频。该API支持集成各种工具来完成任务，并且可以处理"自然对话模式"，例如中断，这与OpenAI的RealtimeAPI大体一致。

多模态实时API已于今天上午全面推出。

责任编辑：站长云网

顶一下[0]

踩一下[0]