Google深夜祭出Gemini2.0“硬刚”OpenAI Agent时代最强模型登场了？

站长云网 2024-12-12 站长云网

就在OpenAI“12天连续轰炸”的第五天，Google终于坐不住了。刚刚，Google正式发布了Gemini2.0系列人工智能模型的首个版本，该模型名为Gemini2.0Flash，提供聊天版本供全球用户使用，同时还有一个实验版的模型可供开发人员免费使用，该版本具有文本转语音和图像生成功能。

据Google称，这是Agent时代迄今为止为最强大的AI模型，相比上一代Gemini模型，2.0在速度上快两倍，并且比更大的“专业”版Gemini1.5更加强大。此外，该版本带来了增强的性能、更多的多模态性和新的原生工具。

相比上一代模型，Gemini2.0增加了什么？

Google首席执行官SundarPichai在一份声明中表示：“如果Gemini1.0致力于组织和理解信息，那么Gemini2.0则致力于让信息变得更加有用。”

Google最新的大语言模型在大多数用户请求领域都比其前代产品表现更好，例如代码生成和根据用户请求提供事实正确响应的能力。

在GoogleDeepMindCEODemisHassabis和GoogleDeepMindCTOKorayKavukcuoglu代表Gemini团队撰写的博文中，详细介绍了Gemini2.0版本的具体特性。

据他们称，Gemini2.0Flash以1.5Flash的成功为基础，是Google目前最受开发者欢迎的版本，在同样快速的响应时间下具有增强的性能。值得注意的是，2.0Flash在关键基准测试中甚至比1.5Pro更快，速度是1.5Pro的两倍。2.0Flash还具有新功能。除了支持图像、视频和音频等多模式输入外，2.0Flash现在还支持多模式输出，例如与文本混合的原生生成的图像和可操纵的文本转语音(TTS)多语言音频。它还可以原生调用Google搜索、代码执行以及第三方用户定义函数等工具。

过去一个月，Gemini团队一直在分享Gemini2.0的早期实验版本，并得到了开发人员的积极反馈。

Gemini2.0Flash现已作为实验模型通过GoogleAIStudio和VertexAI中的GeminiAPI向开发者提供，所有开发者均可使用多模式输入和文本输出，早期合作伙伴可使用文本转语音和原生图像生成功能。

1月份将全面上市，同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序，Google还发布了新的MultimodalLiveAPI，它具有实时音频、视频流输入以及使用多个组合工具的能力。

要访问实验版本Flash2.0的聊天优化版本，Gemini用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示，它将很快在Gemini移动应用程序上提供。

GeminiFlash2.0的多模版本将通过Google的AIStudio和VertexAI开发者平台提供。

该公司还表示，计划在2025年初将Gemini2.0扩展到更多Google产品。

推出DeepSearch新功能

Google此次发布的还不仅仅是大模型。Google宣布将推出一项名为DeepResearch的新功能，它使用高级推理和长上下文功能充当研究助手，探索复杂主题并代表用户编写报告。它今日起已经GeminiAdvanced中可用。

据Google方面称，Search无疑是受到人工智能影响最深远、变革最显著的产品。如今，AIOverviews已触达10亿用户，该功能使用户能够提出全新的问题类型，迅速成为Search有史以来最受欢迎的功能之一。接下来，Google会将Gemini2.0的高级推理能力融入AIOverviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。同时，Google还计划明年将AIOverviews功能面向更多国家开放，适配更多语言。

2.0基于Google定制的硬件第六代TPUTrillium构建而成。TPU为Gemini2.0的训练和推理提供100%算力支持，今天Trillium也全面向用户开放，以便他们能够基于此进行开发。

通过Gemini2.0解锁Agent体验

Gemini2.0Flash已经进行了原生用户界面操作能力的改进，其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

自大模型诞生以来，AIAgent的实际应用是一个非常火爆的研究领域。Google正在通过一系列原型探索这一新领域，这些原型可以帮助人们完成任务并完成工作。其中包括对ProjectAstra的更新，这是Google的研究原型，旨在探索通用人工智能助手的未来功能；新ProjectMariner，它从浏览器开始探索人机交互的未来；以及Jules，一个可以帮助开发人员的AI代码Agent。

GeminiAPI集团产品经理ShresthaBasuMallick和Google实验室产品总监KathyKorevec表示：“从今天开始（对于受信任的测试人员），你可以将Python和JavaScript编码任务转移给Jules。Jules可以异步工作并与你的GitHub工作流程集成，处理错误修复和其他耗时任务，而你则专注于你真正想要构建的内容。

Google也表示，即便技术持续迭代，但Gemini系列模型仍处于开发的早期阶段，他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验，这样就可以在未来的产品中更广泛地使用它们。

硬刚一众AI独角兽，Google更胜一筹？

Gemini2.0是Google在科技行业日益激烈的人工智能竞赛中的最新成果。Google正在与科技巨头微软、Meta以及一众AI明星独角兽如OpenAI、Perplexity和Anthropic等初创公司展开激烈战争。

Google这一波出手在技术社区引发了热议，一名Reddit用户对Gemini2.0的发布表示震惊，他评论道：

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对AI的绝对敬畏交织在一起。超现实的是，我们正在经历这种改进，并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象10年后的情况。看看2004年到2014年的科技各个方面都取得了巨大进展，但与这两年AI势头相比还有很大差距。”

有用户调侃，Google甚至都等不及OpenAI把“疯狂发布周”过完再来炸场，结合前两日Sora潦草发布，有不少网友直接站队Google：

“Google的Gemini绝对是是GPT-5级别的威胁，我从未见过一家公司发布如此强大的模型让开发者免费试用。”

随着新Flash模型的发布，这场AI军备竞赛已经进入白热化阶段。据Google公司称，Agent模型“可以更好地了解你周围的世界，提前思考多个步骤，并在你的监督下代表你采取行动。”

上周，在《纽约时报》DealBook峰会上与安德鲁·罗斯·索尔金(AndrewRossSorkin)的对话中，GoogleCEO皮查伊对微软的人工智能进步提出了质疑，表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

安德鲁·罗斯·索尔金问皮查伊：“相对于其他参与者，你认为自己处于什么位置？”

皮查伊表示他很想进行并排比较，随后他补充道：“他们使用了别人的模型。”

“你这是在向我发起挑战。”索金回答道。

皮查伊笑着摇了摇头，补充道：“我只是——我非常尊重他们和他们的团队。”

微软当家人纳德拉对于Google技术实力也给予了很高的肯定。

早在今年3月份，微软CEO纳德拉在挪威银行投资管理播客上表示：“Google本应就是大型科技公司AI竞赛的默认赢家。Google是一家非常有能力的公司，他们既有人才，又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

责任编辑：站长云网

上篇：“不务正业”的美图偷偷赚了5.7个亿

下篇：快递驿站没有新闻只是越来越难做了

顶一下[0]

踩一下[0]