“起大早赶晚集”的Google大模型 这次真的“遥遥领先”了?

站长云网 2025-03-26 站长云网

最早推出Transformer架构的Google,一度在大模型竞赛中落后。好在随着Gemini的不断进化,Google正在回到第一梯队。3月26日,Gemini2.5Pro上线,这个模型一经推出就登顶各大榜单,在ChatbotArena上较第二名高出整整39分!

Gemini2.5Pro是一款推理模型。Google表示,推理能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

据悉Gemini2.5Pro目前支持100万token的上下文窗口,很快将推出200万token的上下文窗口,继承并发扬了Gemini模型的优势——原生多模态能力和超长上下文长度。

这让它能够理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

在ChatbotArena(由加州大学伯克利分校SkyLab和LMSYS的研究者开发,主要用于根据人类偏好评估大语言模型的性能)上,Gemini2.5Pro以横扫所有类别的显著优势排名第一,并且比紧随其后的Grok-3整整高出了39分。


同时Gemini2.5Pro还获得了创意写作、指令遵循和长查询三大领域唯一的冠军。


此外,Gemini2.5Pro成功登顶了视觉竞技场(VisionArena)排行榜榜首。


在网页开发领域,作为首个实力媲美Claude3.7Sonnet的模型,Gemini2.5Pro成功获得了网页开发竞技场(WebDevArena)的第二名。


不仅如此,Gemini2.5Pro在Humanity’sLastExam(notools),GPQA和AIME2025等数学和科学基准评测中同样表现卓越。

Humanity’sLastExam(notools)即“人类的最后考试(无工具)”,这里的“无工具”指在进行该考试时,不允许使用外部工具,如搜索引擎、数据库等。已往实验显示,最先进的LLMs在HLE上的准确率普遍低于10%,且存在信心与能力失衡、推理效率低等问题,表明当前LLM的能力与人类专家在封闭式学术问题上的前沿能力之间的差距。在这一背景下,Gemini2.5Pro18.8%的成绩显得非常突出。


据悉,Gemini2.5Pro已在GoogleAIStudio和Gemini应用中,向GeminiAdvanced用户开放,并将在VertexAI上推出。

而它会在未来几周内公布定价方案,用户可以在更高使用配额下,将模型应用于大规模生产环境。

责任编辑:站长云网