全新Gemini一夜血洗编程 全球仅7人能赢它
今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。GoogleVP晒出这个副项目,最终的成品是这样子的。

离职Anthropic入职Google的华人学者姚顺宇参与了Gemini 3 Deep Think
这一次,在科学研究和硬核工程领域,Deep Think堪称一个“最强大脑”。
它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。




新版Deep Think的实力究竟有多恐怖?
在编程界,它刷出了3455 Elo的惊人分数,达到世界冠军级的水准,冲入了Codeforces比赛人类TOP 10!
也就是说,全球只有7人击败了Gemini 3 Deep Think,一年前,最强o3也仅拿下2727 Elo。


在人类最后考试(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成绩。
甚至,它在一夜之间让最难的ARC-AGI-2基准直接饱和,以84.6%新SOTA一骑绝尘。



左右滑动查看
与Gemini 3 Pro相比,Deep Think实现了全方位反超,并将Claude Opus 4.6、GTP-5.2直接踩在了脚下。
|
|
更令人震撼的是,Gemini 3 Deep Think的实战表现。
罗格斯大学数学家Lisa Carbone在研究时,让它审查一篇高深的物理数学论文。
结果,Deep Think竟发现了一个连人类同行评审,都遗漏的细微逻辑漏洞。

Gemini 3 Deep Think这波史诗级进化,又让某些人睡不着了。


目前,Google AI Ultra订阅用户即可在Gemini中体验新版Deep Think。同时,首次通过API向部分研究人员、工程师和企业开放。


实力刷爆SOTA,奥赛金牌大满贯
去年,Deep Think专门版成功解决了推理领域最艰巨的任务,在数学和编程世界锦标赛中夺下金牌。

就在昨天,GoogleDeeoMind还做了一个预热。
背靠初代Deep Think的“AI数学家”Aletheia可以独立撰写论文,证明了“Erdős猜想”中多个难题。
不仅如此,Deep Think直接推翻了十年猜想,一举攻克18大研究瓶颈。

而现在,迭代后的Deep Think已在多项高难度的基准测试中刷新SOTA:
人类最后的考试(HLE):设定了新标杆,在不使用工具的情况下准确率达48.4%;
ARC-AGI-2:达到了前所未有的84.6%,并获得ARC奖项基金会的验证;
算法竞赛平台Codeforces:Elo评分达到了惊人的3455分;
2025 IMO:达到金牌水平。

除了数学和算法竞赛,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现优异。
在2025年国际物理奥林匹克和化学奥林匹克的笔试部分,新版Deep Think同样具备了金牌实力。
此外,它在高级理论物理方面也游刃有余,在CMT-Benchmark测试中取得了50.5%的成绩。

另外,Gemini 3 Deep Think在ARC-AGI-1上,直接顶到头了。

官方演示中,Gemini 3 Deep Think可以根据论文,为“时空循环视频Transformer”架构创建一个的视化方案。


Deep Think杀入科研,十倍加速
除了顶尖的性能表现,Deep Think还突破了智能边界,能够解决科学、研究和工程领域的现代难题。
它不仅能帮助科研人员解读复杂数据,还能辅助工程师通过代码对物理系统建模。

在早期测试中,许多科学家在科研工作流中,显著提升了研究产出质量。
在杜克大学,Wang Lab用Deep Think优化了复杂晶体生长的制造方法,以用于潜在的半导体材料发现。
令人意想不到,Deep Think成功设计出了一种生长大于100 μm薄膜的配方,达到了以前方法难以实现的精确目标。

Google平台与设备部门的研发主管Anupam Pathak表示——
我不是CAD设计师,但有了Deep Think,可以直接将草图变成可3D打印的实物。
它会分析绘图,对复杂形状进行建模,并生成3D打印所需的模型文件,让物理零部件建模加速十倍。
只需发送一张图片、一个提示词,它就能够深入思考,便可以提供几个之前从自己未想过的全新设计方案。

Deep Think将深厚的科学知识与实用的工程能力相结合,超越了抽象理论,真正开始推动实际应用。

网友惊艳实测,物理模拟太强
在实测中,Gemini 3 Deep Think展现出超强的物理模拟能力。


它可以模拟光线追踪,在浏览器中就可以实现。


并且还可以在单个HTML文件中,构建出一个完整的Three.js场景,渲染出博物馆中古典油画难以区分的全3D室内房间。


Simon Willison用Gemini 3 Deep Think画了一张鹈鹕骑自行车的SVG矢量图,效果非常惊艳。
他表示,这是自己目前见过最棒的一版了。


既然在处理那条基础的“生成一张鹈鹕骑自行车的SVG”指令时表现得这么出色,Simon决定加大难度,试个更有挑战性的版本:
生成一张加州褐鹈鹕骑自行车的SVG图像。自行车必须要有辐条,车架形状要准确。鹈鹕必须具备其标志性的大喉囊,且要有清晰的羽毛细节。必须能清楚地看出鹈鹕正在蹬车。图像需要展示加州褐鹈鹕完整的繁殖羽特征。
结果如下:

这一次,Google让AI真正渗透进了科研工作的“最后一公里”:审阅论文、工业设计、实验优化,无所不包。
当AI能够揪出连人类审稿人都忽略的逻辑漏洞时,“辅助工具”这四个字显然已经配不上它了。
如今,压力球抛回给了OpenAI。
面对Google这记直击痛点的“深思”回击,奥特曼的下一张王牌,必须足够震撼。
参考资料:
https://x.com/GoogleDeepMind/status/2021981512925585703
https://x.com/GoogleDeepMind/status/2021981510400709092
https://x.com/kimmonismus/status/2021983169478533148
踩一下[0]

站长云网

顶一下[0]