Google AI 搜索每天或生成数千万条错误答案

站长云网 2026-04-08 5iter.com 站长云网

有测试显示,Google在搜索结果中默认展示的 AI 总览内容虽然大部分时间是准确的,但在当前超大规模的搜索量之下,哪怕只有一小部分出错,也意味着用户每天会看到数以千万计的错误答案。

《纽约时报》援引 AI 初创公司 Oumi 的评估称,大约每 10 条Google AI 总览中就有 1 条包含虚假信息。按Google每年处理约 5 万亿次搜索来推算,用户每小时可能会接触到超过 5700 万条不准确的回答,换算下来几乎是“每分钟近百万条”。

Oumi 应《纽约时报》要求,使用广泛采用的生成式 AI 测试基准 SimpleQA,对Google搜索中的 Gemini 准确率做了量化评估。在 4326 条搜索样本中,去年 10 月 Gemini 2 提供准确 AI 总览的比例约为 85%,到了今年 2 月升级到 Gemini 3 后,这一比例提升到 91%。

不过,Oumi 之所以能在大样本规模下进行评估,本身也依赖其他 AI 工具,这可能会引入新的误差。与此同时,Google在现实使用中有时会对同一搜索请求给出不同的 AI 总览内容,即便两次搜索之间仅间隔数秒,这也加大了评估难度。

Google方面则认为 Oumi 的测试方法“有缺陷”,并不符合真实世界的搜索行为。按照Google内部测试数据,在脱离搜索、单独运行的情况下,Gemini 3 的“幻觉率”(生成错误内容的比例)约为 28%。

报道指出,信息来源也是一大难题。Google会尝试在 AI 总览中附上相关链接,但这些链接经常无法真正支撑 Gemini 给出的结论——无论这些结论本身是对是错。测试发现,在一些情况下,错误的 AI 总览后面紧跟着的链接却给出了正确信息;也有时候,总览内容准确,但引用的是含有错误信息的网页;还有一部分结果中,链接页面根本没有与总览相关的内容。

更值得注意的是,AI 总览与其引用来源之间的不一致现象在升级后更加突出:使用 Gemini 2 时,有 37% 的搜索存在这种不一致,而升级 Gemini 3 后,这一比例升至 56%。

研究人员还发现,AI 总览容易被外部内容“操控”。一位 BBC 记者在个人博客中刻意发布了错误信息,随后便发现Google在第二天的搜索总览中重复了这些不实内容。

在使用条款的细则中,几家主流科技公司事实上都承认了当前生成式 AI 对“真实性”的把握仍然不牢靠。微软在条款中把其 Copilot 工具界定为“仅供娱乐”,不适宜用于做出重要决策。Google则在 AI 总览界面明确提示用户要对回答进行再次核查,而 xAI 也公开承认,其模型存在产生“幻觉”的可能性。

责任编辑:站长云网