Google AI 搜索每天或生成数千万条错误答案

站长云网 2026-04-08 5iter.com 站长云网

有测试显示，Google在搜索结果中默认展示的 AI 总览内容虽然大部分时间是准确的，但在当前超大规模的搜索量之下，哪怕只有一小部分出错，也意味着用户每天会看到数以千万计的错误答案。

《纽约时报》援引 AI 初创公司 Oumi 的评估称，大约每 10 条Google AI 总览中就有 1 条包含虚假信息。按Google每年处理约 5 万亿次搜索来推算，用户每小时可能会接触到超过 5700 万条不准确的回答，换算下来几乎是“每分钟近百万条”。

Oumi 应《纽约时报》要求，使用广泛采用的生成式 AI 测试基准 SimpleQA，对Google搜索中的 Gemini 准确率做了量化评估。在 4326 条搜索样本中，去年 10 月 Gemini 2 提供准确 AI 总览的比例约为 85%，到了今年 2 月升级到 Gemini 3 后，这一比例提升到 91%。

不过，Oumi 之所以能在大样本规模下进行评估，本身也依赖其他 AI 工具，这可能会引入新的误差。与此同时，Google在现实使用中有时会对同一搜索请求给出不同的 AI 总览内容，即便两次搜索之间仅间隔数秒，这也加大了评估难度。

Google方面则认为 Oumi 的测试方法“有缺陷”，并不符合真实世界的搜索行为。按照Google内部测试数据，在脱离搜索、单独运行的情况下，Gemini 3 的“幻觉率”（生成错误内容的比例）约为 28%。

报道指出，信息来源也是一大难题。Google会尝试在 AI 总览中附上相关链接，但这些链接经常无法真正支撑 Gemini 给出的结论——无论这些结论本身是对是错。测试发现，在一些情况下，错误的 AI 总览后面紧跟着的链接却给出了正确信息；也有时候，总览内容准确，但引用的是含有错误信息的网页；还有一部分结果中，链接页面根本没有与总览相关的内容。

更值得注意的是，AI 总览与其引用来源之间的不一致现象在升级后更加突出：使用 Gemini 2 时，有 37% 的搜索存在这种不一致，而升级 Gemini 3 后，这一比例升至 56%。

研究人员还发现，AI 总览容易被外部内容“操控”。一位 BBC 记者在个人博客中刻意发布了错误信息，随后便发现Google在第二天的搜索总览中重复了这些不实内容。

在使用条款的细则中，几家主流科技公司事实上都承认了当前生成式 AI 对“真实性”的把握仍然不牢靠。微软在条款中把其 Copilot 工具界定为“仅供娱乐”，不适宜用于做出重要决策。Google则在 AI 总览界面明确提示用户要对回答进行再次核查，而 xAI 也公开承认，其模型存在产生“幻觉”的可能性。

责任编辑：站长云网

上篇：Google力推在Gmail中使用Gemini 强调不会用用户邮件训练AI

下篇：超微电脑就联合创始人被起诉事件启动独立调查

顶一下[0]

踩一下[0]