Google用旧新闻和大模型归纳出预报山洪的新方法

站长云网 2026-03-12 5iter.com 站长云网

山洪是全球最致命的气象灾害之一,每年造成超过5000人死亡,但由于来得快、范围小、持续时间短,长期以来一直难以被准确预测。 面对这一难题,Google给出的新答案,是“让AI去读新闻报道”。

传统气象监测积累了大量温度、降雨量、河流流量等数据,但对于突发性极强的山洪事件,人类并没有像其他气象要素那样完备、连续的观测记录。 这导致即便深度学习在天气预报领域越来越强大,也迟迟无法在山洪预测上发挥同等水平,因为缺乏足够的“真值”数据来训练模型。

为填补这一数据缺口,Google研究团队动用了其大语言模型 Gemini,从全球范围内筛选约500万篇新闻报道,自动识别并提取出约260万次不同的洪灾事件,再将这些文字报道转化为带有时间与地理标记的序列数据集“Groundsource”。 Google研究产品经理 Gila Loike 表示,这是公司首次使用大型语言模型来完成这类定量数据构建工作,相关研究成果和数据集已于周四早间公开发布。

在获得这一“现实世界基线”之后,研究人员基于长短期记忆(LSTM)神经网络训练了新的山洪预测模型,让其输入全球天气预报数据,输出特定区域发生山洪的概率。 目前,Google的山洪预测模型已在其 Flood Hub 平台上为150个国家的城市区域提供风险提示,并向全球多家应急管理机构开放数据。 南部非洲发展共同体(SADC)的一位应急响应官员 António José Beleza 在与Google合作试用中表示,该模型帮助他的团队能更快对洪灾作出响应。

不过,这套系统仍有明显局限。 一方面,它的空间分辨率相对较低,目前只能在约20平方公里的尺度上给出风险评估;另一方面,由于没有纳入本地雷达等实时降水监测数据,其精度尚不及美国国家气象局现有的洪水预警系统。

Google方面强调,这一项目的初衷之一,就是要在那些缺乏昂贵气象观测基础设施、又没有长期气象记录的发展中地区发挥作用。 通过聚合来自全球的数百万条新闻报道,Groundsource 数据集在一定程度上“重新平衡了地图”,使模型能够对原本数据稀缺的地区进行外推预测。 Google韧性团队项目经理 Juliet Rothenberg 称,这种做法让团队得以覆盖此前信息严重不足的区域。

Rothenberg 还表示,利用大语言模型把文字叙述转化为结构化定量数据的思路,并不局限于山洪。 未来类似技术有望被用来构建关于热浪、泥石流等同样短暂却极其重要的自然现象的数据集,为更多极端天气和地质灾害的预测提供基础。

在业内人士看来,Google这一尝试是通过创造性数据汇集来推动深度学习天气预报发展的重要一步。 Upstream Tech 公司 CEO Marshall Moutenot(该公司同样利用深度学习为水电企业等客户预测河流流量)指出,当前地球科学领域面临“数据稀缺”这一顽疾:一方面地球观测数据极其庞杂,另一方面真正能用来校准和验证模型的高质量“真值”却十分有限。 Moutenot 也是 dynamical.org 的联合创始人,该组织致力于为研究人员和初创企业整理可直接用于机器学习的天气数据集,他认为Google此次工作是通过“非常有创意的方法”来获取宝贵数据的典型案例。

责任编辑:站长云网