气象预测长期误差太难搞?ICML 2026 这项成果用“累积上下文”给出了最优解
2026/5/16 21:47:03 网站建设 项目流程
EMFormer团队 投稿
量子位 | 公众号 QbitAI

随着全球气候变化的复杂化,气象预测正成为机器学习领域最具挑战性的赛道之一。近日,国际机器学习顶会 ICML 2026 接收了论文《Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting》。

这项研究提出的高效多尺度 Transformer 架构(EMFormer),不仅在气象预测中实现了精度与效率的双重飞跃,更打破了领域壁垒,在图像分类、语义分割等视觉任务中展现出强大的泛化性能

本文将深入解析这一模型背后的三大创新支柱,看它如何精准捕捉跨尺度的时空特征,并有效破解长期预测中的误差累积难题

研究背景:气象预测的核心痛点的是什么?

气象预测,尤其是多步长长期预测,一直面临三大核心挑战:

气象预测,尤其是多步长长期预测,一直面临三大核心挑战:

  • 多尺度特征难以高效捕捉:大气系统中,从微小气流到全球环流,不同尺度的特征相互影响,传统模型难以在高效计算的前提下,全面提取多尺度信息;

  • 长期预测误差累积:随着预测时间延长,误差会不断累积,导致长期预测精度大幅下降,同时难以保证时间一致性;

  • 模型泛化能力不足:多数气象预测模型仅针对特定任务设计,难以迁移到其他领域(如视觉任务),通用性较差。

针对这些痛点,来自HKUST和Shanghai AI Lab的研究团队设计了EMFormer架构,通过三大核心创新,实现了气象预测与视觉任务的双向突破。


图中包含三个阶段的新型流程示意图:

  • 第一阶段: 在大气变量上预训练 EMFormer。该过程采用了一种“修剪-恢复”架构,具体包括一个修剪模块、一系列 EMFormer 块以及一个恢复模块;

  • 第二阶段: 累积上下文微调(Accumulative Context Finetuning);

  • 第三阶段: 预测阶段,涵盖气象预报与台风路径预测。

核心创新:EMFormer的三大关键设计

团队的核心思路是:以“高效多尺度特征提取”为核心,结合“累积上下文微调”和“自适应损失函数”,兼顾精度、效率与泛化能力。以下是三大创新点的详细解析:

创新点1:Multi-Convs Layer——高效多尺度特征提取的核心

传统多尺度模块需堆叠多个卷积分支,计算成本高且梯度更新效率低。团队设计的Multi-Convs Layer,通过融合三个不同尺度(1×1、3×3、5×5)的卷积核,在单次前向传播中完成多尺度特征提取,同时通过自定义CUDA核解耦反向传播,保证每个尺度的梯度独立更新。


如图3所示,Multi-Convs Layer(图3c)相比传统多尺度模块(图3a)和标准重参数化模块(图3b),在保证功能等价和梯度等价的前提下,将计算复杂度从O(Nₖₑᵣₙₑₗₛ-H₀-W₀-r²)降至O(H₀-W₀-rₘₐₓ²),训练时间减少25%以上。

理论证明(Theorem 2.1)表明,Multi-Convs Layer与传统多尺度模块在功能和梯度上完全等价,但计算效率提升显著,为后续特征学习奠定了高效基础。

创新点2:Accumulative Context Finetuning——缓解误差累积,提升时间一致性

为解决长期预测中的误差累积问题,团队提出累积上下文微调策略,通过缓存前序步骤的KV对,结合动态修剪机制,保留关键历史信息,同时避免内存溢出。


如图4所示,该策略通过三步实现KV缓存的动态更新与修剪:计算当前注意力得分、融合历史得分与当前得分、修剪冗余KV对,确保模型在长期预测中能够利用低误差历史状态,提升时间一致性。

消融实验表明,相比无微调、标准微调,累积上下文微调能显著提升长期预测精度,10天预测的ACC提升至0.5389(如表3所示)。

创新点3:自适应混合损失函数——平衡多变量与地理特征

气象数据存在两大特性:不同变量(如温度、气压)的时间变化率差异大,不同纬度的网格区域面积不同。团队设计了融合变量自适应损失与纬度自适应损失的混合损失函数,通过正弦加权机制,在训练过程中平滑切换损失重点。

损失函数公式如下:

其中,是纬度加权损失(考虑网格面积差异),是变量自适应损失(为不同变量分配动态权重),为可学习参数,实现训练过程中从“地理校正”到“变量优化”的平滑过渡。

理论证明(Theorem 2.2)表明,会从-π/2单调演化至π/2,确保损失重点的自适应切换,有效提升预测精度。

实验结果:多任务验证,性能全面超越基线

团队在气象预测、台风路径预测、图像分类、语义分割四大任务中对EMFormer进行了全面验证,所有实验均优于现有基线模型,充分证明了模型的有效性与泛化能力。

实验1:气象预测(ERA5数据集)


在1.4°ERA5数据集上,团队的模型(Ours(w/ finetuning))在6小时至10天的预测中,RMSE均为最低,ACC均为最高,全面超越Pangu-Weather、Graphcast、Oneforecast等基线模型(如表1所示)。


在0.25°ERA5数据集上,EMFormer同样表现优异,在多变量预测中RMSE显著低于基线模型(如图5所示)。

实验2:台风路径预测(2024年台风数据)


在极端天气预测场景中,团队选取2024年10个台风,对比9个基线模型(包括AIFS、ECMF、Pangu等),EMFormer取得了最低的平均路径误差(88.49km),远低于次优模型的119.17km(如表2所示),尤其在长期台风路径预测中优势显著。

实验3:视觉任务(ImageNet-1K+ADE20K)

为验证模型泛化能力,团队将EMFormer应用于图像分类(ImageNet-1K)和语义分割(ADE20K)任务,结果表明:

  • 图像分类

    在tiny、small、base三个参数尺度下,EMFormer的Top-1准确率均为最高(分别为83.2%、84.1%、84.4%),且参数和计算量低于同类模型(如表5所示);

  • 语义分割

    EMFormer-S和EMFormer-B在ADE20K上的mIoU分别达到46.7和49.6,仅需同类模型75%的参数和25%的计算量(如表6所示)。

核心贡献总结

本次中稿ICML 2026的工作,主要做出了以下三大贡献:

  1. 提出Multi-Convs Layer,在保证功能和梯度等价的前提下,实现高效多尺度特征提取,大幅降低计算成本;

  2. 设计累积上下文微调策略,有效缓解长期预测的误差累积,提升时间一致性,且可迁移至其他模型;

  3. 提出正弦加权混合损失函数,平衡多变量与地理特征的优化需求,同时实现EMFormer在气象与视觉任务中的高效泛化。

从气象预测到视觉任务,EMFormer的突破证明了多尺度Transformer架构在跨领域学习中的巨大潜力,也为后续多尺度特征学习与跨领域模型设计提供了新的思路。

作者团队:香港科技大学(HKUST) 郭嵩院士 (IEEE Fellow) + Shanghai AILab 白磊团队

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询