当前位置:
X-MOL 学术
›
Agric. For. Meteorol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
A multimodal machine learning fused global 0.1° daily evapotranspiration dataset from 1950-2022
Agricultural and Forest Meteorology ( IF 5.6 ) Pub Date : 2025-05-31 , DOI: 10.1016/j.agrformet.2025.110645
Qingchen Xu, Lu Li, Zhongwang Wei, Xingjie Lu, Nan Wei, Xuhui Lee, Yongjiu Dai
Agricultural and Forest Meteorology ( IF 5.6 ) Pub Date : 2025-05-31 , DOI: 10.1016/j.agrformet.2025.110645
Qingchen Xu, Lu Li, Zhongwang Wei, Xingjie Lu, Nan Wei, Xuhui Lee, Yongjiu Dai
Evapotranspiration (ET) is the second largest hydrological flux over the land surface and connects water, energy, and carbon cycles. However, large uncertainties exist among current ET products due to their coarse spatial resolutions, short temporal coverages, and reliance on assumptions. This study introduces a multimodal machine learning framework to generate a high-resolution (0.1°, daily), long-term (1950–2022) global ET dataset by fusing 13 state-of-the-art ET products encompassing remote sensing, machine learning, land surface models, and reanalysis data relying on extensive flux tower observations (462 sites). The framework reconstructs the individual ET products to consistent spatiotemporal resolutions and time ranges using Light Gradient Boosting Machine (LightGBM) models, and the Automated Machine Learning (AutoML) technique was used to fuse ET using 13 reconstructed ET products, ERA5-land atmospheric forcings and ancillary data as predictors. In-situ observations are utilized for model training and validation. Results demonstrate significant improvements over existing datasets, with our product achieving the highest accuracy (KGE = 0.857, RMSE = 0.726 mm/day) against in situ measurements across ecosystems and regions. The fused ET dataset realistically captures spatiotemporal variability and corrects the systematic underestimation bias prevalent in other datasets, particularly in wet regions. This novel high spatial-temporal ET dataset enables more robust assessments for water, energy, and carbon cycle applications on regional hydrology and ecology. The introduced data integration methodology also provides a valuable framework for fusing multiple geoscience datasets with disparate properties.
中文翻译:
1950-2022 年全球 0.1° 日蒸散量多模态机器学习融合数据集
蒸散 (ET) 是陆地表面的第二大水文通量,连接了水、能源和碳循环。然而,由于空间分辨率粗糙、时间覆盖范围短和对假设的依赖,当前的 ET 产品存在很大的不确定性。本研究引入了一个多模态机器学习框架,通过融合 13 种最先进的 ET 产品来生成高分辨率(0.1°,每天)、长期(1950-2022)全球 ET 数据集,这些产品包括遥感、机器学习、地表模型和再分析数据,依赖于广泛的磁通塔观测(462 个站点)。该框架使用光梯度提升机 (LightGBM) 模型将单个 ET 产物重建为一致的时空分辨率和时间范围,并使用自动化机器学习 (AutoML) 技术使用 13 个重建的 ET 产品、ERA5 陆地大气强迫和辅助数据作为预测因子来融合 ET。原位观测用于模型训练和验证。结果表明,与现有数据集相比,我们的产品取得了显着的改进,与跨生态系统和地区的原位测量相比,我们的产品实现了最高的精度(KGE = 0.857,RMSE = 0.726 毫米/天)。融合 ET 数据集真实地捕捉了时空变化,并纠正了其他数据集中普遍存在的系统性低估偏差,尤其是在潮湿地区。这个新颖的高时空 ET 数据集能够对区域水文学和生态学中的水、能源和碳循环应用进行更稳健的评估。引入的数据集成方法还为融合具有不同属性的多个地球科学数据集提供了一个有价值的框架。
更新日期:2025-06-01
中文翻译:

1950-2022 年全球 0.1° 日蒸散量多模态机器学习融合数据集
蒸散 (ET) 是陆地表面的第二大水文通量,连接了水、能源和碳循环。然而,由于空间分辨率粗糙、时间覆盖范围短和对假设的依赖,当前的 ET 产品存在很大的不确定性。本研究引入了一个多模态机器学习框架,通过融合 13 种最先进的 ET 产品来生成高分辨率(0.1°,每天)、长期(1950-2022)全球 ET 数据集,这些产品包括遥感、机器学习、地表模型和再分析数据,依赖于广泛的磁通塔观测(462 个站点)。该框架使用光梯度提升机 (LightGBM) 模型将单个 ET 产物重建为一致的时空分辨率和时间范围,并使用自动化机器学习 (AutoML) 技术使用 13 个重建的 ET 产品、ERA5 陆地大气强迫和辅助数据作为预测因子来融合 ET。原位观测用于模型训练和验证。结果表明,与现有数据集相比,我们的产品取得了显着的改进,与跨生态系统和地区的原位测量相比,我们的产品实现了最高的精度(KGE = 0.857,RMSE = 0.726 毫米/天)。融合 ET 数据集真实地捕捉了时空变化,并纠正了其他数据集中普遍存在的系统性低估偏差,尤其是在潮湿地区。这个新颖的高时空 ET 数据集能够对区域水文学和生态学中的水、能源和碳循环应用进行更稳健的评估。引入的数据集成方法还为融合具有不同属性的多个地球科学数据集提供了一个有价值的框架。