OpenLandMap-soildb:基于时空机器学习与统一整合的历史土壤样本和观测数据的2000–2022+年30米空间分辨率全球土壤信息数据库

本文最后更新于 2026年4月8日 上午

论文信息速览

这篇文章解决了什么问题

土壤是粮食生产、水过滤、生态系统服务和气候缓解的基础,但现有全球土壤图在两个维度上都偏“慢”:

  • 空间分辨率往往不够高,难支撑地块尺度分析;
  • 时间维度更新不足,难跟上 10-30 m 全球遥感产品的节奏。

同时,全球 SOC(土壤有机碳)总量和变化估计在关键区域仍不稳定,尤其是高纬冻土、热带泥炭地、半干旱区。论文的核心意义在于:把全球土壤信息拉到 30 m、并且做成可跟踪时间变化的动态产品,为退化监测、碳核算和修复评估提供更可用的基础图层。

不是“再做一版全球土壤图”,而是把全球土壤制图推进到与现代遥感产品同尺度、同时序。

研究做法

1) 研究目标

作者围绕四个问题展开:

  1. Landsat 30 m 数据是否显著提升预测精度,关键指数是什么?
  2. 全球模型在空间外推位置上的误差水平如何?
  3. SOC 变化受哪些驱动因子主导?
  4. 全球 SOC 热点分布在哪里?

2) 建模框架

  • 框架:EO-SoilMapper
  • 核心算法:Quantile Regression Random Forest(QRF)
  • 建模思路:3D+T(空间 + 深度 + 时间)
  • 输出形式:均值 + 68% 预测区间(下限/上限)

目标变量包括:SOC 含量、SOC 密度、土壤 pH(H2O)、黏粉砂组分、容重、USDA 亚群土壤类型。

3) 数据与协变量

  • 土壤样本来源:多源历史土壤项目,统一标准化与谐调处理。
  • 样本规模:
    • SOC 密度:216000
    • SOC 含量:408000
    • pH(H2O):272000
    • 黏粉砂含量:363000
    • 烘干容重:134000
  • 质量控制:对实验方法差异进行系统校正(如 SOC 实验法统一转换),并插入伪观测(裸岩、流沙、永久冰雪)来约束特征边界。
  • 协变量体系:Landsat 时序、地形多尺度参数、CHELSA 气候、MODIS 等,候选变量共 363 层。

4) 验证策略

论文同时报告三类验证结果:

  1. 分层测试集
  2. 空间分块交叉验证
  3. 留一年(LOYO)时间交叉验证

并评估不确定性覆盖表现(PICP/QCP)。

主要结果

1) 产品层面

研究构建了覆盖 2000-2022+ 的 30 m 全球动态土壤产品。SOC 和土壤 pH 以 5 年间隔制图;质地组分、容重和土壤类型主要针对近年制图。

2) 精度表现

  • SOC 密度:RMSE 17.7 kg m−3(log 0.486),CCC 0.88
  • SOC 含量:RMSE 51.3 g kg−1(log 0.574),CCC 0.87
  • 容重:RMSE 0.15 t m−3,CCC 0.92
  • pH:RMSE 0.51,CCC 0.91
  • 黏粒:RMSE 8.4%,CCC 0.87
  • 粉粒:RMSE 9.9%,CCC 0.87
  • 砂粒:RMSE 12.6%,CCC 0.84

不同深度(0-30、30-60、60-100 cm)间精度变化总体有限,SOC 在表层略优。空间和时间交叉验证结果比分层测试更保守,提示常规测试可能偏乐观。

3) 驱动因素与变化

  • SOC 密度关键协变量:土层深度、Landsat-GPP、NDVI、CHELSA 生物气候指标。
  • 土壤 pH 关键因子:干旱指数、降水、盐渍化等级。
  • 土地覆被转换中,树木覆盖转为耕地/草地等类型与 SOC 下降显著相关。

4) 全球碳库估计

  • 2020-2022+ 时段,0-30 cm 全球 SOC 约 461 Pg。
  • 与早期相比,2000-2022+ 期间全球表土至少损失 11 Pg SOC。

主要图表

图1:EO-SoilMapper 总体处理流程

展示了循环模块化流程(标准化样本、协变量层、计算引擎、前后端基础设施等关键步骤)。

图2:导入土壤实验室数据集比较

展示 SOC 含量与 SOC 密度关系、SOC-深度关系、转移函数及 SOC 与容重的双峰分布。

图3:全球谐调后的 SOC 和土壤 pH 密度图

显示 SOC 与容重双峰分布、不同土壤类型分离效果,以及 SOC 时间趋势。

图4:土壤属性数据集分割方案

说明校准、训练和分层测试集划分(1:8:1)及验证流程。

图5:时空预测块方案

演示从四个时空点生成预测,并汇总得到均值与预测区间。

图6:训练点密度

  1. SOC 和/或 pH 样本分布;(b) 含土壤分类信息图层;(c) 主要数据集时间覆盖。

图7:SOC 密度、SOC 含量和 pH 精度图

展示分层测试、空间交叉验证、时间交叉验证三类精度对比。

图8:沙粒、粉粒、黏粒精度图

按相同三类验证方式组织,便于横向比较。

图9:30 m 预测 SOC 与土壤 pH

给出示例区域放大图与对应卫星影像,并展示 68% 概率预测区间。

数据与代码可用性

受 Zenodo 存储限制,Zenodo 提供的是分桶与分辨率压缩版本(文中说明包含关键时期 120 m 不确定性产品);完整 30 m 全球镶嵌可通过 Google Earth Engine 资产访问。

文章引用信息

Hengl, T., Consoli, D., Tian, X., Nauman, T. W., Nussbaum, M., Isik, M. S., Parente, L., Ho, Y.-F., Simoes, R., Gupta, S., Samuel-Rosa, A., Zborowski Horst, T., Safanelli, J. L., & Harris, N. (2026). OpenLandMap-soildb: global soil information at 30 m spatial resolution for 2000-2022+ based on spatiotemporal Machine Learning and harmonized legacy soil samples and observations. Earth System Science Data, 18(2), 989-1036. https://doi.org/10.5194/essd-18-989-2026

小结

这项工作的价值不只在于“分辨率更高”,更在于它把时间维度和不确定性表达一起带进了全球土壤产品体系:

  • 能看见细节,不代表就该直接拿像元值做硬阈值决策;
  • 预测区间应该和均值一起使用,避免“只看一张均值图”;
  • 长期监测网络(永久样点)仍是降低不确定性的基础设施。

OpenLandMap-soildb:基于时空机器学习与统一整合的历史土壤样本和观测数据的2000–2022+年30米空间分辨率全球土壤信息数据库
https://bintodo.top/links/OpenLandMap-soildb.html
作者
bin
发布于
2026年4月7日
许可协议