OpenLandMap-soildb:基于时空机器学习与统一整合的历史土壤样本和观测数据的2000–2022+年30米空间分辨率全球土壤信息数据库
本文最后更新于 2026年4月8日 上午
论文信息速览
- 文章标题:OpenLandMap-soildb: global soil information at 30 m spatial resolution for 2000-2022+ based on spatiotemporal Machine Learning and harmonized legacy soil samples and observations
- 期刊名称:Earth System Science Data
- 期刊级别:JCR Q1;中科院 1 区
- 影响因子:11.6
- 原文链接:https://essd.copernicus.org/articles/18/989/2026/essd-18-989-2026.html
- DOI:10.5194/essd-18-989-2026
这篇文章解决了什么问题
土壤是粮食生产、水过滤、生态系统服务和气候缓解的基础,但现有全球土壤图在两个维度上都偏“慢”:
- 空间分辨率往往不够高,难支撑地块尺度分析;
- 时间维度更新不足,难跟上 10-30 m 全球遥感产品的节奏。
同时,全球 SOC(土壤有机碳)总量和变化估计在关键区域仍不稳定,尤其是高纬冻土、热带泥炭地、半干旱区。论文的核心意义在于:把全球土壤信息拉到 30 m、并且做成可跟踪时间变化的动态产品,为退化监测、碳核算和修复评估提供更可用的基础图层。
不是“再做一版全球土壤图”,而是把全球土壤制图推进到与现代遥感产品同尺度、同时序。
研究做法
1) 研究目标
作者围绕四个问题展开:
- Landsat 30 m 数据是否显著提升预测精度,关键指数是什么?
- 全球模型在空间外推位置上的误差水平如何?
- SOC 变化受哪些驱动因子主导?
- 全球 SOC 热点分布在哪里?
2) 建模框架
- 框架:EO-SoilMapper
- 核心算法:Quantile Regression Random Forest(QRF)
- 建模思路:3D+T(空间 + 深度 + 时间)
- 输出形式:均值 + 68% 预测区间(下限/上限)
目标变量包括:SOC 含量、SOC 密度、土壤 pH(H2O)、黏粉砂组分、容重、USDA 亚群土壤类型。
3) 数据与协变量
- 土壤样本来源:多源历史土壤项目,统一标准化与谐调处理。
- 样本规模:
- SOC 密度:216000
- SOC 含量:408000
- pH(H2O):272000
- 黏粉砂含量:363000
- 烘干容重:134000
- 质量控制:对实验方法差异进行系统校正(如 SOC 实验法统一转换),并插入伪观测(裸岩、流沙、永久冰雪)来约束特征边界。
- 协变量体系:Landsat 时序、地形多尺度参数、CHELSA 气候、MODIS 等,候选变量共 363 层。
4) 验证策略
论文同时报告三类验证结果:
- 分层测试集
- 空间分块交叉验证
- 留一年(LOYO)时间交叉验证
并评估不确定性覆盖表现(PICP/QCP)。
主要结果
1) 产品层面
研究构建了覆盖 2000-2022+ 的 30 m 全球动态土壤产品。SOC 和土壤 pH 以 5 年间隔制图;质地组分、容重和土壤类型主要针对近年制图。
2) 精度表现
- SOC 密度:RMSE 17.7 kg m−3(log 0.486),CCC 0.88
- SOC 含量:RMSE 51.3 g kg−1(log 0.574),CCC 0.87
- 容重:RMSE 0.15 t m−3,CCC 0.92
- pH:RMSE 0.51,CCC 0.91
- 黏粒:RMSE 8.4%,CCC 0.87
- 粉粒:RMSE 9.9%,CCC 0.87
- 砂粒:RMSE 12.6%,CCC 0.84
不同深度(0-30、30-60、60-100 cm)间精度变化总体有限,SOC 在表层略优。空间和时间交叉验证结果比分层测试更保守,提示常规测试可能偏乐观。
3) 驱动因素与变化
- SOC 密度关键协变量:土层深度、Landsat-GPP、NDVI、CHELSA 生物气候指标。
- 土壤 pH 关键因子:干旱指数、降水、盐渍化等级。
- 土地覆被转换中,树木覆盖转为耕地/草地等类型与 SOC 下降显著相关。
4) 全球碳库估计
- 2020-2022+ 时段,0-30 cm 全球 SOC 约 461 Pg。
- 与早期相比,2000-2022+ 期间全球表土至少损失 11 Pg SOC。
主要图表
图1:EO-SoilMapper 总体处理流程
展示了循环模块化流程(标准化样本、协变量层、计算引擎、前后端基础设施等关键步骤)。

图2:导入土壤实验室数据集比较
展示 SOC 含量与 SOC 密度关系、SOC-深度关系、转移函数及 SOC
与容重的双峰分布。 
图3:全球谐调后的 SOC 和土壤 pH 密度图
显示 SOC 与容重双峰分布、不同土壤类型分离效果,以及 SOC 时间趋势。

图4:土壤属性数据集分割方案
说明校准、训练和分层测试集划分(1:8:1)及验证流程。 
图5:时空预测块方案
演示从四个时空点生成预测,并汇总得到均值与预测区间。 
图6:训练点密度
- SOC 和/或 pH 样本分布;(b) 含土壤分类信息图层;(c)
主要数据集时间覆盖。

图7:SOC 密度、SOC 含量和 pH 精度图
展示分层测试、空间交叉验证、时间交叉验证三类精度对比。 
图8:沙粒、粉粒、黏粒精度图
按相同三类验证方式组织,便于横向比较。 
图9:30 m 预测 SOC 与土壤 pH
给出示例区域放大图与对应卫星影像,并展示 68% 概率预测区间。 
数据与代码可用性
- 结果数据:10.5281/zenodo.15470431、world.soils.app
- 训练数据:10.5281/zenodo.4748499
- 代码(MIT 许可):10.5281/zenodo.15608971
受 Zenodo 存储限制,Zenodo 提供的是分桶与分辨率压缩版本(文中说明包含关键时期 120 m 不确定性产品);完整 30 m 全球镶嵌可通过 Google Earth Engine 资产访问。
文章引用信息
Hengl, T., Consoli, D., Tian, X., Nauman, T. W., Nussbaum, M., Isik, M. S., Parente, L., Ho, Y.-F., Simoes, R., Gupta, S., Samuel-Rosa, A., Zborowski Horst, T., Safanelli, J. L., & Harris, N. (2026). OpenLandMap-soildb: global soil information at 30 m spatial resolution for 2000-2022+ based on spatiotemporal Machine Learning and harmonized legacy soil samples and observations. Earth System Science Data, 18(2), 989-1036. https://doi.org/10.5194/essd-18-989-2026
小结
这项工作的价值不只在于“分辨率更高”,更在于它把时间维度和不确定性表达一起带进了全球土壤产品体系:
- 能看见细节,不代表就该直接拿像元值做硬阈值决策;
- 预测区间应该和均值一起使用,避免“只看一张均值图”;
- 长期监测网络(永久样点)仍是降低不确定性的基础设施。