地理学第三定律视角下解决时间序列土壤有机碳制图小样本问题的新见解

本文最后更新于 2026年3月16日 中午

这篇论文尝试回答一个非常现实的问题:在历史样本稀缺的情况下,如何做出可靠的时间序列土壤有机碳密度(SOCD)制图?

一文速览

论文信息

原文标题:How to solve small sample size problems in time-series soil organic carbon mapping: New insights from the Third Law of Geography
期刊名称:Geoderma
期刊级别:JCR Q1;中科院 1 区
影响因子:6.6
原文链接https://www.sciencedirect.com/science/article/pii/S001670612500240X
文章DOIhttps://doi.org/10.1016/j.geoderma.2025.117402

核心结论

  • 基于地理相似性的样本扩展框架,可将样本规模提升至原来的约 3 倍。
  • 扩样后模型在保持统计特征一致性的同时,显著提高空间代表性并降低不确定性。
  • 1980s 时段中,S1(仅本地样本)到 S3(相似性扩样)性能提升明显:
    • R2:0.04 -> 0.64
    • RMSE:2.47 -> 1.36 kg C m \(^{-2}\)
  • S3-2010s 表现最佳(R2 = 0.82,RMSE = 1.24 kg C m \(^{-2}\))。
  • S4 多时段集成策略整体最稳健(R2 = 0.64,RMSE = 1.61 kg C m \(^{-2}\))。

研究为什么重要

土壤有机碳密度(SOCD)是衡量土壤碳储量和陆地生态系统碳循环的关键变量,也是气候变化研究和碳中和评估中的核心基础数据。

数字土壤制图(DSM)虽已成为区域尺度 SOCD 制图的重要范式,但现实中存在三个难题:

  1. 历史样本采集成本高,数量少且分布不均。
  2. 时间序列任务对样本规模和时空覆盖要求更高。
  3. 传统扩样方法(如 GAN、Bootstrap)容易脱离地学约束,增加不确定性。

本文的创新点在于:将地理学第三定律(地理环境越相似,地理特征越接近)系统引入小样本建模,强调地理可解释性的样本扩展,而非纯统计意义上的数据增广。

研究目标与技术路线

研究目标

验证地理相似性扩样是否能有效缓解时间序列 SOCD 制图中的小样本问题,并提升模型精度与稳定性。

研究区与总体思路

  • 研究区:广东省
  • 思路:在更大空间范围内,筛选与目标区域环境条件相似的样本,用于补充本地样本

方法设计

  1. 相似性度量构建 开发加权多变量相似性指数与相似性阈值指数(STI),用于量化环境相似程度,并确定最优阈值。

  2. 建模策略设计 构建 4 种建模策略(Strategy 1-4),覆盖:

  • 仅本地样本 vs 相似性扩充样本
  • 分时段建模 vs 多时段集成建模
  1. 算法与评估
  • 算法:随机森林(RF)
  • 指标:R2、RMSE、MAE
  • 辅助分析:不确定性评估与公开产品对比验证

结果解读

1. 扩样质量与数量平衡

相似性阈值驱动框架在扩充样本数量的同时,保持了与本地样本一致的统计特征(如均值、偏度),并显著增强空间代表性。

2. 模型精度显著提升

  • 1980s:S3 相比 S1 提升最大,说明在样本稀缺阶段,地理相似扩样价值最突出。
  • 2010s:S3 达到全时期最高精度(R2 = 0.82)。
  • 综合表现:S4 在不同时期的稳定性更好。

3. 时空格局与不确定性特征

  • SOCD 总体呈上升趋势。
  • 高值区向珠三角和北部扩展。
  • 不确定性热点集中于中北部复杂地形区和南部快速城市化区域。
  • 观测-预测关系显示:低值段拟合更稳,高值段不确定性更高。

4. 与公开产品对比

在 2010s 的对比中,S4 与公开 SOCD 产品(SoilGrids、Liu et al. 2022、HWSD)一致性最高,说明该框架具有较好的外部可比性。

主要图表

Fig. 1:样本空间分布与研究区位置

Fig. 2:地理学第三定律的定量实现框架

Fig. 3:整体研究流程

Fig. 4:不同阈值下 STI 变化趋势与最优阈值位置

Fig. 5:各策略、各时期观测值-预测值拟合效果

Fig. 6:不同时期 SOCD 空间预测结果

Fig. 7:不同策略下环境变量重要性(SCORPAN 因子)

Fig. 8:预测标准差空间分布(不确定性)

Fig. 9:与公开产品的空间对比

研究启发与局限

启发

  • 小样本 DSM 不一定只能硬上模型,也可以先做地理可解释的样本扩展。
  • 相似性阈值的设置本质上是在做样本质量-样本数量平衡。
  • 该思路可迁移到其他数据稀缺区域的时间序列土壤属性制图。

局限

  1. 1 km 分辨率下可能存在伪相似匹配。
  2. 尚未充分考虑环境变量的尺度效应与土壤形成时间滞后。
  3. 相似性度量暂未显式纳入空间邻近约束。
  4. 未来可引入过程相似性与空间约束联合优化。

数据与代码可用性

相关数据可向论文作者申请获取。

参考文献

Wang J, Zhang Z, Wang Y, et al. How to solve small sample size problems in time-series soil organic carbon mapping: New insights from the Third Law of Geography[J]. Geoderma, 2025, 460: 117402. https://doi.org/10.1016/j.geoderma.2025.117402


地理学第三定律视角下解决时间序列土壤有机碳制图小样本问题的新见解
https://bintodo.top/links/how-to-solve-small-sample-size-problems-soil-organic-carbon-mapping.html
作者
bin
发布于
2026年3月16日
许可协议