选择合适样本而非更多样本:一种用于局部土壤光谱建模的新型光谱—环境相似性策略
本文最后更新于 2026年2月14日 晚上
引言:样本选择——土壤光谱建模的关键挑战
在土壤有机碳(SOC)监测中,可见光—近红外(Vis-NIR)光谱技术因其高效、低成本的优势已得到广泛应用。然而,在小尺度区域建模时,常面临样本量有限、环境高度异质性以及高维数据易过拟合等挑战。尽管全球土壤光谱库(SSLs)提供了海量参考,但现有策略大多仅依赖”光谱相似性”筛选样本,导致”谱同质异”(光谱特征相似但环境背景迥异)现象频发,严重限制了模型在局部环境下的迁移精度与泛化能力。
今天,我将为大家解读一篇发表在《Geoderma》上的重要研究——《Selecting the right samples rather than more samples: A new spectral-environmental similarity strategy for local soil spectral modeling》。这项研究基于地理学第三定律,创新构建了”光谱+环境”协同相似性框架,为从全球土壤光谱库中选择可迁移样本提供了一种鲁棒、适应性和高效的方法。
研究概述
文章基本信息
原文标题:Selecting the right samples rather than
more samples: A new spectral-environmental similarity strategy for local
soil spectral modeling
期刊名称:Geoderma
期刊级别:JCR分区 Q1;中科院分区 1区
影响因子:6.6
原文链接:https://www.sciencedirect.com/science/article/pii/S0016706126000388
文章DOI:https://doi.org/10.1016/j.geoderma.2026.117710
核心观点
这项研究基于地理学第三定律框架,构建了一种融合光谱相似性与环境相似性的协同样本迁移策略,旨在从全球土壤光谱库中系统筛选与目标区域最具可比性的样本,从而增强局部SOC建模的性能与鲁棒性:
- 提出了”光谱—环境”协同相似性框架,实现光谱响应和环境背景的双重一致性
- 与基准全球迁移模型相比,预测能力(以R²表征)的最大增幅达18%
- 即使将全球样本数量从20,961大幅削减至约200个,所提出的策略仍优于局部建模和常规全球建模方法
- 在环境相对稳定的区域,提高环境相似性的权重可获得最佳模型;而在高度异质的区域,光谱相似性则发挥更为主导的作用
研究背景:为什么关注样本选择策略?
土壤有机碳监测的重要性
土壤有机碳(SOC)是衡量农业健康与碳中和目标的关键指标。准确监测SOC含量对于:
- 评估土壤质量和肥力
- 制定精准农业管理策略
- 量化生态系统碳汇潜力
- 应对气候变化具有重要意义
光谱建模的挑战
尽管Vis-NIR光谱技术在SOC监测中具有显著优势,但在小尺度区域建模时仍面临以下挑战:
- 样本量有限:局部区域的样本数量往往不足以构建稳健的预测模型
- 环境异质性高:不同区域的土壤类型、气候条件、地形地貌等环境因素差异显著
- 数据过拟合风险:高维光谱数据在小样本情况下容易出现过拟合现象
- 模型迁移性差:基于全球库构建的模型在局部区域的预测精度往往不理想
现有方法的局限性
现有从全球土壤光谱库中选择样本的策略大多仅依赖”光谱相似性”,存在以下局限性:
- 忽略了环境背景的差异,导致”谱同质异”现象
- 过度强调样本数量,忽视了样本的代表性和相似性
- 缺乏对不同区域特征的适应性,难以针对具体区域优化模型性能
研究目标与方法
研究目标
本研究旨在解决小尺度区域土壤有机碳(SOC)光谱建模中存在的样本稀缺与环境高度异质性问题,提出并验证”选对样本比增加样本更重要”的假设。具体包括:
- 量化局部样本与全球土壤光谱库在光谱特征和SOC性质的差异,为迁移建模提供基础认知
- 构建基于光谱与环境协同的相似性框架,利用地理第三定律筛选与目标区域最匹配的样本子集
- 系统评估不同样本迁移策略(仅光谱相似、仅环境相似及光谱—环境联合相似)对SOC预测精度和模型稳定性的影响
- 探索不同区域中光谱与环境权重的最优配置,验证在显著减少样本数量的前提下提升局部SOC建模性能的可行性
研究方法
1. 多源数据整合与代表性区域
- 数据整合:整合了两个公开的全球土壤光谱库(OSSL和LUCAS),构建了一个包含20961条表层土壤样本及其可见光—近红外光谱、地理坐标和SOC含量的基础数据库
- 目标区域选择:选取了五个具有代表性的小样本区域作为模型应用和验证的目标区:
- 欧洲样本相对密集的爱尔兰(A区)、荷兰(B区)、斯洛文尼亚(C区)
- 北美样本稀疏且环境异质性高的蒙大拿州(D区)
- 完全独立于全球库、位于中国新疆的野外采样区(E区)
- 环境协变量:选取了土壤理化性质、地形、气候和人类活动等五类共10个环境协变量,用于后续的环境相似性分析
2. 光谱—环境协同相似性框架
- 光谱相似性:采用余弦距离来度量光谱曲线形状的相似性。通过对光谱数据进行统一重采样和去噪后,为目标区域的每个样本在全球库中计算光谱相似性,并利用拐点算法动态确定每个样本所需的最优相似样本数量
- 环境相似性:基于地理学第三定律,构建了一个分层加权的环境相似性指数。它将连续型变量(如海拔)和分类型变量(如土地覆盖类型)的相似性进行统一计算
- 联合相似性:将光谱相似性和环境相似性通过加权求和的方式结合起来,形成一个最终的协同相似性指数。通过引入一个可调节的权重参数w,该框架可以灵活地控制光谱信息与环境信息在样本筛选过程中的相对重要性
3. 迁移建模策略
设计五种策略对比样本选择效果,所有策略统一采用随机森林(RF)模型进行SOC预测,固定参数保证差异仅来自样本选择:
- Local:仅用本地样本建模
- Global:直接使用全部全球库样本
- Spectral:基于光谱相似样本建模
- Environmental:基于环境相似样本建模
- Spectral-Environmental:基于光谱与环境联合相似样本建模
4. 模型评估
使用四个指标评估预测精度:
- 决定系数(R²)
- 一致性相关系数(LCCC)
- 均方根误差(RMSE)
- 相对分析误差(RPIQ)
研究结果:光谱—环境协同策略的优势
1. 探索性数据分析
- SOC分布:全球土壤光谱库(SSL)中的SOC呈现高度右偏分布(偏度SKEW=3.34),平均值为54.34 g kg⁻¹,变异系数(CV)为1.85,表明样本异质性强,受极值影响大。相比之下,区域A-C和E的SOC分布更集中,CV值均低于1,数据结构相对稳定
- 光谱响应:五个局部区域的反射率曲线均显著高于全球样本。全球样本中,SOC与整个光谱负相关,在550-1350 nm和1900-2200 nm范围内相关系数多低于-0.4,这些波段为SOC关键响应区
2. 样本选择过程
通过光谱—环境协同相似性框架,从SSL中为每个目标区域筛选出11组相似样本子集,用于性能比较和策略评估:
- 区域A、B和C:相似样本主要集中在欧洲,形成明显的空间聚类
- 区域D:相似样本在北美部分聚类,分布广泛且分散
- 区域E:相似样本在北美和欧洲聚类,同时覆盖非洲、南亚和南美广阔区域
3. SOC建模性能和权重适应性
- 局部建模基准:区域间SOC预测准确性差异大。区域A和D性能较高,R²分别为0.65和0.68,表明局部样本足以捕捉SOC光谱响应。区域B、C和E性能较差,R²仅为0.16、0.36和0.49,预测能力有限
- 环境特征差异:五个区域的环境协变量变异性不同。区域A和E变异小,背景相对稳定;区域D变异最大,环境异质性极高
- 迁移策略比较:协同策略显著优于单一来源方法。区域A在协同权重w=0.1时R²最高(0.78),超过局部建模(0.65)和光谱单一迁移(0.71)。区域C在w=0.7时R²峰值为0.69,大幅高于局部建模(0.36)
- 权重适应性:除区域D外,每个区域的最优性能均在非极端权重(w≠0或1)下实现,确认协同策略的优势。最佳权重分别为A(0.1)、B(0.1)、C(0.7)和E(0.9)
4. 重要波段特征变化分析
与Local和Global策略相比,Spec-Envi方法引入更明显的调整:
- 大多数区域的可见光区(450-750 nm)重要性增加,而NIR区部分(900-1200 nm)下降
- SWIR吸收特征(1900-2200 nm)稳定性增强
- 不同区域的光谱重要性模式存在差异,反映了矿物组成、土壤颜色属性和有机质化学性质的空间变异
主要图表解析
Fig. 1: 全球土壤光谱库样本分布与五个小样本研究区域
该图展示了全球土壤光谱库样本的空间分布以及五个小样本研究区域的位置,为理解研究区域的地理背景提供了直观参考。

Fig. 2: 光谱—环境协同相似性量化框架的构建过程
该图详细展示了光谱—环境协同相似性框架的构建流程,包括光谱相似性计算、环境相似性计算以及联合相似性的加权融合过程,直观呈现了该框架的核心工作原理。

Fig. 3: 整个研究的流程图
该图概述了整个研究的工作流程,从数据收集与预处理、相似性框架构建、样本选择到模型评估的完整过程,为读者理解研究的整体设计提供了清晰的脉络。

Fig. 4: 全球有机碳分布与五个区域的有机碳分布
该图展示了全球土壤光谱库中SOC的分布特征以及五个研究区域的SOC分布情况,通过统计指标(如均值、标准差、变异系数、偏度等)量化了不同区域SOC的分布差异。

Fig. 5: 全球数据集和五个区域的平均光谱曲线
该图展示了全球数据集和五个研究区域的平均光谱曲线、光谱与SOC的相关曲线,揭示了不同区域光谱响应特征的差异,为理解光谱相似性的重要性提供了依据。

Fig. 6: 不同权重下五个小样本区域选择的相似样本分布图
该图展示了在不同权重配置下,从全球土壤光谱库中为五个研究区域选择的相似样本的空间分布,突显了区域特征对样本迁移机制的调节作用。

Fig. 7: 区域A-E的局部SOC建模结果散点图
该图展示了五个研究区域的局部SOC建模结果,通过观测值与预测值的散点图直观评估了模型的预测性能,为后续的迁移策略比较提供了基准。

Fig. 8: 五个区域的十个环境协变量箱线图
该图展示了五个研究区域在十个环境协变量上的分布情况,量化了不同区域环境特征的变异性,为理解环境相似性的重要性提供了依据。

Fig. 9: 不同协同权重下的模型R²变化与选择样本数量
该图展示了在不同协同权重配置下,局部建模、全球样本迁移建模和基于相似性的样本迁移建模的性能变化,以及选择样本数量的变化趋势,直观呈现了协同策略的优势和样本量的阈值效应。

Fig. 10: Global、Local和Spec-Envi最优协同策略中五个区域的重要性分析
该图展示了在Global、Local和Spec-Envi最优协同策略下,五个研究区域的光谱波段重要性分布,揭示了协同策略对关键光谱波段分布结构的优化作用。

研究意义与启示
科学意义
- 理论创新:基于地理学第三定律,构建了”光谱+环境”协同相似性框架,超越了传统对样本量的强调,提供了对SOC建模中迁移性的更细致理解
- 方法突破:提出了一种从全球土壤光谱库中选择可迁移样本的新方法,实现了光谱响应和环境背景的双重一致性
- 机制揭示:揭示了迁移样本量与模型性能的非线性关系,强调样本相似性和代表性比单纯数量更关键
- 技术优化:优化了关键光谱波段的分布结构,增强了可见光区对SOC的响应特征,提高了建模效率
实践启示
- 样本选择策略:在从全球土壤光谱库中选择样本时,应同时考虑光谱相似性和环境相似性,而不仅仅依赖单一维度的相似性
- 权重优化:针对不同区域的特征,应调整光谱相似性和环境相似性的权重。在环境相对稳定的区域,提高环境相似性的权重;在高度异质的区域,增加光谱相似性的权重
- 样本量控制:并非样本越多模型越好,过度纳入异质样本可能导致负迁移。应根据区域特征和模型性能动态调整样本数量
- 应用推广:该框架可广泛应用于其他土壤属性的光谱建模,为精准农业管理及生态碳汇评估提供技术支持
数据与代码可用性
相关数据可向作者申请获取。
结论与展望
这项研究为我们理解土壤光谱建模中的样本选择策略提供了重要的科学依据。研究结果表明,所提出的光谱—环境协同样本迁移建模方法不仅打破了”样本越多模型越好”的传统认知,也为全球土壤光谱库在区域SOC建模中的高效利用提供了一条新的技术路径及理论支撑。
未来的研究方向包括:
- 拓展该框架在其他土壤属性(如土壤质地、养分含量等)光谱建模中的应用
- 进一步优化相似性度量方法,提高样本选择的准确性和效率
- 探索机器学习算法在样本选择和权重优化中的应用
- 开展长期野外验证,评估该框架在不同时间尺度上的稳定性
文章引用: Li L, Zhang Z, Sun M, et al. Selecting the right samples rather than more samples: A new spectral-environmental similarity strategy for local soil spectral modeling[J]. Geoderma, 2026, 467: 117710. https://doi.org/10.1016/j.geoderma.2026.117710