  土壤学报  2020, Vol. 57 Issue (2): 259-272  DOI: 10.11766/trxb201903180031


黄思华, 濮励杰, 解雪峰, 等. 面向数字土壤制图的土壤采样设计研究进展与展望. 土壤学报, 2020, 57(2): 259-272.
HUANG Sihua, PU Lijie, XIE Xuefeng, et al. Review and Outlook of Designing of Soil Sampling for Digital Soil Mapping. Acta Pedologica Sinica, 2020, 57(2): 259-272.



通讯作者Corresponding author

濮励杰, E-mail:ljpu@nju.edu.cn


黄思华(1995-), 女, 广西桂林人, 博士研究生, 主要研究领域为土地利用与环境效应。E-mail:huangsihua@smail.nju.edu.cn
黄思华1,2 , 濮励杰1,2 , 解雪峰3 , 朱明1,2 , 阚博颖1,2 , 谭言飞1,2     
1. 南京大学地理与海洋科学学院, 南京 210023;
2. 自然资源部海岸带开发与保护重点实验室, 南京 210023;
3. 浙江师范大学地理与环境科学学院, 浙江金华 321004
摘要:全球化土壤环境问题的出现对基础输入数据的精度、尺度和时序提出了更高要求, 面向数字土壤制图的土壤采样研究得到了快速发展。首先利用文献计量学的方法定量化分析国内外土壤采样研究学科分布和研究热点变化; 随后重点梳理了国内外土壤采样研究的文献, 根据不同的土壤调查目的、调查区历史采样点将土壤采样设计分为:土壤全面采样设计、土壤补充采样设计、土壤验证采样设计和土壤监测采样设计; 最后介绍了基于样点的推理制图方法。在此基础上, 对未来在多尺度的土壤采样设计、土壤-环境因子关系的新型假设和采样设计中现实问题的量化等方面进行了展望, 旨在为数字土壤调查工作的开展提供参考依据。
关键词数字土壤制图    土壤调查    采样策略    土壤-环境关系    

土壤调查是获取土壤属性特征和时空演变信息的有效方式[1]。传统土壤调查服务于农业生产和管理,土壤专家凭借土壤知识及主观判断在野外采样,存在周期长、成本高、过程复杂和主观性等缺点[2]。21世纪初,基于地理信息系统、地表数据获取技术和数据挖掘技术的数字土壤制图(Digital Soil Mapping,DSM)逐渐兴起,成为高效表达土壤空间分布的技术方法,为全球化研究、生态水文动态模拟、土壤资源管理、可持续土地利用提供大尺度、高精度土壤信息[1-2]

土壤采样通过选择代表性样点为数字土壤制图提供数据源。土壤采样往往结合统计推断、模型模拟和数字制图形成完整映射链,科学的采样设计能有效避免后续统计推断问题[1]。基于设计的采样方法受传统抽样设计中概率统计理论的影响,认为土壤属性的空间变异具有随机性,样本的选择基于给定的误差和概率,主要包括简单随机采样、系统采样和分层随机采样等[3-4]。然而,土壤属性变化在地理空间中呈现空间自相关性,属于地统计学研究对象,由此,以地统计学理论为基础形成了基于模型的采样方法,主要工具包括协方差函数和变异函数,结合克里金插值方法,依据土壤的空间变异性和自相关特性来获取全局代表性样点[5];近年来,土壤采样研究开始挖掘土壤本身的形成、发生以及与环境协变量之间的协同变化关系,在土壤-景观模型理论的基础上利用环境因子辅助采样,如基于专家知识采样、基于环境因子分层的拉丁超立方体采样、基于环境因子相似性的多等级代表性采样、基于环境因子变化程度的方差四叉树采样和基于土壤-环境因子关系的响应表面采样等[2, 6-9]。土壤推理制图反映了土壤空间分布特征和规律,主要利用土壤-环境因子关系和土壤属性空间自相关性选择相应的数学方法或空间模型实现点面拓展[10]。土壤采样和推理制图相互联系,采样点质量是制约制图精度的关键因素[11],制图精度常被用于控制所需的样本量,而样点的布设规则直接影响推理模型的选择[12]


1 国内外土壤采样研究热点变化

基于中国知网数据库和Web of Science核心数据库,分别以“土壤采样”、“土壤采样优化”、“土壤样点”和“soil sampling design”、“soil sampling strategy”、“soil sampling optimization”为关键词检索国内外土壤采样研究公开发表文献,去除重复和无关条目,统计文献发表数量随时间变化特征(如表 1)。结果表明1980年至2018年间共发表了458、8 923篇中、英文论文;1990年初系统开展土壤采样的研究,这一时期主要得益于GIS、遥感技术的支持和地统计学的应用,21世纪以来伴随全球数字土壤制图的兴起,土壤采样研究快速发展;国内在该领域的研究起步较晚,早期将地统计学应用于采样数量和采样密度的研究中,近年来发展迅速,主要集中在耕地质量监测样点、样带的布设和基于土壤-景观模型的采样方法的应用,其次作为数字土壤制图的子研究,国内学者在国际期刊发表了大量新型采样方法和策略的相关成果。

表 1 土壤采样研究论文发表数量 Table 1 Number of papers published on soil sampling

以文献为数据源,通过CiteSpace(版本5.3.R4.SE)软件[15]定量分析土壤采样研究学科和热点的变化并进行可视化展示。图 1为研究学科、主题和关键词的聚类结果,节点代表分析对象,越大表示研究热度越高,节点间的连线表示两者之间具有相关性。从图中可以看出,国外对土壤采样的研究从农学、工程学、土壤科学、环境科学和地理学等多学科交叉的角度进行,运用遥感、物理、化学分析和计算机技术;国内主要从土壤科学的角度研究,关键词包括空间变异、土壤养分、耕地质量、重金属和地统计学等。表 2展示了不同时期土壤采样的研究热点,国外研究主要涉及土壤采样方法和技术手段、采样策略、土壤管理应用、数字土壤制图等方面,而国内则主要应用地统计学方法探讨土壤特性的空间分异,以此进行采样设计。从整体来看,土壤采样的研究从土壤科学的单一领域走向多学科交叉研究,在方法技术手段上从概率理论的应用走向对地统计学模型、深度学习和知识挖掘的算法结合,应用研究上也重点关注生态监测与保护、精准农业、污染修复等全球化问题。

图 1 土壤采样研究学科、主题和关键词的共线分布示意图 Fig. 1 Sketch of co-occurrence of disciplines, themes and key words in research on soil sampling

表 2 不同时期土壤采样研究关键词 Table 2 Key words of the soil sampling research relative to period
2 土壤采样设计方法

采样设计中合理利用先验知识可以提高样点全局代表性、降低采样时间和成本。先验知识来自辅助地图、专家知识、历史土壤图和历史采样点数据。其中,辅助地图包括数字地形图和遥感影像,从中提取的全局环境因子包括与土壤形成相关的环境因子以及其他可能影响土壤属性空间变化的因素(如表 3),作为辅助数据可直接应用于后续建模。专家知识以描述性知识为主,包括土壤专家对土壤类型和属性真假判断以及对土壤-景观环境关系的描述。这部分知识的应用往往借助布尔逻辑理论和感知计算理论将描述性单词映射至制图单元,获取典型土壤类型/属性对应的环境知识并集成至土壤预测模型,目前已有的方法包括专家知识系统(Expert Systems)[16]和模糊隶属函数[17]。历史土壤图是土壤调查者对区域土壤、景观、地形、自然环境等的综合认识,利用神经网络[18]、决策树[19]、随机森林[19]和贝叶斯[20]等方法获取其中包含的土壤-环境关系知识可以指导采样。历史遗留土壤样点是不同时段、不同目的下土壤调查的成果,大多存在分布不遵循统计标准、典型性不够和缺乏精确的地理参考等问题[13, 21]。评估历史采样点数据的可用性、时效性、代表性和信息完整性,是后续历史采样点参与土壤采样和制图的前提。对此,张忠启等[22]提出了揭示特定时段土壤有机碳变化所需采样数量的方法,解决了不同历史时段土壤样点的利用问题。Carré等[21]和Stumpf等[23]通过拉丁超立方法确定历史采样点在环境协变量超立方体的占有率,从而评估历史采样点的质量,指导布设补充采样的位置,实现了历史土壤样本的整合。An等[24]利用环境协变量聚类来近似代替土壤变化类型,选择位于环境协变量聚类质心的历史采样点为代表性样品参与采样和制图。

表 3 土壤采样设计中常用的环境协变量指标 Table 3 Environmental covariate indices commonly used in soil sampling design

根据土壤调查者的采样目的将土壤采样设计划分为:基于不同先验知识对区域的全面采样,基于历史采样点的补充采样,用于评价制图质量的验证采样和反映土壤空间分布实时信息的监测采样(如图 2)。

图 2 基于先验知识的土壤采样方法选择决策树 Fig. 2 Soil sampling strategy selection and decision tree based on prior knowledge
2.1 土壤全面采样设计 2.1.1 无历史采样点区域的全面采样

无历史采样点区域进行全面采样,方法的选择取决于先验知识。大尺度土壤调查对制图精度的要求较低,简单随机采样和网格采样无疑是快速而实用的方法[41]。中小尺度土壤调查对制图精度要求较高,需要借助环境因子辅助采样提高采样点的全局代表性。特征空间是由一组环境变量范围限定形成的虚拟空间[31]。环境因子辅助采样的主要原则是选择样点覆盖或者优化这个虚拟空间。为了实现特征空间的全局覆盖,样点常被布设于能够完整代表环境空间差异性的区域。在地理空间上,这些区域可以通过某种典型的环境梯度组合切割分层,如Mckenzie等[42]结合地形地质参数和植被数据对研究区分层后随机选择样点;Hengl等[31]将环境协变量分布频率作为分层依据,通过等距设计样点实现特征空间的均匀扩展;Minasny等[8]基于方差四叉树法根据环境因子的变化程度对研究区分层采样。从优化特征空间的角度,将环境协变量进行聚类或分层,在特定环境组合区域布设采样点,形成的特征空间能够最大程度代表现实空间的特征属性,常用方法包括模糊均值聚类采样[43]K均值聚类采样[39]、多等级代表性采样[44]、拉丁超立方体采样[7]、条件拉丁超立方体采样[14]等。此外,样点在地理空间的良好分布也是采样设计的重要原则之一。平衡采样是优化地理空间分布引导的空间覆盖采样,利用目标变量与环境协变量之间的线性关系抽样,样点的布设需要满足样点环境协变量均值等于总体均值[34]。实现平衡采样的方法包括Horvitz-Thompson估计器、排斥程序、枚举法、局部关键算法、空间相关泊松采样、立方体方法和广义随机-曲面分层抽样法等[45-47]。双重平衡空间采样在平衡采样的基础上进行了优化,可以实现空间平衡良好分布的同时避免选择相邻单元[34, 48]。响应表面采样是基于模型预测的采样,在目标变量和环境协变量之间的关系可以拟合线性或二次回归模型的假设下,通过布设样点优化模型参数,降低模型残差的空间自相关效应[6]。响应表面采样最初利用土壤电导率数据估算土壤盐度,随后开发的ESAP软件允许输入环境遥感数据,为大尺度土壤采样提供可能性,但只能生成6、12或20个样本[6]

2.1.2 有历史采样点区域的全面采样

有历史采样点区域进行全面采样,方法的选择取决于历史采样点中隐含知识,包括土壤变异信息和土壤-环境知识。经典统计学Cochran公式是目前计算区域最优采样数的常用方法[41],该公式的参数涉及置信水平、精度和先验样本的变异系数。在此基础上,最适分配法计算确定分层采样中每层最佳采样数[49]。经典统计学计算方法可以对区域进行整体大致趋势和特征的研究,但无法决定样点的空间位置,同时也忽略了区域土壤特征的空间变异性[50]。基于模型的采样方法能够弥补这些不足,该方法利用大量历史样点建立可靠的空间变异模型,进而拟合克里金插值模型绘制土壤图。伴随以上过程产生的空间变异模型相关参数和未知点插值预测误差可以指导现阶段土壤采样。对此,国内学者展开了一系列合理采样数的研究,如张志霞等[50]结合半方差函数模型和克里金插值结果交叉验证,综合精度评价指标RMSE、R2和空间结构性指标最小化时确定合理采样数;赵业婷等[51]通过对比普通克里金法和协同克里金法的合理采样数和优化采样数量的适用性,认为协同克里金方法能够更好地优化采样数量,提供更多局部变异信息。地统计学模型除了应用于确定合理采样数,还能指导采样点的空间优化布局,如空间变异模型的变程值可以反映网格采样的间隔[50]。一些研究中采样点的布设以减少预测误差为目标,如陈天恩等[52]根据克里金插值绘制估计值方差等值线,在估计误差的方差大于给定阈值的区域加密采样点;Li等[53]利用方差四叉树算法结合半方差函数对目标变量插值的方差较大的区域不断四分得到等方差的区层,对变异较大的区域增加采样密度。而历史采样点相对较少的区域,难以建立模型准确描述区域土壤属性的空间变异情况,通常将已有样点与环境因子进行相关性分析,选取典型的环境协变量组合,借助环境因子辅助采样实现样点布设[23]。或基于对土壤景观关系的不同假设,通过建立多元回归函数、协同克里金、泛克里金、随机森林等模型作为目标函数,通过模拟退火算法优化生成最优空间布局的样点集[5, 23]

2.2 土壤补充采样设计


2.2.1 基于环境因子相似性的补充采样设计


2.2.2 基于预测制图不确定性的补充采样设计

基于预测制图不确定性的补充采样目的是通过添加样点降低目标地理变量的整体空间预测不确定性。土壤空间插值模型和土壤-环境关系预测模型的预测制图误差可以指示空间预测的不确定性。在不同的克里金模型中,泛克里金模型在精度上更有优势,其方差包含趋势估计误差和空间插值误差的方差两个分量,能有效平衡特征空间和地理空间[5]。相对于构建克里金模型对样本密度、统计假设等要求,随机森林模型预测方差是土壤制图的副产品,不需要额外的处理步骤,避免了统计复杂性,能够满足实际不确定性度量的需求[5, 23]。补充采样的候补区是具有较大预测方差的区域,补充样点布设方法包括拉丁超立方体和模拟退火算法,在迭代过程中通过设定算法停止的阈值(足够小的预测误差)决定样本数量和位置,实现环境协变量空间与采样效果之间的平衡[58]


2.3 土壤验证采样设计

对生产者和使用者而言预测制图的质量验证必不可少[60-61]。部分基于模型(如克里金插值)或基于环境相似度的土壤制图会产生不确定性分布图等附加产品,可以指示制图结果的可靠性[2, 55, 62]。目前常规的定量评价土壤制图精度的方法包括数据分裂、交叉验证和附加概率采样验证[61]。前两种方法基于已有样点实现,数据分裂将校准样点依据一定比例(20%~30%)随机分为训练样点和验证样点,训练样点推理制图后由验证样点评价制图精度[50, 63]。交叉验证通过重复分割校准样点集去验证,本质上是数据分裂的迭代过程,相对于数据分裂更有效,包括留一交叉验证和多折交叉验证[64]。目的采样获得的制图样点集,分割形式无法改变样点本身的偏向性,预测误差或分类错误率存在着空间自相关,验证精度高估了实际精度,因此,数据分裂和交叉验证难以实现无偏和有效的地图精度估计[61, 65]。而附加概率采样验证通过概率抽样选择独立验证点与预测地图单元进行比较,不需要模型估算地图精度,避免对预测误差的空间自相关做出假设,能够有效地指示制图精度[65]。Brus等[61]提出利用基于设计的采样方法布设附加验证点,包括简单随机采样、分层简单随机采样、系统随机采样、聚类采样和两阶段随机采样。在保证验证质量的前提下,Gruijter等[66]提供了上述不同采样方法所需的最小样本量的计算方法,通过抽样概率和参数估计的方差计算验证样点总数,并根据其特有的布设方式分配样点。一般而言,增加验证采样强度有利于提升预测质量,但并不能增加实际的制图精度,因此实际验证采样设计中需要权衡验证采样成本与验证质量的关系。


2.4 土壤监测采样设计

目前,世界许多国家或区域已经建立了土壤监测网络,用于定期观测土壤肥力、土壤污染和土壤侵蚀等变化。监测站点的选取一方面基于历史采样点或者预设样点的空间变异性信息实现监测样点的再优化,如欧洲土壤监测系统应用50 km×50 km格网采样[69],国内耕地质量监测系统应用地统计学变异函数[70]优化布设样点。另一方面,通过土壤或者景观环境信息实现监测样带的选择,如德国BDF-SH长期土壤监测计划通过景观单元、土壤类型和土地利用选择代表区[71],国内耕地质量监测系统依据自然条件、利用水平和收益水平等因素组合确定耕地质量均值区域选择监测点[72]。以上采样方法均从静态层面上选取样点,未考虑土壤属性的时空变异性,缺乏数学模型的统计推断和空间抽样理论的验证。

土壤属性特征具有时空变异性。近十年,国外土壤监测采样研究从时间、空间两个维度考虑,分为时间采样设计、空间采样设计和时空采样设计[66]。基于概率抽样理论、地统计理论和时间序列分析,形成完全基于设计、完全基于模型和混合方法的土壤监测的样本布设方法[66, 73]。完全基于设计的方法利用概率采样选择抽样单元和抽样时间,其统计参数通过概率采样所确定的包含概率推断,具有对时空平均值的无偏估计和量化抽样误差所导致的估计总量不确定性等优点[74-75]。完全基于模型的方法通过历史数据建立随机模型来描述土壤属性的时空变化,利用模型推断参数和预测时空平均值[66]。混合方法涉及了基于设计和模型的推理,对样本位置进行概率采样构建离散化空间均值的时间序列模型[73-75]。土壤监测网中最佳采样数量需要满足两个目标:能代替土壤属性空间均值和空间变化,通过功率分析法和最小可检测差异法计算[76]。Brus等[73]提出四种时空设计概念性例子:独立同步设计、静态同步设计、补充面板设计和旋转面板设计,对监测采样设计具有重要指导意义。


3 推理制图

土壤推理制图是以数学方法和空间分析为手段,利用土壤属性的空间自相关性和土壤-环境协变量关系,将点映射至面以体现土壤空间分布特征和规律的过程[10]。尽管大尺度数字土壤制图更多地借助于土壤近地传感、土壤光谱和卫星遥感技术,但野外采样点仍是至关重要的数据源。土壤样点的数量和布设规则将影响土壤空间推理模型的选择[1]。基于样点的土壤制图方法和采样设计的思路相似,大致可概括为利用土壤-环境因子关系、土壤属性空间自相关性推测区域土壤的空间分布[81]。前者主要利用机器学习、数据挖掘和数学模型等方法挖掘土壤属性与环境协变量的关系知识作为制图依据,后者则利用给定的一组离散土壤样点建立目标属性的空间自相关模型,通过空间插值模型,如趋势面分析、克里金插值、样条函数、反距离加权法和最邻近法等制图[2, 82]。以上两者结合的制图法同时考虑了土壤属性的空间自相关特征和土壤与环境因子的关系,主要方法包括回归克里金插值、协同克里金插值和地理加权回归模型[82-84]

一般而言,制图精度会随着样点的数量增加而逐渐提高,在方法上,土壤-环境模型制图法相对普通克里金法和线性回归模型更有效,回归克里金法能有效结合土壤-环境模型法和空间插值的优势,制度精度优于普通克里金法[84-86]。然而,一些方法对比研究发现,土壤预测制图效果并不完全取决于方法的精密和复杂性,也需要关注辅助环境因子的应用以及方法对样点变量信息的利用效率[82]。土壤采样和推理制图是两个相互联系的过程,制图精度常被用于控制所需的样本量,而样点的布设规则是选择推理模型的关键因素[12]。基于模型的采样设计的样点以模型参数估算方差和插值预测误差最小化为目标,所建立的空间自相关模型具有较小的预测不确定性,利用空间插值模型制图,或者在空间自相关基础上引入环境因子辅助推测制图具有较好的效果[1]。环境因子辅助采样点相对于基于模型的采样点具有数量较少、代表性高且包含土壤-环境关系的特点,适合基于土壤-环境关系制图的方法[2]。制图者需要根据特定制图要求选择相应的土壤-环境关系表达模型推理制图。采样设计其中一个重要依据是土壤-环境因子间线性或非线性假设,土壤属性制图也通常利用这一关系推理制图,广泛使用的方法包括线性回归模型[87]、随机森林[82]、决策树[85]和人工神经网络模型[85]等。土壤类型制图则依据特定的土壤类型-环境组合知识推理制图,代表方法包括土壤-景观推理模型(Soil-Landscape Inference Model,SoLIM)[88]和语义模型模糊推理模型[12]。近年来,大尺度的土壤采样设计如多等级代表性采样、基于不确定性的补充采样等,样点布设基于环境越相似土壤属性越相似的假设,点面拓展方法涉及模糊隶属加权平均法和个体预测土壤制图法[54, 89]。随着全球数字土壤制图工作的开展,对大尺度采样设计和推理制图提出挑战,加强环境协变量的应用,提升推理方法对样点变量信息的利用效率成为重要研究方向。

4 结论与展望





Review and Outlook of Designing of Soil Sampling for Digital Soil Mapping
HUANG Sihua1,2 , PU Lijie1,2 , XIE Xuefeng3 , ZHU Ming1,2 , KAN Boying1,2 , TAN Yanfei1,2     
1. School of Geography and Ocean Science, Nanjing University, Nanjing 210023, China;
2. Key Laboratory of Coastal Zone Exploitation and Protection, Ministry of Natural Resources, Nanjing 210023, China;
3. College of Geography and Environmental Science, Zhejiang Normal University, Jinhua, Zhejiang 321004, China
Abstract: The appearance of soil environmental problems, such as pollution and degradation, has stimulated researches on hydro-ecological simulation, soil resource management, soil carbon and nitrogen monitoring, etc., thus putting forward higher requirements on basic input data, like types and attributes of soils, in accuracy, scale and timing sequence and causing rapid development of the research on soil sampling oriented towards digital soil mapping. In this study, the bibliometric method was applied to quantitatively analyze variation of the researches at home and abroad in distribution of disciplines hotpot during the recent four decades since 1980. Based on collation and review of the literature, summarization was performed of methods widely used nowadays in soil sampling and speculative mapping, and discussions conducted about future trends of the research on sampling designing for digital soil mapping, in an attempt to provide a reference for development of digital soil survey. Results show:(1) Over the last four decades, hotspots of the research on soil sampling have been focused on theories, methods, techniques, means and strategies of soil sampling, soil management and utilization, digital soil mapping, etc., involving disciplines that have developed from a single field of soil science into a transdisciplinary research covering agronomy, engineering, soil science, environmental science and geography, etc., with theories, techniques and means turning from mere application of probability theory into combination of geostationary models, deep learning and knowledge mining, and focuses laid on application in ecological monitoring and protection, precision agriculture and polluted remediation. (2) Soil sampling designing is a process of selecting an appropriate sampling method to meet the specific goal of a soil survey based on certain prior knowledge. According to the purposes of a soil survey and soil sampling history of the surveyed area, soil sampling designs can be divided into four categories, i.e. comprehensive sampling, supplemental sampling, verification sampling and monitoring sampling. In regions lacking historical soil sampling data, comprehensive sampling can be implemented by appointing sampling sites randomly based on the designed sampling method to achieve uniform coverage of their geospatial space, or by laying out sampling sites with reference to environmental factors to realize coverage and optimization of feature spaces, while in regions rich in data, comprehensive sampling may better adopt model-based sampling methods. For supplemental sampling, sampling points should be laid out in locations low in similarity of environmental factors, or high in uncertainty of predictive mapping or both. For validation sampling, independent sampling points should be arranged in line with the sampling design for better validation effect. And monitoring sampling could be designed into spatial sampling and temporal sampling or both with sampling sites laid out based on the design and the model in combination. And (3) soil mapping is a process of realizing point-plane expansion with the aid of mathematical methods or spatial models based on soil-environment relationship and spatial autocorrelation of soil attributes. In soil mapping, cartographers should pay attention to adoption of environmental factors and efficiency of the method utilizing the information of variables of the sampling sites. Hereby, cartographers should choose a corresponding inference model to implement spatial expression of soil information. So studies in future should be oriented towards application and theory, like designing of multi-scale soil sampling, new hypothesis of soil-environment relationship hypothesis and quantification of realistic problems in soil sampling designing.
Key words: Digital soil mapping    Soil survey    Sampling strategy    Soil-environment relationship