森林每木生物量数据质控方法和技术研究

发布时间:2023-08-21 20:54:02 来源:网友投稿

郭学兵,张黎,何洪林

1.中国科学院地理科学与资源研究所,生态系统网络观测与模拟重点实验室,北京 100101

2.国家生态科学数据中心,北京 100101

3.中国科学院大学,资源与环境学院,北京 100190

森林生物量是森林生态系统的基本属性之一,准确估算森林生物量对于计算森林碳储量、估测森林生产力及与之关联的其他科学研究、开展森林资源监测及指导林业生产均具有重要意义[1-2]。生物量观测数据的获取和处理是森林生态系统长期观测研究的重要任务,而估算每木生物量(Tree Biomass Weight,TBW)是调查森林生物量的基础[3]。

国内,针对不同森林、不同物种的生物量模型建模方法的研究成果数不胜数,这些生物量模型方程是估算每木生物量数据的基础[4-5]。浙江天童森林生态系统国家野外科学观测研究站开展了样地植物群落生物量调查和数据处理及质量控制方法的研究和实践,发布了群落基于个体的乔木生物量、胸径和树高数据集[6]。但是有关海量TBW 数据质控方法和技术研究的文献尚未查阅到。

中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)现有云南哀牢山、北京东灵山、云南西双版纳、吉林长白山、广东鼎湖山等11 个森林生态系统站[7](以下简称森林站),这些森林站自2005年以来,按照CERN 统一观测规范,长期开展固定样地的乔木生物量调查,获取了大量TBW 数据,并以出版物形式陆续发表并开放共享[8]。以2020年为例,各森林站共调查了7 万多株乔木的胸径、树高,并计算每木分器官(树干、树枝、树叶、果花、树皮、地下)生物量,生成TBW 调查数据表,连同异速生长方程一起汇聚到CERN 数据中心进行集成存储和质控。

CERN已在2004年建立了规范化的数据记录表,研制了每木调查数据的质量控制和处理方法,然而尚缺少精细化的标准规范,批量重复工作仍需较多的人工处理与干预,未形成流程明晰的自动化业务流程,导致森林站TBW 数据处理工作繁杂且容易出现错误。面对众多森林站的海量TBW 数据,数据质控部门压力较大,迫切需要构建自动化的TBW 数据质量控制和处理软件,以便提高数据质控和数据处理效率。

CERN 数据中心充分借鉴国际国内地球观测不同领域的数据质控方法,例如美国国家生态系统观测网络(NEON)针对自动传感器观测指标(如气温等)数据的真实性阈值检验质控方法的统计学研究[9],国内海洋科学领域开展的海洋监测数据质量控制方面的大量研究工作[10-11],同时针对森林生物量数据自身特点,研究发展了更有效的TBW 数据质控标准、方法和技术,并形成了快速质控工具,为数据中心及相关科研人员快速处理样地生物量数据提供支撑。

本文介绍了森林站TBW 数据模式、TBW 数据生产流程,TBW 基础数据、实测数据和派生数据的质控标准和质控方法,以及OLE(Object Linking and Embedding,对象链接和嵌入)编程、Python 编程等信息技术在开发TBW 基础与实测数据质控预处理和派生生物量数据自动计算软件工具中的应用。

1.1 TBW 数据模式

TBW 数据模式包括两张数据记录表,分别是森林植物群落乔木层每木调查与生物量数据表(代码为FA01)、森林植物群落乔木层生物量模型数据表(代码为FA02),二者以生态站代码、生物量模型编号两项为关联键,其数据模式及实体相互关系如图1所示。

图1 TBW 数据模式及实体相互关系Fig.1 Entity-Relation diagram of TBWdata schema

CERN 规定了FA01 表、FA02 表的属性项的表达方式(含义、量纲、数值精度等),生态站代码、样地代码均按照CERN 统一编码规范设定,二级样方号、树号、生物量模型编号信息编码由各森林站自行规定,但年际之间必须保持一致[12]。数据表以Excel 存储格式传输汇交。

1.2 TBW 数据生产流程

CERN 长期观测规范规定,森林站经过观测方案规划设计、每木实测、生物量模型收集整理及规范化、生物量模型配置、生物量数据计算5 个步骤获取TBW 数据。TBW 数据生产流程如图2所示。

图2 TBW 数据生产流程Fig.2 Flow of TBW data production

(1)观测方案规划设计——森林站规划固定个数的样地,并为其指定唯一样地代码标识,各样地包含固定个数的二级样方号,样方中的每木都有固定树号,这些基础数据在整个长期观测阶段不会发生改变,但可能会有新增。

(2)每木实测——森林站按照观测规范规定的时间频度,对固定样地的每木胸径、树高和物种名进行野外动态观测,并按照要求记录入表FA01。

(3)生物量模型收集整理及规范化——森林站建立、收集、选取合理的异速生长模型,以便计算生物量。选取的生物量模型需要给予模型编号,且将不同来源的模型方程按照统一规范方法进行表达,并记录入表FA02。

(4)生物量模型配置——按照生物量模型匹配原则,为每木匹配生物量模型。各森林站模型选择原则不一,配置复杂程度各不相同。绝大多数森林站按照物种配置生物量模型,而鹤山站、清原站的部分物种同时参考径级来配置不同模型,西双版纳站则按照观测样地和树木径级联合匹配生物量模型。配置好的模型编号记录入表FA01。

(5)生物量数据计算——把每木测树因子的实测数据与模型方程结合起来,计算每木各器官部位(树干、树枝、树叶、花果、树皮、气生根、地下)的生物量,计算结果填入表FA01。

1.3 森林站数据质量保证

森林站层次上,需要做到:按照观测规范开展数据调查,保证样地代码、二级样方号、树号的唯一性及年际之间的一致性,保证观测过程遵从观测技术规范,最大程度保证每木胸径、树高实测数据准确性,选取的异速生长方程的拟合优度和准确度满足使用需求,分器官生物量计算准确。数据整理过程双录入,录入后复查,避免电子化过程造成数据错误。

尽管已制定这些规范要求,出现数据质量问题仍在所难免,因此森林站生物量数据上报到CERN数据中心后,数据中心仍需进行数据质控,发现问题后需与森林站沟通并进行返修。

2.1 质控总体框架

根据GB/T 19000—2016 质量管理体系基础和术语的规定,质量控制是质量管理的一部分,它致力于满足质量要求、实现质量目标[13]。为此,质控部门需要开展质控方法研究,建立质控标准,并采用信息技术手段提高质控效率,持续不断改进数据质量。

CERN 数据中心研究并建立了数据质控标准和质控方法,质控标准总体框架如图3所示,其中格式一致性指森林站的Excel 表头数据项须与标准化TBW 数据模式结构相一致,这是整个质控的第一步,其他内容包括2.2 节介绍的数据一致性、准确性等方面。

图3 TBW 数据质控标准总体框架Fig.3 Mainframes of standardsfor TBW data quality control

2.2 质控标准和方法

(1)公共基础项一致性检查

公共基础项包括样地代码、物种名称、二级样方号、树号。

其一致性检查方法是:建立各公共基础项的标准词典。如样地标准词典包含“生态站代码”、“样地代码”、“样地名称”、“备注”等属性项,物种名称标准词典包括“生态站代码”、“物种名”、“物种拉丁名”、“备注”等属性项。

将森林站FA01 表中的公共基础项数值与相应标准词典进行比对,检查是否超出固定词表枚举值范围,不允许使用不规范词汇,并检查二级样方号、树号是否完整。

(2)实测数据一致性检验

胸径、树高是野外观测人员动态实测数据,从数据逻辑合理性方面进行检验复核。例如,胸径、树高有无离群数据(3σ 检查),胸径、树高的阈值范围是否超出历史上多年观测数据范围,从而发现实测环节或数据记录等环节的问题。

(3)生物量模型定义的完整性、准确性、规范性检验

生物量模型是计算TBW 的关键,良好的TBW数据以生物量模型的完整性、准确性、规范性为基础。缺失生物量模型将无法计算TBW 数据,生物量模型的拟合优度和精度关乎TBW 数据质量,生物量模型方程表达样式须经规范化才能支持TBW 自动计算。因此,检查FA02 表各属性项是否规范是TBW 数据质控的重要步骤。

CERN 森林站的FA02 表中共有乔木异速生长模型方程500 多个,模型方程函数形式共有7 类,分别为式(2.1)至式(2.7):

式中,W代表分器官的生物量,D、H分别代表每木胸径、每木树高,a、b、c为可变参数,^代表幂函数,*代表乘积。

(4)生物量模型引用关联一致性检验

检查FA01 表引用的生态站代码、生物量模型编号与FA02 表定义的生态站代码、生物量模型编号是否匹配,同时FA02 表中的器官部位也作为主键参与生物量模型的筛选,因此器官部位必须严格规范化为“树干”、“树枝”、“树叶”、“果花””、“树皮”、“地上”、“地下”,不允许存在其他词汇。

(5)分器官TBW 数据准确性核查

按照FA01 表引用的模型编号所指定的方程带入测树因子进行分器官TBW 数据的自动核算,并与森林站报送的各器官部位生物量数据予以比对,以检查森林站TBW 数据计算结果是否准确。

由于CERN 森林站TBW 数据量大且计算过程复杂,使用自动化软件工具方能快速进行数据质控。TBW 数据质控软件工具分为基础与实测数据预处理、派生生物量数据批量计算两类,软件开发采用了OLE 编程技术、Python 编程技术。

3.1 基于OLE 的基础数据预处理工具

3.1.1 软件开发环境

数据质控软件不仅要查出TBW 数据的不规范问题,如样地代码、物种名称等各种参数数据的合理性和一致性问题等,而且要支持用户快速发现、定位到问题数据并进行规范化处理[11]。

考虑到基础数据预处理过程需要较频繁的人工交互来不断修正不规范数据,而且森林站人员普遍使用Excel 进行数据处理与质控的现状,软件开发环境采用了OLE 技术进行Visual Foxpro 与Excel 之间的关联编程[14],将Excel 强大的电子表格计算处理、数据分析功能和VFP 的GUI 编程、逻辑控制功能结合起来,VFP 在前端可以操控后端的Excel 的各类对象及其OLE Automation 服务器程序,形成基于Excel 的可视化、流程化、标准化的质控业务流程,实现TBW 数据快速质控和预处理。

3.1.2 软件工具功能

(1)自动添加公共基础数据项的有效性检验

VFP 中建立公共基础数据项的标准词典,并调用Excel VBA 有效性校验函数及无效数据圈示的函数,可在FA01 表的相应列上增加有效性校验条件,并直观圈示出超出标准词典范围的数据;
同理,在FA01 表的胸径、树高列上添加有效性校验条件(如设定胸径最大值、树高最大值、胸径离群点、树高离群点),并加上无效数据圈示功能,可实现胸径、树高的异常数据的阈值筛选、发现与定位。

(2)自动制作统计图表用于支持胸径、树高数据的检验

使用VFP 调用Excel VBA 函数,自动在FA01表上按照物种名分组制作数据透视表,分别生成胸径统计表(如胸径的最大值、最小值、平均值、标准差、样本数等)和树高的统计表,基于数据透视表可制作可视化统计图。

以上所述各项功能的函数使用方法及其参数引用方式可参阅Excel 的Visual Basic 开发者帮助,若干语句示例如表1所示。

表1 VFP 调用VBA 函数操控Excel 的关键语句示例Table 1 Sample statements of how VFP call VB functions to manipulate Excel

3.1.3 统计结果分析与研判

统计汇总后的数据量已大幅减少,通过对统计汇总表和可视化统计图进行人工或自动检视,可发现是否有3σ 离群数据或其他异常数据,再进一步通过专业知识或与森林站沟通后进行研判。自动生成的胸径统计表、统计图示例如图4所示。

图4 鼎湖山森林站物种胸径统计表与统计图截选Fig.4 Segment of statistical table and chart for tree species" DBH in Dinghushan forest station (note: DBH means diameter at breast height)

3.1.4 软件工具的先进性

基于OLE 开发的软件工具不仅可提高数据中心的质控和预处理的效率,而且非常适配CERN 森林站的应用环境,便于今后将软件工具推广到森林站进行应用,具有应用先进性。具体体现在:(1)实现了基于Excel 的异常或错误数据的快速发现、直观定位和快速修正的一体化;
(2)基于Excel 的数据统计表、统计图的自动制作生成程序可在多个森林站FA01 表格上重用,实现了快速统计与制图功能,支持对数据进行进一步分析与研判;
(3)可针对特定质控需求进行基于Excel的多样化功能的编程,具有很好的灵活性。

3.2 基于Python 的数据自动计算工具

3.2.1 分器官生物量数据自动计算

为了快速核验森林站TBW 数据计算的正确性,本文选用Python[15]语言快速计算分器官生物量。Python 提供了完善的基础代码库,涵盖了网络、文件、GUI、数据库、文本等模块,并提供强大的科学计算扩展库,开发的程序能以模块化的形式进行复用。

自动计算包含数据和计算规则两个部分,其中数据部分基于2.2 节中处理后的FA01 表的胸径、树高数据,计算规则来自FA02 表中的生物量模型方程数据。根据FA01 表中生态站代码和生物量模型编号两个字段联合作为索引,从FA02 表中匹配对应模型方程的字符串形式,对标准化方程的字符串进行样式解析并获得方程的参数,转化为可计算形式,然后调用7 类样式之一的规范化方程计算模块,带入胸径、树高实测值,计算出每木各器官部位的生物量后自动填入FA01 表相应列。

本文选用Python 的pandas 和multiprocessing 技术实现计算的简捷性、易读性和可扩展性。Pandas是分析、清理、检索和操作数据的数据处理包,可将Excel 中的数据转化到Python 中进行表格类数据处理;
使用multiprocessing 多进程处理包,将数据量很大的FA01 表进行“水平数据拆分”后进行多进程并行计算[16-17],从而充分利用多核CPU 的计算能力提高自动计算效率,整体计算流程如图5所示。

图5 TBW 数据多进程计算流程Fig.5 flow of TBW data multiprocessing calculation

3.2.2 分器官生物量数据差异图示比对

自动计算结果与森林站报送数据进行可视化图示比对,可直观显示TBW 数据差异情况,准确发现计算有误的记录。例如鼎湖山站2020年调查乔木总株树为11941 株,树干、树枝、地下等生物量数据核验一致率均为100%(树干生物量差异性比对结果如图6所示),而树叶生物量核验一致率为99%,存在部分不一致数据,数据中心可生成质控报告后发给森林站进行确认修订。

图6 Python 自动计算与鼎湖山站计算的树干生物量差异Fig.6 Illustration of difference between programmatically calculated result with Dinghushan forest station’s calculated result—tree trunk biomass weight (unit of measure: kg,X-axis represent sequence number of tree )

本文研究建立了TBW 数据质控标准和质控方法,并开发数据质控软件工具,实现了CERN 数据中心层面快速质控目标,更好保证了TBW 数据一致性和准确性,提高了TBW 数据质量。

通过数据质控,发现以下几类问题有待改善:(1)森林站需人工或借助质控软件工具,进一步加强基础数据项的一致性检核,避免出现基础数据不规范的问题。(2)森林站模型编号及模型表达存在不够规范的问题,须严格加强模型表达规范化,以支持TBW 自动计算。(3)森林站生物量人工计算容易出错,利用Python 语言编写的TBW 数据多进程计算软件工具,可支持森林站实现生物量数据快速准确计算,避免人工计算派生数据时容易出错的问题。

发现数据问题不是数据质控的最终目标,最终目标是进一步改进数据质控流程。数据中心需基于工作流思想和技术[18],进一步将本文所述方法和工具形成统一标准化的TBW 数据质控业务工作流。数据中心为森林站提供实用的质控工具,将数据质控关卡前移至数据源头(森林站)进行,森林站按照观测标准约定的规范方法开展强制性数据质控,从而显著提高森林站TBW 数据处理和质控效率。本文所述方法和技术也可为其他行业部门或科研团队提供借鉴或工具服务,有助于其进一步提高TBW 数据处理和质控效率。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢胸径生物量观测赤松纯林胸径结构对枯梢病发生的效应林业科学研究(2021年6期)2022-01-05武汉5种常见园林绿化树种胸径与树高的相关性研究内蒙古林业调查设计(2021年5期)2022-01-05轮牧能有效促进高寒草地生物量和稳定性今日农业(2020年19期)2020-12-14福建省森林资源监测体系抽样调查中胸径测量精度范围的精准确定林业勘察设计(2017年4期)2017-07-062018年18个值得观测的营销趋势中国化妆品(2017年12期)2017-06-27天测与测地VLBI 测地站周围地形观测遮掩的讨论测绘科学与工程(2017年1期)2017-05-04可观测宇宙太空探索(2016年7期)2016-07-10生物量高的富锌酵母的开发应用中国科技信息(2015年2期)2015-11-16高分辨率对地观测系统太空探索(2015年8期)2015-07-18基于SPOT-5遥感影像估算玉米成熟期地上生物量及其碳氮累积量植物营养与肥料学报(2014年1期)2014-03-11

推荐访问:生物量 技术研究 森林

版权所有:睿智文秘网 2009-2024 未经授权禁止复制或建立镜像[睿智文秘网]所有资源完全免费共享

Powered by 睿智文秘网 © All Rights Reserved.。备案号:辽ICP备09028679号-1