THWater®智慧排水监测

数据质量评估与控制的步骤与工具—智慧排水之乱弹(137)

作者:张旭东来源:清环智慧水务

小编按:排水监测数据的质量对下一步开展量化分析工作至关重要。如何有效地开展监测数据的质量评估和控制工作,不仅需要明确相应的技术步骤,也需要先进自动化工具的支持。本文对这项工作进行探讨,供大家参考

监测数据质量评估的基本思路与一般步骤

众所周知,城镇排水管网的环境与工况十分恶劣,要实现可靠在线监测的难度极大。这一方面对监测设备的性能和现场的实施维护提出了较高的要求,另一方面也提醒我们,在对排水管网的在线监测数据进行后续应用前,应首先关注数据的质量情况,判断监测数据的有效性、代表性和可用性,否则未经过有效的数据质量控制,就盲目开展后续的分析与推论,可能只会变成数字游戏,甚至南辕北辙,结论的可信度就可想而知了。但是,如何开展监测数据的质量评估与控制工作?本文结合多个项目实际经验与清环团队的相关研发成果,对排水管网监测数据质量评估的基本思路与一般步骤进行了探讨。

图片

小编:在即将发布的国标《城镇排水管网数字化通用技术要求》中数据治理章节中,就明确要求监测数据的有效数据应大于85%,在多个团标中也有类似的要求,但是如何做好数据质量评估工作,且看下文分解。】

一、监测数据质量评估的基本思路

监测数据质量评估,需要分别考虑监测数据的有效性、代表性和可用性,三者之间存在相互包含的递进关系,如下图所示。

图片

数据质量评估的3个层次

其中,有效性是指数据的表现与变化趋势要符合传感器正常运行的客观规律,如应根据设置的频率准点获取监测数据无缺失、监测数值应在量程范围内、数据无明显跳变等。下图分别展示了有效性好和有效性差的两个典型数据曲线案例,能够直观感受到差异,而进一步定量化的评估则需要设置一系列的规则和阈值,将在下文进一步阐述。影响数据有效性的主要因素为监测设备的整体性能好坏,包括设备通讯能力、信号处理与干扰识别能力、数据保存与断点续传能力等等。

图片

连续稳定的在线监测数据,有效性好

图片

缺失、跳变较多的在线监测数据,有效性差

代表性是指数据能够全面与准确反映现场实际情况的能力,亦即客户经常关注的设备准确度、精度等概念。以液位指标为例,如现场用尺子测量水深是1.5米,传感器监测数据同样显示在1.5米上下,则认为该液位监测的代表性较好。对于流速流量数据则更为复杂,因实际上现场管道内的真实流量无人知晓,“准确度”其实是一个无法计算无法验证的伪概念,我们只能从测量的底层原理和实验室标准环境下的测试结果来评估流速流量数据的代表性(详见《排水管道流量测量可靠性的影响因素浅析—智慧排水之乱弹(98)》)。一般影响测量代表性的因素主要为设备采用的测量原理与现场安装情况,如流速测量采用断面扫描原理(详见:排水管网流量监测核心技术之全断面扫描法其代表性会显著优于点流速测量原理,需要通过合理选型及定期的现场校核来提高数据代表性。   

图片

不同测量原理获得的流速数据代表性差异

有用性是指获得的监测数据能够匹配客户的真实需求,是否满足我们的分析目的,具体涉及到点位的位置是否安装正确、选择的指标是否合适、监测的时间跨度是否足够等等,如因管网图有出入导致设备安装井位错误、或用户关注污水CODcr的浓度情况但安装的是CODuv254在线探头、或用户想了解下雨天数据变化但监测数据段只有旱天等。在这些情况下,即使数据的有效性、代表性再好,其对于客户的实际需求而言也是无用的。数据的有用性主要依靠前期做好需求对接、方案设计、方案落地等来提高。
一般而言,数据的有效性、代表性和可用性是相互包含的关系,有效性差的数据一定不具备代表性,不具备代表性的数据一定无法实现可用性   

二、监测数据质量评估的一般步骤

在开展具体项目监测数据的质量评估时,与上述三个方面的包含关系相反,一般先从前置步骤中(如方案设计、安装施工等)提高数据可用性和代表性的保障,即通过设计系统科学的方案(《在线监测方案制定的6个原则—智慧排水之乱弹(131)》)和选择可靠的监测设备。在已经获取到监测数据之后,重点需要开展的则是对数据有效性的评估。监测数据有效性的评估,一般包含以下4个步骤:

图片

监测数据有效性评估步骤

(1)原始数据整理

将监测数据按点位、指标整理成格式统一、按固定时间间隔编码的时间序列,以便于后续分析。

(2)异常判断规则设置

监测数据可分为缺失数据、失效数据和有效数据,其中缺失数据和失效数据均为异常数据,一般通过设置一定的异常判断规则,对数据序列中的异常值进行判定和识别,主要的异常类型包括:

  • 数据缺失:表现为部分时刻未收集到数据值;

  • 异常零值:表现为不应出现0值处出现0值;

  • 异常非零值:表现为应该为0值处不为0值;

  • 超阈值:表现为指标超过探头监测量程;

  • 异常波动:表现为指标出现不合常理的跳变;

  • 异常不变值:表现为指标在连续一段时间内呈现为不合常理的固定值。

异常数据识别的类型应根据不同监测指标的特点而确定,并且具体的判断规则和阈值也应综合考虑设备和现场情况而定。一般而言,液位数据主要考虑数据缺失、超阈值、异常波动3类异常;流速/流量/水质数据主要考虑数据缺失、异常零值、异常非零值、超阈值、异常波动、异常不变6类异常。
(3)扫描数据对异常进行识别
通过设置的异常判断规则,对逐个点位逐个指标的时间序列进行扫描判断,对符合异常规则的数据进行标记。【小编:这项工作应该借助计算机程序来自动完成,当然人工处理也是可以滴,但是费事费力而且结果不一定准确。
(4)人工校验识别结果,得到评估结论
因管网环境复杂,除上述几大类标准异常之外,个别点位数据可能还会出现一些“个性化”的异常表现,这就需要依靠专业的数据咨询工程师对异常识别结果进行校核,结合规则扫描和经验判断,得到数据的有效性评估结论。小编:这项工作和上一步不同,必须借助智慧的大脑来人工对结果进行识别,做数据异常识别是为了下一步分析,只有有经验的专业咨询工程师,才能对数据质量进行综合评估,并判断是否可以用于下一步分析工作

三、THWater数据异常判断功能模块

针对监测数据有效性评估的异常数据识别工作,其规则配置复杂、计算量大、结果难以整理,具体执行过程具有很大的挑战性。针对这一难题,我们基于THWater物联网在线监测平台,开发了一套用于监测数据异常识别的功能模块。应用该功能模块,仅需三步即可实现异常数据的判断和标记,显著提高工作效率。   
(1)步骤0:将监测数据导入THWater物联网平台,如使用THWater系列设备,则无需导入直接使用在线采集数据就可以啦。通过平台可实时查看和搜索在线监测数据。

图片

原始数据导入与查看

(2)步骤1:针对每个点位的每个指标配置异常判断规则和阈值,包括数据缺失、异常零值、异常非零值、超阈值、异常波动、异常不变值等,基于经验值生成一套默认参数配置,并可结合特殊情况对个别点位的规则和参数进行修改。

图片

异常判断规则配置    

(3)步骤2:平台根据配置的规则对所有点位进行自动批量的扫描计算和异常数据识别,对所有异常数据进行分类编码,并汇总异常数据一览表,方便快捷查看数据异常情况,迅速定位异常数据位置和类型。

图片

异常数据识别结果查看与手动标记

(4)步骤3:对异常识别结果进行人工检验,既支持人工手动标记程序未识别异常,也支持手动取消程序标记的异常。在数据曲线中对异常数据段进行框选即可手动标记异常数据,可视化与交互式设计进一步提高数据管理效率。

四、总结

数据质量评估是监测数据后续分析与应用的必要前置环节,应综合评估数据的有效性、代表性和可用性,结合科学系统的方案设计、可靠耐用的设备选型,以及异常数据的识别筛选,保障监测数据质量,提高基于数据得到的结论的可靠性。清环团队拥有丰富的监测方案设计经验,具有自主研发的THWater系列监测仪表,并且开发了一套高效的数据质量管理工具,为监测数据质量保驾护航。

图片

智慧排水之乱弹合集 · 目录
上一篇识别关键监测点避免分区结论陷阱—智慧排水之乱弹(136)


support@thuwater.com
————————————————————————————————————————————————————————————————————————————————————————
联系电话:010-86463977
北京市海淀区农大南路1号硅谷亮城4号楼2层清环智慧