论文部分内容阅读
城市供水管网的漏损问题一直是人们关注的热点,独立计量区域(DMA)作为一种控制管网漏损的有效措施,近年来在我国被广泛使用。随着DMA的建立,分区计量管理系统的完善,所能获得的DMA数据越来越多,但是实际被利用的数据却很少,因此对DMA中的数据进行数据挖掘是有必要的。为了合理利用从DMA中获得的大量数据,发现用水规律、对供水管网进行科学合理的管理决策,本文使用数据挖掘的方法对DMA的流量进行漏损分析。
本文以用水规律为切入点,使用聚类分析方法来进行漏损检测。在进行聚类分析之前,对数据进行了可视化以便于直观了解整体的流量数据,确定数据预处理的步骤。在数据的预处理过程中,首先进行了数据降维,判断异常数据并进行删除,然后对正常数据进行数据清洗与数据规约,将缺失数据进行插补,将1min瞬时流量数据转化为15min平均流量数据。随后使用15min平均流量数据进行数据挖掘算法模型的构建。在模型构建中,采用了k-means算法进行历史窗口大小的选取。对比了聚类算法中的X-means算法和OPTICS算法在漏损检测过程中的稳定性。在进行检测漏损的过程中,为了减少误报,在检测出漏损后,通过微调邻域半径、判断特殊日期、分析历史窗口日期间隔等方法进行检验。随后使用正确率、真正率和负正率的指标进行OPTCIS算法检测漏损的性能评估。在所建立的数据挖掘算法模型基础上,对CM、BS、BYT、BDS、YT、YLY这6个规模不同的区域进行新增漏损分析。由于算法不容易检测到存量漏损,所以最后进行了存量漏损的分析。
结果发现工作日与节假日合适的历史窗口大小不同。OPTICS算法在检测漏损方面要优于X-means算法,最终选择了OPTICS算法进行漏损的检测。同时,漏损检测后进行误报的验证能改善算法的性能。新增漏损分析结果表明能检测出的最小漏损与区域规模无关而与区域内各时刻用水的标准偏差有关。存量漏损的分析结果表明YT区域的夜间小流量明显偏高,区域具有存量漏损。同时,在进行数据预处理的过程中发现,春节的正常用水数据易被归为异常数据,进而发现大年三十用水的特殊性。
本文以用水规律为切入点,使用聚类分析方法来进行漏损检测。在进行聚类分析之前,对数据进行了可视化以便于直观了解整体的流量数据,确定数据预处理的步骤。在数据的预处理过程中,首先进行了数据降维,判断异常数据并进行删除,然后对正常数据进行数据清洗与数据规约,将缺失数据进行插补,将1min瞬时流量数据转化为15min平均流量数据。随后使用15min平均流量数据进行数据挖掘算法模型的构建。在模型构建中,采用了k-means算法进行历史窗口大小的选取。对比了聚类算法中的X-means算法和OPTICS算法在漏损检测过程中的稳定性。在进行检测漏损的过程中,为了减少误报,在检测出漏损后,通过微调邻域半径、判断特殊日期、分析历史窗口日期间隔等方法进行检验。随后使用正确率、真正率和负正率的指标进行OPTCIS算法检测漏损的性能评估。在所建立的数据挖掘算法模型基础上,对CM、BS、BYT、BDS、YT、YLY这6个规模不同的区域进行新增漏损分析。由于算法不容易检测到存量漏损,所以最后进行了存量漏损的分析。
结果发现工作日与节假日合适的历史窗口大小不同。OPTICS算法在检测漏损方面要优于X-means算法,最终选择了OPTICS算法进行漏损的检测。同时,漏损检测后进行误报的验证能改善算法的性能。新增漏损分析结果表明能检测出的最小漏损与区域规模无关而与区域内各时刻用水的标准偏差有关。存量漏损的分析结果表明YT区域的夜间小流量明显偏高,区域具有存量漏损。同时,在进行数据预处理的过程中发现,春节的正常用水数据易被归为异常数据,进而发现大年三十用水的特殊性。