论文部分内容阅读
随着智能电网的建设与发展,电网的各个环节都产生着体量巨大、结构复杂、复杂关联的数据,是电力大数据的主要来源。数据的价值产生于数据分析,通过对海量电力数据分析,可以在电网规划运行、资产运维管理、用户和社会服务三大领域发挥重要作用。特征提取和聚类分析是进行电力大数据分析的基础工作,是影响分析结果的关键所在,除需要业务领域知识外,还需要深厚的统计和机器学习建模背景知识。对于特征提取算法,本文对比离散小波变换和高斯混合模型两种常用方法,给出在用电行为分析采用离散小波变换的原因。对于聚类算法,本文对比了 K-Means、DBSCAN和快速密度峰值聚类算法,分析其优缺点,给出后文异常值检测和用户行为分析选择改进快速密度峰值聚类算法的原因。由于数据来源、统计口径、人员录入、异常行为等问题以及缺乏数据质量管控体系,会导致异常数据产生。异常数据包含了与系统异常情况出现的相关信息,同时,异常值的存在会影响数据的特征提取和聚类的准确性,因此异常数据有巨大的研究价值。故本文提出一种基于KNN的快速密度峰值异常值检测算法。针对快速密度峰值聚类算法用于异常值检测时未考虑数据的局部特点以及局部密度依赖于截断距离选取的不足,利用K-近邻(K-Nearest Neighbors,KNN)思想重新定义局部密度和距离,并设计判断异常值的规则,改善原始算法没有考虑数据局部特点以及依赖于截断距离的不足,实现更加准确的异常值检测。基于某省配电变压器日负荷数据的异常检测仿真实验证明了该算法的有效性。用电行为分析是电力大数据研究的重要组成部分,是负荷预测、需求侧响应、电网规划、经济运行、费率制定、能效提升等研究与工作的基础。本文在利用KNN思想改进快速密度峰值中局部密度和距离定义的基础上,针对原始算法依赖于人为识别决策图中可能的聚类中心的不足,用向外统计检验的方法实现聚类中心自动选取。利用离散小波变换的方法提取用户负荷数据多时间尺度特征,进而对不同时间尺度的负荷数据进行聚类分析,典型负荷曲线重构,从而实现用电行为分析。该分析方法在单个用户及不同行业用户的实际数据集上均得到了较好的结果。