基于密度峰值聚类算法的电力大数据异常值检测及用电行为分析研究

来源 :中国电力科学研究院 | 被引量 : 23次 | 上传用户:wj1982sp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能电网的建设与发展,电网的各个环节都产生着体量巨大、结构复杂、复杂关联的数据,是电力大数据的主要来源。数据的价值产生于数据分析,通过对海量电力数据分析,可以在电网规划运行、资产运维管理、用户和社会服务三大领域发挥重要作用。特征提取和聚类分析是进行电力大数据分析的基础工作,是影响分析结果的关键所在,除需要业务领域知识外,还需要深厚的统计和机器学习建模背景知识。对于特征提取算法,本文对比离散小波变换和高斯混合模型两种常用方法,给出在用电行为分析采用离散小波变换的原因。对于聚类算法,本文对比了 K-Means、DBSCAN和快速密度峰值聚类算法,分析其优缺点,给出后文异常值检测和用户行为分析选择改进快速密度峰值聚类算法的原因。由于数据来源、统计口径、人员录入、异常行为等问题以及缺乏数据质量管控体系,会导致异常数据产生。异常数据包含了与系统异常情况出现的相关信息,同时,异常值的存在会影响数据的特征提取和聚类的准确性,因此异常数据有巨大的研究价值。故本文提出一种基于KNN的快速密度峰值异常值检测算法。针对快速密度峰值聚类算法用于异常值检测时未考虑数据的局部特点以及局部密度依赖于截断距离选取的不足,利用K-近邻(K-Nearest Neighbors,KNN)思想重新定义局部密度和距离,并设计判断异常值的规则,改善原始算法没有考虑数据局部特点以及依赖于截断距离的不足,实现更加准确的异常值检测。基于某省配电变压器日负荷数据的异常检测仿真实验证明了该算法的有效性。用电行为分析是电力大数据研究的重要组成部分,是负荷预测、需求侧响应、电网规划、经济运行、费率制定、能效提升等研究与工作的基础。本文在利用KNN思想改进快速密度峰值中局部密度和距离定义的基础上,针对原始算法依赖于人为识别决策图中可能的聚类中心的不足,用向外统计检验的方法实现聚类中心自动选取。利用离散小波变换的方法提取用户负荷数据多时间尺度特征,进而对不同时间尺度的负荷数据进行聚类分析,典型负荷曲线重构,从而实现用电行为分析。该分析方法在单个用户及不同行业用户的实际数据集上均得到了较好的结果。
其他文献
目前,我国儿童龋病高发,且多为广泛及晚期龋。乳牙患龋后,不仅影响口腔功能,而且可能对颌面部生长发育产生影响,甚至造成患儿身心发育异常等。乳牙大面积龋损后,临床采用的修
目的:研究沙棘籽油中脂肪酸成分,定量分析并建立毛细管气相色谱法(CGC)测定沙棘籽油中维生素E(Vit E)含量的方法。方法:采用溶剂回流提取法提取沙棘油中挥发油成分,并用气相
高校校史馆在近三十年中国特色社会主义建设下,具有飞速的发展前景。它是一个展示窗口,不仅仅展示了本校的历史与文化,还能够更好地展示教育理念和精神面貌,同时能够为中小学
基于产品内分工发展,分析产业体系演变的内在规律,揭示不同分工形式下产业体系的特征及构成,并针对我国不同地区产业分工演进处在不同的发展阶段,产业体系发展程度差异较大的
基于MATLAB绘制多个不同频率简谐振动在一、二及三维坐标中合成的波形及轨迹,并据此探讨多个不同频率简谐振动合成的规律.
素养是人们自身所具有各种心理的、生理的、外部形态等方面的稳定性特点的综合,即所谓禀赋。素质教育是在先天禀赋的基础上,经过教育和训练,使受教育者形成或发挥适应社会生
目的观察白内障患者术后使用糖皮质激素后的眼压变化,探讨白内障术后糖皮质激素性高眼压与原发眼病的关系。方法随机选取术前眼压正常、老年性白内障60例(96眼)、并发糖尿病
随着课程改革的不断深入,教师都在尝试各种新的教学方式。经过几年的实践,在很多课堂教学设计与具体操作中存在许多棘手的问题,对探究式教学的开放度难以把握。本文就探究式
在课堂教学中渗透德育,是中学德育教育的主阵地。在教学中应积极渗透勇于探究、实事求是的科学精神和科学态度,渗透探究过程中交流合作、猜想——论证——评估的科学方法以及