基于聚类和神经网络的异常数据识别算法研究

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:naonao19890925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的急剧膨胀,越来越多的研究者关注到异常数据检测的研究。异常数据检测已被用于各种检测异常数据场景,根据电力大数据特点,本课题研究一种可以进行无监督学习的异常检测算法,尽可能的减少人为设定干扰学习,结合聚类算法与神经网算法方法,发挥出各自的优点,方法主要应用于电力大数据异常检测场景。异常数据在很大程度上使数据的质量降低了,对应于不同的应用领域,异常数据展示了不同的特点,对于电网数据而言,数据往往符合一定的变化规律,即具有很强的时序性。采用结合密度聚类算法和长短期记忆神经网络(LSTM)的途径来寻找解决异常数据问题符合电网的运行规律,是一种很有效的检测方法。本文研究各种聚类算法,比较各算法的优缺点,并选取其中的基于密度的聚类算法(DBSCAN)及基于局部异常因子(Local Outlier Factor,LOF)算法,用于异常数据的初步识别。主要研究神经网络中的LSTM及其变体,实现其对时序相关数据的准确预测和异常数据检测。重点完成了 LSTM的训练、时序预测和设定阈值判别,介绍了电能质量异常数据识别的流程和具体做法。最后结合密度聚类算法和LSTM,提出融合算法,考虑数据的变化规律,实现异常数据的分层次准确识别。利用基于密度的聚类算法自动划分正常数据异常数据标签;再利用长短期记忆神经网络,给定判定为异常数据的时序输入,匹配最优输出神经元个数,通过一系列的数据训练和学习,修正权系数,直至训练结束。神经网络达到最佳记忆状态后,通过学习到的数据变化规律,能够有效判断出异常数据序列中的具体异常值。最后对异常检测结果进行了分析,包括所检测的电能质量数据集的分析、改进的基于密度的聚类算法的性能分析、结合的密度聚类算法和LSTM算法的性能分析,通过和传统的基于密度的聚类算法对比,验证了本文改进的融合方法在检测性能上的优势,证明改进的融合算法适合应用于电能质量异常数据识别。
其他文献
随着现代轨道交通技术的不断发展,高速列车实现高功率密度、轻量化的目标具有重要意义。现阶段轨道交通采用的单相电网供电系统,不可避免地会在牵引系统中间直流环节引起电压二次脉动。通常在直流侧并联无源LC谐振支路消除该脉动,但大大增加了牵引变流器的体积、重量。顺应现代化轨道交通发展的趋势,取消二次谐振环节一直是研究的热点。本文基于混合动力动车组项目,针对无LC谐振环节的牵引变流器展开研究,目标是使该变流器
研究背景基孔肯雅病毒(Chikungunya virus,CHIKV)属于披膜病毒科甲病毒属的虫媒病毒,其感染可引起以发热、皮疹、关节痛等为主要特征的基孔肯雅热(Chikungunya fever,CHIKF),
钛及钛合金具有密度低、接近骨的低弹性模量、耐蚀性好、生物相容性好、工艺性能好等优点,是牙种植体的主要材料。其中,纯钛做牙种植体材料时,会由于机械强度不足,发生折断;T
目的目前,有研究发现青春期高剂量的氰戊菊酯暴露会损害认知和行为的发育。然而,关于低剂量氰戊菊酯暴露对神经行为发育的损害作用及其机制研究还很少。本研究主要进一步通过
我国路桥工程业飞速发展,促进了路桥运营维护技术的快速进步。裂缝是路桥维护中普遍存在的病害,对路桥结构安全有着不可忽视的危害。早期,我国主要采取人工视觉加简单仪器的
在各种可再生的新能源中,太阳能是其中具有代表性的一种。将太阳能转化成电能的光伏发电模式目前已经在各个国家得到了广泛的推广,其无污染、可再生、运行成本低的特点使其在
背景和目的急性肝损伤(Acute liver injury,ALI)是全球流行的公共健康问题。在成人肝脏中,一种称为法尼醇X受体(FXR)的关键核受体除了在参与体内胆固醇的代谢中发挥着至关重
创面是指活体皮肤或组织的损害。它通常是由诸如手术,外力,热量,电流,化学物质,低温等外部伤害因素以及诸如局部血液供应失调等内部因素引起的。在创面修复过程中迫切需要一
森林火灾严重破坏森林生态系统结构和功能,对森林植被、土壤、更新等产生重要影响,研究火烧迹地植被恢复问题对于保护森林生态系统、发挥其功能和作用具有重要意义。油松(Pin
纳米流体沸腾过程中,纳米颗粒的沉积层对纳米流体沸腾换热具有重要影响作用。本文通过合成不同接触角的纳米颗粒,制备稳定分散的纳米流体。通过池沸腾换热实验,探究了不同接