一种IDTW相似性度量算法及时序层次聚类应用

来源 :杭州电子科技大学 | 被引量 : 1次 | 上传用户:heatsink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据和云计算的出现,时序数据成为最普遍的数据形式。时序聚类是一种主流的数据挖掘技术,根据对象是时序数据集还是单条长时序数据,可以获得不同的聚类结果。其中,时序聚类的关键问题是如何更好计算时序之间的相似性。已有文献对相似性度量存在大量改进或是将大量的聚类方法应用到时序数据中,但是未曾指出导致相似性度量效果差的原因以及无法利用相似性进行合理聚类,导致聚类效果并不理想。因此本文提出了一种改进的动态时间规整(IDTW)算法和在IDTW相似性下的层次凝聚聚类方法(IDTW-HAC),并将此聚类方法运用于光伏微电网的多变量时序数据中实现了工况的有效判别。本文的一系列实验证明了:IDTW相似性度量算法的有效性、IDTW-HAC方法的优越性以及将IDTW-HAC方法运用在光伏微电网的多变量时序数据上可以更准确地判别出运行工况从而达到故障诊断的目的。本文的主要工作以及创新点如下:1.针对时序数据之间相似性的计算问题,重点分析了动态时间规整算法(Dynamic Time Warping,DTW)算法的“多点匹配”现象带来的精度丢失问题,提出了一种改进的DTW算法(IDTW)并给出了算法的具体流程。在14组公开的UCR时间序列数据集上进行最近邻分类实验,实验结果表明IDTW在与ED、DTW、CDTW和ACDTW四种相似性度量算法的比较中具有更高的分类准确率,在一定程度上解决了“多点匹配”带来的精度丢失问题。2.针对许多聚类方法无法与相似性矩阵结合的问题,提出了一种面向时序相似性的层次凝聚聚类方法并给出了IDTW-HAC方法的详细流程。实验选取了6组公开的UCR时序数据集,选用了K-means、HAC、DTW-HAC、CDTW-HAC和IDTW-HAC五种方法进行全时间序列聚类实验。最终结果表明在最优参数下,IDTW-HAC方法取得最佳的聚类效果,在所有评价指标下均能得到最大值。3.针对光伏时序数据的故障诊断存在的问题,提出了一种IDTW相似性下的子序列层次凝聚聚类(SHAC)方法,并给出了子序列的获取、子序列的聚类、子序列中样本点的决策等步骤的详细流程。实验将对光伏微电网设备的多变量时序数据进行工况判别,实验分为两部分:一部分为将光伏微网的多变量时序数据作为静态多维数据直接进行多种聚类方法进行分析;另一部分为在不同相似性度量下的子序列层次凝聚聚类算法的对比。最终结果表明,IDTW-SHAC方法的聚类结果在一系列评价指标上均取得最大值,形成的类簇更接近真实工况,能够更好地判别出运行工况来进行合理的故障诊断。
其他文献
超快光纤激光器能够在辐射皮秒或飞秒超短脉冲的同时获得完美的光束质量,已经应用于医疗、工业、通信等大市场领域。目前商用化的超快光纤激光器以Er3+、Yb3+、Tm3+等稀土离子为增益介质,辐射波长集中在1μm、1.5μm以及2μm波段。正因为稀土离子的辐射波长较为固定、拓展困难,导致了现有超快光纤激光器对于辐射1.7μm等特需波长无能为力。半导体纳米晶体(量子点)的出现是一个理想的解决方案,量子点的
学位
动态照明光源是一种能够模拟不同光谱与光辐照输出的装置,其被广泛应用于光电器件特性测试、大型建筑的装饰照明与色彩渲染、植物需光性研究、材料老化实验、虚拟场景、光学医疗等场景中。相比于传统动态照明所采用的卤素灯、氙灯光源,LED具有光谱窄、种类多、寿命长、可调范围广、可进行数字化控制的特点,采用多种类多数量LED组成的大功率LED动态照明光源在新动态照明光源研究中拥有极大的优势与潜力。大功率LED阵列
学位
基于表面等离子体共振成像(SPRI)的传感检测是一种重要的分子间作用检测方法,由于具备无标记、高灵敏、实时性和无损伤检测的优点,而被广泛应用于核酸检测,药物筛选,食品安全和环境监测等领域。然而,将SPRI的分子传感能力转化为实际的临床检测一直存在较大困难,其中一个主要原因是数据分析非常耗时且费力。基于此现状,本文提出并设计了一种基于深度学习的全自动纳米颗粒分析平台,这将极大地促进SPRI传感检测平
学位
水稻纹枯病与稻瘟病作为水稻生产中大范围流行的病害,造成了全球水稻大规模减产。区域尺度内水稻预测模型的建立能够为病害防控管理提供重要依据,但目前多数病害预测方法基于统计关系建立,且缺乏对大范围业务化运行的能力。作物病害预测模型研究总体上呈现出由静态至动态,从局地到整体的发展趋势,本研究充分利用多源遥感数据在病害流行影响因素监测方面的能力和优势,研究寄主分布、生育期、景观格局以及病害环境等因素遥感监测
学位
混合效应模型常被应用于商业、金融、经济、医学、工业、社会科学等领域。模型中既包含固定效应又包含随机效应,常被用来处理各种复杂数据。现有关于此类模型的研究通常在随机效应和误差项均服从正态分布的假定下进行。然而,实际数据往往呈现出非对称偏正态分布特征。若继续使用正态分布假定对混合效应模型进行统计推断,则会出现较大偏差,甚至产生误导性结论。鉴于此,本文在偏正态分布假设下对混合效应模型的统计推断理论进行研
学位
随着健康风险意识的增强,人们越来越重视污染物暴露人群的职业暴露评估。现有关于平均暴露水平的研究方法往往局限于正态总体和单向分类随机效应模型,并假定模型的随机效应和误差项均服从正态分布,但实际暴露数据更常见地呈现出非对称的偏态分布特征。若仍基于正态分布进行统计建模,易导致统计估计和推断缺乏稳健性。鉴于此,为降低职业暴露风险、保护工人的生命健康安全,本文将研究方法从正态总体拓展至偏正态单向分类随机效应
学位
随着高分辨传感器技术的飞速发展,扩展目标跟踪技术在边海防监控、海事监测、自动驾驶等民用与军工领域得到了越来越广泛的应用。其中,基于高斯过程的扩展目标跟踪算法凭借其能够准确估计星凸形目标轮廓及运动状态的能力而广受关注。传统的基于高斯过程的扩展目标跟踪算法通常假设高斯过程中的测试输入为精确值。然而在实际应用中,由于传感器受自身性能以及天气等外部因素的影响,这一假设通常很难满足。针对这个问题,本文对高斯
学位
舌诊是中医学望闻问切中的望诊的重要组成部分,舌象中的齿痕特征是指舌体的边缘能够看见牙齿的痕迹。齿痕舌是对脾气虚证进行诊断的重要客观指标,对这一指标进行识别能够促进中医对症状的分化和治疗选择。因此,部分研究人员尝试将舌体从舌图像中精细化地分割出来,以此服务于后续的中医舌诊的自动识别研究。然而,齿痕舌图像的分割极具挑战性。齿痕可被分为轻度、中度与重度,不同的齿痕程度对应于不同的脾虚以及湿重的程度,体现
学位
创新经济学认为,创新是推动经济可持续增长的最终手段,随着研究视角从古典经济学逐渐转变到创新经济学,企业技术创新活动及其形成机制得到越来越多的关注。技术、环境和地理空间复杂性的日益增强使得企业已无法单独应对技术快速进步和环境多样性变化的挑战,需要跨越企业边界与其它的主体进行合作,即开放式创新。在互联网时代,开放式创新的重要表现形式之一为互联网开放式创新社区。互联网开放式创新社区中,用户为产品的改进和
学位
微生物检测在食品安全,环境卫生以及抗生素耐药性检测领域具有重要作用。应用于抗生素检测的微生物检测是通过检测抗生素浓度作用于标准菌液的增殖情况,间接评估抗生素作用效果,还可放大微剂量微梯度下的抗生素抑菌效果,适用于长期低阈值水平下抑菌效果的跟踪评估和分析。基于不同的发生机制,微生物的检测方法多种多样,但目前还没有同时满足快速检测和现场检测的传感器,对于大批量样本检测也存在弊端。因此,本文以大肠杆菌为
学位