基于相似性分析的时间序列数据挖掘算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:caoshaohua2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是指随着时间变化而形成的有序数据序列,它频繁地出现在金融、商业、科学和医疗等各个领域。如何管理和利用这些时序数据,发现隐藏在它们背后的规律和知识,成为人们日益关注的问题。   本文在国内外时间序列数据挖掘最新研究的基础上,从相似性分析出发,研究了时间序列分段线性表示和多模式匹配等问题。本文的主要工作和创新如下:   1.研究了时间序列的表示方法、相似性度量和相似性搜索,并对其主要技术做了详细介绍和优缺点分析。   2.定义了极值噪声和转折点,在此基础上提出了基于转折点的分段线性表示方法。该方法选择极值点作为候选点,并将插值误差不超过阈值的候选点识别为噪声。实验表明,该方法在多种领域的数据集上具备更小的拟合误差,且在处理大数据量时具有较高的稳定性。   3.提出了基于转折点的自适应分段线性表示方法。该方法以转折点为初始分段点,启发式地选取插值误差最大的数据点作为关键点。实验表明,在多种领域的数据集上,该方法可以大幅度地降低拟合误差。经过优化后,该方法的时间复杂度与时间序列的长度成近似线性关系。   4.提出了基于分段聚合近似的包络线下界算法。本文借助分段聚合近似的降维能力,将其引入包络线下界算法,同时证明了下界定理,保证不会引起漏报。经过理论分析,当阈值r选择合适时,该算法的性能较经典算法和包络线下界算法有较大提升,能够处理更高带宽的流式时间序列。  
其他文献
随着对业务流程管理的不断研究与发展,流程可变性已经成为研究领域的一个重点。业务流程已经不仅仅是用来描述企业实际的业务流程、实现对流程的自动化处理,而是要求系统能够
中医舌诊是目前医学领域的重要前沿课题之一,随着中医舌诊客观化研究的不断深入,舌诊数字化影像在临床工作中也不断得到应用,临床上每天都会产生大量的舌像,而如何有效的检索
随着互联网上文本数据的持续暴涨式增长,文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个
物联网(Internet of Things)是一项新兴的技术,由嵌入式、计算和网络等多项信息技术融合而成。物联网具有环境异构和资源环境动态变化的特点,在这种网络环境中,各类信息服务
云计算是一种商业计算模型。相对于传统的软件架构,低成本和高效率的特点使云计算得到了迅速的发展,也促进了开源的云计算技术层出不穷。被看做是下一次科技业革命的云计算,
公路交通的飞速发展为人们的生活提供了极大的便利,但是随着汽车数量的不断增加,社会车辆侵占公交专用车道和公交站位等违章行为也越来越多,严重地影响了公共交通的效率乃至
MC13233是飞思卡尔公司将于2011年6月上市的主要面向消费类电子及智能家居的新一代传感网专用微控制器。MC13233继承了飞思卡尔公司以往的ZigBee芯片低成本、低功耗、双向传
视觉跟踪是计算机视觉领域中一个重要且基础的研究课题,其任务是给定初始帧的目标真值,利用某种算法在后续视频帧中衡量目标的状态信息。近年来,目标跟踪技术已经取得很大的突破,但是这些算法在面对复杂场景或极端条件下的鲁棒性仍有待提高,例如雾霾天气,目标遮挡,低光照等。同时随着传感器技术的成熟,传感器在目标跟踪领域得到广泛的应用。热红外传感器可以捕捉目标的温度信息,弥补可见光数据对光照条件敏感的缺点,同时可
学位
WebGIS是Internet/Intranet网络环境下的一种用于存储、分析、处理、渲染与应用地理数据信息的计算机地理信息系统,其基本思想是在互联网中提供地理信息的发布与共享,使客户