时间序列相似性问题研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kakingka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列相似性问题是时间序列挖掘中的一个重要而基础的问题,为其他的挖掘手段提供必要的技术支持和手段,也经常作为其他挖掘问题的一个子程序,自从提出以来一直是一个备受关注的研究热点问题。围绕静态时间序列比较、动态时间序列匹配等方面,开展了六方面的研究工作:时间序列建模、静态时间序列的相似比较、动态时间序列的相似匹配、时间序列相似比较的提前终止和效率估算、相似序列的排序以及相似序列搜索原型系统的研究。为改变当前时间序列建模表示方法缺少时间特征的现状,通过分析逐段聚集平均(Piecewise Aggregate Approximation, PAA)表示方法,提炼出时间序列的时间特性,对于较近时间段的数据具有较高的参考价值,而较远时间段内的数据则具有较低的参考价值。改造PAA表示方法,得到逆向逐段聚集平均(Reversed Piecewise Aggregate Approximation, RPAA)表示方法,对不同的分段引入不同的影响因子,证明了基于RPAA方法的距离下界于Euclidean距离,保证在时间序列相似搜索中不会发生漏查。实验结果表明,RPAA较PAA在相似搜索中具有较小的错差率。将自适应逐段常量近似(Adaptive Piecewise Constant Approximation, APCA)表示方法扩展到动态时间序列的分段中,得到自适应逐段常量近似(Adaptive Piecewise Constant Approximation on Stream, APCAS)。APCAS能够在线性时间内完成在线时间序列流的分段,比APCA具有更少的内存消耗和更短的分段时间。当前的动态时间序列弯曲距离(Dynamic Time Warping, DTW)下界函数,要么采用序列间的较少特征而与实际的DTW具有较大差异,要么不具备对称特性而限制了下界函数的应用范围。在分析DTW下界函数特性的基础上,给出了一种DTW下界函数LB_HUST,证明了LB_HUST具有对称性和下界性。将LB_HUST扩展到时间序列集合的距离计算中,证明了LB_HUST在时间序列集合计算中的性质。实验结果表明,LB_HUST不仅是时间序列基于DTW计算的一种紧密而对称的下界函数,而且在时间序列聚类中能够取得较好效果。为改变当前时间序列流匹配中多是采用单一的相似比较手段的现状,给出一种支持多种比较方法的时间序列流匹配模型框架Multi-TSource,将比较方法和其他的时间序列流处理手段分离。在Multi-TSource的基础上,分别重点分析了基于Euclidean和DTW的比较方法,最后通过实验验证了Multi-TSource框架的可行性。结果表明,支持多种比较方法并不会使系统的效率有显著降低,通过分发机制可以使多种比较方法相互独立,为系统的动态扩展提供了保证。为提高计算的效率,将提前终止技术引入到了DTW距离的计算中,在分析DTW提前终止性质的基础上,给出DTW提前终止算法EA_DTW,用实验验证了DTW提前终止算法的效率。EA_DTW方法可以跳过冗余的DTW方格计算,经常在不需要全部计算精确DTW距离的情形下即可完成序列的DTW相似比较,从而节省计算资源。以前的提前终止技术的效率都是建立在实验验证的基础上,而缺乏理论化的工具,为此,设计了一种提前终止的效率估算方法EA_Estimate,通过对有效计算路径上溢出的估计,最终估算出最终的提前终止的效率。理论计算和实际的计算的实验对比结果表明,EA_Estimate可以确定一个大致的效率范围,帮助用户确定最终有效值。由于时间序列不具备显式的关键字,目前出现的基于关键字的排序方法不能直接应用于时间序列的排序。在对时间序列排序的问题进行定义的基础上,根据时间序列与序列集合边界的关系得出了基于时间序列边界的排序方法TS-Sort,并且在实现时实现了基于划分的改进方法,证明了改进方法与直接方法的等效性。最后通过实验对TS-Sort进行了验证。结果表明,TS-Sort不仅可以作为一项时间序列处理的工具,而且可能根据排序的结果对所处理的数据有深层次的认识。以上述研究成果为基础,设计和实现了一个时间序列相似搜索的原型系统TimeSeriesSim1.0,为时间序列相似性问题提供了统一的实验平台和扩展依据。
其他文献
合唱是一门综合性的艺术,也是一门群众性的艺术。而对现代化的未来,更需要提高民众的全面素质,增强对社会的责任感。合唱艺术发展普及的程度和深度,直接体现了一个国家和民族
“以人为本”是构建和谐社会的原则之一,是科学发展观的核心,温家宝总理明确提出要树立以人为本_的政府管理思想,并强调以人为本是实际工作中必须坚持的重要原则。改革开放以
<正>科学配置行政审批权,建立"三集中"的行政审批体制,是当前许多地方各级政府深化行政审批制度改革的重要途径。一、建立"三集中"的行政审批体制"三集中"具体是指通过改革行
20世纪末到21世纪上半叶被称为是"移民的时代"。在当今全球人口流动的大潮中,有一股我们不可忽视的"黑流",国际移民法学界把他们称为"非正规移民"。他们的身份特殊而尴尬,基
我国的资本市场经历了2001-2005年的熊市,在2006年重新步入了上升通道,并达到了前所未有的高度,投资者数量也爆发式的增长。但从2007年底以来,受到次贷危机和全球经济增速放
目的通过检测人骨髓间充质干细胞(BMSCs)及其诱导分化的软骨细胞中miRNA基因的表达谱,筛选出诱导分化前后差异表达的miRNAs,寻找可能的人BMSCs向软骨分化过程中具有调控作用
页岩气主要以游离气和吸附气形式存在于富含有机质页岩中,含气量的大小受页岩储集层压力、温度等多种因素影响。页岩吸附气量是评价页岩气资源量的关键性参数,也是评价页岩气
长期以来,对钻井液中无机离子的检测局限于氯离子滴定法,其信息量及分析速度均不能满足对地层水进行随钻分析的需要。离子色谱技术作为一项高效液相色谱分析技术,因其检测精
柴油机燃烧过程受油、气、室系统多参数的制约和影响。应用CFD技术对多参数进行优化匹配可以大幅降低成本,缩短研发周期,但关键问题是要确保仿真的置信度。为此,本文对喷雾过
情感耗竭是指个体在工作压力下表现出的一种情绪资源被过度消耗的反应状态,包括精力完全殆尽的体验状态、认识事物的负倾向和厌倦、低成就感的行为意向三个方面。基层员工进