论文部分内容阅读
时间序列是在时间轴上描述的事物某种特征的变化趋势。时间序列无处不在,存在于许多领域,但时间序列本身复杂、高维、数据存在噪声等,因此研究如何对其进行数据挖掘具有重要意义。本文以时间序列为研究对象,针对其数据量较大,不利于后续处理的问题,在此研究时间序列近似表示方法。时间序列近似表示中的分段表示由于其简单直观、支持时间序列的相似性搜索而应用较广,在此对时间序列分段表示进行进一步研究。同时,由于分段表示的时间序列在聚类时与其他类型的数据形式差别较大,因此,在分段表示的基础上,研究如何对分段时间序列数据进行有效聚类。本文首先对时间序列背景意义及研究现状做了总体介绍。其次,对时间序列近似表示及聚类分析的理论基础做了总结概括,并提炼出本文需要进一步研究的问题,提出一种基于关键点的高阶多项式时间序列近似表示方法(A High-order Polynomial Approximate Representation Method Based on Key Points for Time Series,KPPR)。算法主要思路分为两大部分:(1)寻找序列关键点:局部最值点及满足条件的极值点;(2)高阶多项式表示的理论依据和数学推导。最后仿真验证表明:该近似表示方法能在不同压缩率的情况下保证良好的趋势提取效果,通过算法对比,KPPR在保证压缩率的同时有效减小拟合误差,提高时间序列近似表示拟合精度。其次,聚类在识别数据对象的内在关系上意义较大,然而聚类算法大多是对离散数据集的类簇形状进行聚类,对以分段时间序列为聚类对象研究较少。因此,本文研究对KPPR算法得到的结果集进行层次聚类,提出一种基于DTW距离度量的层次聚类算法(An Modified Hierarchical Clustering Algorithm Based on DTW Distance measurement,DTWMHC)。算法总体思路分为两大部分:(1)距离度量方式的改进:用更适用于度量时间序列相似性的DTW代替欧氏距离进行距离度量;(2)算法效率的改进:层次聚类算法复杂度较高,不利于处理大规模序列,本文对层次聚类距离矩阵更新方式进行改进,减小运算量。最后进行仿真验证,证明该算法聚类有效性较高,同时,降低了算法运行时间。