论文部分内容阅读
时间序列数据广泛存在于金融、工业、医疗、交通、气象等各个应用领域,为了实现针对该类数据的应用目标,学术界提出了许多时间序列数据分析和挖掘方法,如相似性查询、聚类、分类、预测、异常检测、关联规则挖掘等。其中,相似性查询是许多分析和挖掘方法的基础,在研究领域具有重要的地位。 时间序列相似性查询在过去二十年间得到了广泛的研究。随着大数据时代的来临,过去提出的相似性查询方法正面临着严峻的挑战。同时,日新月异的信息技术催生了许多崭新的应用场景,使得过去的方法难以满足如今种类繁多的应用需求,因此,对时间序列相似性查询的研究仍然具有较大的理论价值。本文针对时间序列相似性查询的若干关键问题,如数据表示、相似性度量、子序列相似性查询、数据流子序列匹配等,获得了如下创造性的研究成果: 1、提出了一种时间序列分段统计特征表示方法,以及相应的分段近似动态时间弯曲距离,可抽取时间序列较充分的局部信息用于高效高精度的动态时间弯曲度量。另外,还提出一种数据自适应的分段方法,以扩展上述度量方法的领域适用性。 2、提出了一种基于切比雪夫因式分解的分段数据表示方法,以及相应的分段近似动态时间弯曲距离,可抽取时间序列的局部波动信息用于相似性度量,在某些应用领域实现了较高的度量精度。同时,提出了一种基于分段近似动态时间弯曲的数据流子序列匹配方法,可支持分段动态时间弯曲距离在高速动态数据流上的增量式计算,实现了较高的子序列匹配效率。 3、提出了一种基于分段近似动态时间弯曲的子序列相似性查询模型,可支持对任意长子序列的索引和查询,并且在完备查询的基础上,实现了较高的查询效率。