论文部分内容阅读
随着信息技术的飞速发展,时间序列数据在我们的工作生活中广泛存在,如股票价格、水文数据、商品销售、气象数据等,同时它们呈现出爆炸式增长。针对这些海量历史时序数据,如何利用新的技术方法,将其转化为可靠的知识信息,提高人类对未来的预测能力以及对未来事件的提前控制能力,一直受到人们的密切关注。时间序列数据挖掘旨在从这些海量数据中找出对用户决策有价值的信息,现已成为数据挖掘中一个重要的研究方向。由于时间序列部分周期模式挖掘在应用中更为常见,更有研究价值和意义,成为时间序列数据挖掘的研究热点之一,因此,本文选择它作为主要研究对象。本文首先概述了时间序列数据挖掘及其研究现状,对现有的几种时间序列部分周期模式挖掘算法进行了详细的研究。目前,大部分时间序列部分周期模式挖掘算法都是在给定周期的前提下进行的,这样必将会使一些有潜在价值的周期模式不能被挖掘。针对这个缺陷,本文结合时间序列二进制编码,提出了基于权重的POS(时间序列中事件发生位置)求解算法,接着又推导了周期阈值公式,利用潜在周期发现算法找到时间序列中有意义的周期。其次,本文分析了最大子模式命中算法和层次链式图算法,相对于类Apriori算法,它们在部分周期模式挖掘的效率上有了明显改进,但仍需要对时间序列数据库扫描2次,并且它们都要进行模式频繁计数的统计等工作。针对此不足,本文创新性地将概念格引入到时间序列部分周期模式挖掘中,提出了基于概念格的时间序列部分周期模式挖掘算法,它不仅能够将对数据库的扫描次数降为1次,在概念格的Hasse图中可以直接读取模式频繁计数来确定频繁模式,而且还可以将增量算法和挖掘算法结合为一体。最后,通过仿真实验验证了基于概念格的部分周期模式挖掘算法的有效性。