论文部分内容阅读
近几年来,数据挖掘技术已经应用到很多研究领域中,挖掘的数据类型也越来越复杂.作为研究热点之一的时间序列数据也得到越来越广泛地关注,例如股票交易数据、医学脑电波图像、经济销售预测、手写字迹图像以及人体姿势分析等.所有这些数据都有一个共同的特征,即数据本身是顺序相关的,且都是相同时间间隔内获取的实值型数据,定义具有上述特征的数据为时间序列数据.以上可以看出,使用一般的数据挖掘方法从时间序列数据中进行知识学习是不适用的,并且随着大数据理论的不断发展以及数据特征的不断更新变化,希望能够增量式地处理数据以减小时间序列数据的处理时间以及对存储空间的需求.本文基于时间序列数据维度高、实值有序、数据间存在自相关性等特点,对时间序列分类过程进行了研究.论文综述了时间序列数据的预处理过程、数据表示技术、相似性度量方法以及时间序列分类现状等几个方面的内容.总结了当前比较流行的时间序列分类方法的研究现状,其中值得一提的是基于shapelet决策树的时间序列分类以及基于shapelets转化的时间序列分类.继而,本文重点研究了基于增量式的时间序列分类算法.首先,从图像处理的角度出发,提出了一种将图片信息转化为时间序列数据的方法——ITTS方法.正如植物图片信息、手写字迹、人体姿势等图像信息,肉眼直观获取到的信息不能直接应用到时间序列分类方法中,那么本文提出的ITTS方法能够从图像中获取所需要的时间序列数据.其次,提出了一种基于增量式决策树的时间序列分类算法一—ISDTC算法.传统的时间序列分类算法只能处理静态数据集,本文在此基础上提出的算法能够增量式地处理数据集,其中ISDTC算法是基于增量式决策树的时间序列分类过程.实验表明,本文提出的ISDTC算法最终构建的决策树与使用静态数据集构建的决策树非常相似.最后,提出了一种基于动态发现shapelets的增量式时间序列分类算法——IPST算法.shapelets作为最能够表示一条时间序列的子序列,随着时间的推移,这个特征序列可能会动态发生变化.基于这样的思想,本文提出的IPST算法能够较好地动态发现当前最优的k个shapelets,从而提高时间序列分类的准确度.