论文部分内容阅读
在大多数科学领域,数据的测量是随着时间的推移而进行的,这些观察结果使得人们收集到一系列有序的数据,称为时间序列,时间序列分类是时间序列数据挖掘中一项重要的研究内容。而随着传感器等硬件成本的降低,人们往往收集同一事物的不同参数进行分析,这就产生了多维时间序列。近几年,时间序列shapelets引起了广泛关注,它通过识别时序数据局部特征达到时间序列准确分类的目的。而大多数对于shapelets的研究都是针对于一维时间序列,利用shapelets对多维时间序列分类的研究却少之又少。而在使用shapelets的一维时序数据分类方法研究中,对于带有趋势变化的时间序列,采用典型的时间序列表示方法进行shapelets发现,容易造成序列中趋势信息的丢失。首先,针对时间序列趋势信息丢失的问题,本文提出了一种基于趋势特征表示的shapelets分类方法(Trend-based Diversified Top-k Shapelets,简称TDTS),算法通过对时间序列进行趋势特征符号化,能够在保留时序数据趋势性的同时保证序列的分类效果以及shapelets发现的效率。实验显示,与传统分类算法相比,所提方法在11个数据集上的分类准确率均有提升;与Fast Shapelet算法相比,提升了运行效率,缩短了算法的运行时间,并在趋势信息明显的数据上效果显著。其次,针对shapelets这一概念在多维时间序列分类中的研究较少这一问题,本文提出了一种基于TDTS的多维时间序列分类方法。算法使用集成学习中bagging的思想,通过增强个体学习器的多样性,提高了集成学习的泛化性能。文章分别从与传统分类算法对比、与各单一维度的分类结果对比、与多样化topk shapelet分类方法对比和与Shapelet Ensemble算法对比这4个角度对本文算法进行了实验。实验结果表明,本文所提算法能够在保留数据趋势性的同时有效提高多维时间序列的分类效果。最后,在本文理论研究的基础上,采用模块化的开发方式设计并实现一维与多维时间序列分类的原型系统,使得系统在具有良好拓展性的同时,具有清晰展示时间序列分类结果以及程序运行时间等相关信息的功能,亦能方便验证本文所提方法的有效性。