论文部分内容阅读
多变量时间序列是一种现实世界中普遍存在且具有重要意义的数据类型,用多变量时间序列对事物进行描述,可以更加全面完整地反映事物自身特性,对这些序列进行研究分析,对人们深入认识事物并发现其内在规律提供了可靠的途径。目前,多变量时间序列及其数据挖掘已经受到了多方越来越多的关注。然而,多变量时间序列由于其自身的时间特性、高维特性及变量之间的相关性给挖掘带来了困难。当输入变量的维数增加到一定程度时,会导致模型的预测精度大幅降低,从而产生“维数灾难”。数据本身存在着无关和冗余变量的影响,如果不加处理地对所有变量直接计算,计算效率将会非常低下,更严重地还会对模型的预测效果造成负面影响。数据挖掘任务离不开样本之间的相似度计算,相似性度量方法的选择直接影响到挖掘任务的准确性和可行性。已有多变量时间序列的相似性度量方法的解决问题能力已经越来越难以满足人们的要求,而针对改进方法的研究还相对较少。因此,本文围绕多变量时间序列分类中的降维和相似性度量问题展开:1、对现有的针对多变量时间序列的分类问题进行了梳理总结,尤其是对其中的关键环节——数据预处理和降维、相似性度量方法——进行了详细分析,指出其中的不足,从而产生本论文的研究方向。2、针对多变量时间序列的降维问题,根据训练数据中类内类间散度,提出了一种衡量每个变量对类可分离性所做贡献的标准,从而根据此标准对变量进行排序;再根据输入变量之间互信息值的大小将冗余变量剔除,最终选择出分类性能最佳的变量子集。该方法可以选择出对分类贡献最大的那些“核心变量”,并且剔除掉冗余变量,实现多变量时间序列变量维度的降低,提高分类的效率和性能。3、针对多变量时间序列的相似性度量问题,本文改进了已有的shapelet方法,基于shapelet非相似的特性,提出了一种快速查找多个shapelets的方法。根据子序列间距离整体分布设置一个距离阈值,以此过滤掉候选集中的相似子序列。再使用类可分离性作为过滤后的候选子序列的评价标准,最终选择出性能最好的多个shapelets。通过在单变量时间序列数据集上的实验表明了本方法可以极大缩短查找shapelets时间,而且能保持较高的分类准确性。又将该方法扩展到多变量时间序列,对多个变量采用组合分类器的方法来提高整体分类的准确率。