论文部分内容阅读
时间序列数据广泛存在于社会生活的各个领域,对日益激增的高维、庞杂、连续的时间序列进行有效降维处理、挖掘和利用其中有价值的信息,已成为业界、学术界的热点研究问题。时间序列符号表示方法,因具有良好的降维性能、简单高效、对噪声具有鲁棒性等特点,在时间序列数据挖掘领域得到广泛研究和应用。目前基于符号表示的时间序列分类方法虽然已经取得了丰硕的研究成果,但是在维数约减、有效提取和利用数据特征方面仍存在一些不足,因此提高时间序列符号表示分类算法的分类性能的研究成为时间序列数据挖掘领域的研究热点。本文分别针对单变量时间序列和多变量时间序列符号表示分类中的维数约减和特征提取与表示进行深入研究,主要目的是进一步提高符号化分类算法的分类性能,有效节省时间序列数据处理的存储资源和计算资源。主要研究内容如下:(1)针对大部分现有的基于符号表示的单变量时间序列分类方法都没有考虑类别的先验知识对算法分类性能的影响,提出一种基于LDA(Linear Discriminant Analysis)符号表示的单变量时间序列分类算法LDA_SC(LDA Symbolic Classification)。首先,利用LDA将原始高维时间序列数据映射到低维空间,考虑最大化类间区分度;然后利用信息增益和多重分箱技术(Multiple Coefficient Binning,MCB)将降维后数据表示成符号序列;最后,根据距离查找表计算符号序列间距离并分类。在20个数据集上的实验结果验证了LDA_SC的分类有效性。(2)针对现有的基于符号表示的单变量时间序列分类方法在对时间序列进行符号表示的过程中,没有考虑样本间的近邻关系对符号化分类的影响,提出基于OLPP(Orthogonal Locality Preserving Projection)符号表示的时间序列分类算法OLPP_SC(OLPP Symbolic Classification),该算法首先使用OLPP对原始时间序列数据进行降维,降维的同时清晰地保留了样本间的近邻关系;随后利用信息增益和MCB将降维后数据表示成符号序列;最后,根据距离查找表计算符号序列间距离并分类。在20个数据集上的实验结果表明OLPP_SC的分类准确率和降维性能显著好于已有方法,具有良好的适用性。(3)在多变量时间序列方面,目前已有方法对时间序列进行符号表示时仅考虑单个样本的特征,没有将样本间的近邻关系对分类的影响考虑在内,在降维性能方面存在欠缺,且单变量时间序列符号表示分类方法直接应用于多变量时间序列存在瓶颈。针对以上问题,首先提出基于中心序列符号表示的MTS分类算法CSC(Center sequence Symbolic Classification),在13个MTS数据集上的分类效果好于已有的基于SAX符号表示的MTS分类算法;随后,本文提出基于OLPP符号表示的MTS分类算法MOSC(MTS OLPP Symbolic Classification),该算法首先采用OLPP方法对MTS的各个变量进行维数约减,降维后数据的每个变量采用信息增益和MCB方法表示成符号序列,利用均值距离(dmean)对符号表示后的MTS样本进行分类。在13个多变量时间序列数据集上的实验结果表明,该算法的分类性能好于基于中心序列的符号表示方法和其它已有方法。