论文部分内容阅读
时间序列数据是普遍存在的,对时间序列进行聚类分析的研究可以获得大量时间序列数据中隐藏的与时间有关的有价值的信息,达到知识的获取,进而进行在知识指导下的活动。但是,实际生活中时间序列数据量非常大,因此,在时间序列聚类分析之前需要对其进行维度约减。本文的主要工作为:(1)给出了一种带权值的矩阵相似性度量方法。多元时间序列用奇异值分解方法获得特征矩阵和奇异值向量,分别作为矩阵和权值。哈达玛变换后的特征矩阵和其相关系数矩阵的特征值分别作为矩阵和权值。(2)给出了一种基于EMD和SVD的多元时间序列聚类分析方法。对原始数据进行补缺值以及规范化后,先利用EMD实现多元时间序列的趋势提取,对序列进行平滑处理,然后利用SVD进行多元时间序列长度降维,最后对原多元时间序列的特征矩阵和相应的权值进行改进的K-means算法聚类分析。(3)给出了一种基于哈达玛变换的多元时间序列聚类分析方法。对原始数据进行补缺值以及规范化后,先利用哈达玛变换实现多元时间序列的降维,同时利用小波变换也进行序列降维。然后求出不同长度的特征矩阵所对应的权值,最后对于预处理后的数据进行改进的K-means算法聚类分析。本文主要介绍了基于EMD和SVD的多元时间序列聚类方法和基于哈达玛变换的多元时间序列聚类方法。这两种方法各有其优点:第一种方法,首先,对时间序列进行EMD分解,提取时间序列的趋势。由于EMD可对时间序列中的噪音进行过滤,产生的趋势序列能够准确反映原序列的趋势走向,使得序列可以变得更加清晰,而信息丢失相对较少,所以在趋势序列的基础上进行降维,进而提高聚类效果。其次,对趋势序列进行SVD分解,可以将长度不同的序列统一到同一尺度。通常情况下时间序列大都不等长,通过SVD特征提取后序列特征的维数只与参数有关,而与序列的长度无关。这使得不等长的序列的聚类成为可能;第二种方法,首先,通过哈达玛变换进行序列降维。因为哈达玛变换后序列数据能量集中性比较高,它可以用很短的数据表示原始序列且保持原始序列的趋势变换形态。在此序列降维的基础上进行聚类分析,能很大程度上提高聚类所需时间和聚类准确度。通过实验证明,这两种聚类方法都实现了多元时间序列的有效聚类,并对两种平行的聚类算法进行了分析比较。