论文部分内容阅读
时间序列数据挖掘作为数据挖掘的重要分支,其挖掘的对象是特定的,即为时间序列。不同于传统的静态数据,时间序列是一种复杂的数据对象,描述事物的变化过程。而时间序列是无处不在的,如股票价格数据、图像数据和文本数据等都可以看作为时间序列。作为数据挖掘的一个分支,时间序列数据挖掘研究主要有以下几个方面:时间序列相似性搜索、时间序列聚类、时间序列分类、时间序列分割与模式发现、海量时间序列可视化和时间序列预测等。本文探讨一种特定的时间序列聚类,即基于特征的时间序列聚类。本文首先对时间序列挖掘、时间序列聚类以及基于特征的时间序列聚类做了一个总体的介绍;其次,对时间序列的特征和时间序列的相似性度量作了一个总体的概述;然后,根据已有的算法,提出一种改进的基于关键点提取压缩维度的时间序列模糊聚类算法newFCM (new fuzzy C-means),以及在newFCM算法基础上的时间序列动态聚类算法Dyn-Clustering。newFCM算法通过提取时间序列中的波峰、波谷或转折点作为时间序列的关键点构成关键点序列来表征原来的时间序列,以达到降维和去除噪声的目的,同时采用兰氏距离克服算法对奇异值敏感的缺点,并调整兰氏距离,使其更准确地度量我们的关键点序列间的相似度。更进一步,引入基于基本统计特征的相似度度量,来克服算法不能发现平移或拉伸的时间序列的相似性的缺点。本文进一步介绍了聚类效果度量标准,并利用这些度量标准从多方面对所提改进算法进行实验评估。首先,对newFCM算法进行了参数评测实验;然后,与传统的FCM算法和K-means算法作对比,进行性能对比实验;最后,利用newFCM和Dyn-Clustering对20只国内商品期货的价格和成交量序列进行实际应用分析。实验表明,用newFCM算法对时间序列进行聚类,聚类效果良好,效率更高。在实际应用中,用newFCM算法对时间序列进行聚类,对于类别不是很明显的时间序列,Dyn-Clustering算法能够根据不同的时间段将其聚类到不同类别中,实现对时间序列的动态聚类,由此帮助人们进一步理解时间序列的动态演化性质,准确有效地把握其结构特征。特别的,对于金融时间序列,通过对时间序列动态聚类,可以有效动态的把握时间序列的趋势变化,以达到对时间序列趋势变化预测的目的。