论文部分内容阅读
随着信息技术的飞速发展,人们搜集数据的能力大幅度提高,为了解决由此带来的“数据丰富,信息贫乏”的问题,数据挖掘技术应运而生。作为数据挖掘的重要研究课题之一,时间序列的挖掘与预测近几年发展迅速。由于数据描述的特殊性,如何把传统的数据挖掘技术应用于时间序列的挖掘与预测中更加受到国内外学者的广泛关注。本文在国内外时间序列数据挖掘最新研究的基础上,对时间序列的表示和度量、时间序列分析、时间序列的分段、相似性搜索等方面进行了研究,提出了时间序列分段的改进算法和时间序列相似性搜索的改进算法,并把时间序列数据挖掘应用到股票趋势预测分析中。本文完成的工作有:①分析了时间序列分析技术的方法和特点,剖析了如何选择时间序列模型。研究了时间序列数据挖掘的应用。②分析了时间序列的变换和表示,并且对这些方法进行了综合比较。剖析了时间序列的相似性度量及其特点。研究了时间序列的分段线性化表示,对分段算法进行了分析。结合滑动窗口算法和聚类分析,提出了一种基于聚类的误差修正滑动分段算法,提高了分段的精确性。采用金融数据进行仿真实验,并对结果进行效果分析。③研究时间序列的相似性搜索问题,分析了时间序列数据的相关索引技术及其特点。在基于重要点分段的基础上,剖析了时间序列的KL表示法。针对金融数据的特殊性,提出了结合利用移动均值索引时间序列的相似性搜索方法,用来解决子序列匹配中的“ε-查询”问题,该方法可以比较快速淘汰大部分不符合条件的候选对象,大大缩小了搜索的范围,实验结果表明该方法具有良好的查询性能。④分析比较了以往的时间序列分析系统和工具的功能特点后,开发了一个时间序列数据挖掘原型系统,并把该原型系统应用到股市预测分析中,实验结果表明了该原型系统设计的合理性和可用性。