论文部分内容阅读
数据挖掘简单而言就是从大量数据中提取知识的过程。其中针对时间数据库、空间数据库、多媒体数据库等等面向特殊应用的数据库系统的挖掘研究成为数据挖掘领域新的焦点问题。而在这其中时间序列数据挖掘是面向特殊应用数据挖掘领域中比较复杂的一个分支,主要研究从大量时间序列历史数据中挖掘有价值信息的方法和相关技术。 在时间序列数据挖掘中有一类挖掘是把时间序列数据中相似规律发掘出来,这类挖掘就是相似模式的挖掘。这类挖掘有很广泛的应用空间、很大的研究价值。 本文研究工作主要包括以下几方面: 第一,小波变换用于时间序列数据约简。针对小波变换进行了深入研究后,利用Haar小波对时间序列数据进行约简。具体采用的方法是将原始数据沿尺度递减的方向依次与低通滤波器和高通滤波器进行卷积运算,经隔点抽样将数据逐级分为低频部分和高频部分,忽略高频部分,用最后得到的低频部分粗略代替原始数据。并对经Haar小波约简前后的数据进行了比较分析。 第二,对时间序列相似模式挖掘进行了研究。本文从相似度量、存储结构和查找的完备性三个方面对时间序列相似模式挖掘问题进行了研究。本文在相似度量方法上主要研究改进的欧几里德距离公式,另外在子序列匹配中采用了滑动窗口技术,在存储结构上采用了最小边界矩形(MBR)的存储思想。本文的相似性搜索问题在指定查询序列搜索、匹配序列对搜索和最近邻搜索三种情况下都得到了实现。 第三,对气象数据进行预测。本文所采用的预测原理是根据相似搜索得到的相似模式进行预测,是时间序列数据相似性搜索的一个应用。本文数据源是气象数据,主要针对暴雨、寒潮等五种较恶劣天气现象进行了预测。 第四,针对利用Haar小波进行时间序列数据约简是否对相似搜索问题带来了效率的提高以及效率提高的程度这个问题进行了详细分析。 最后,将上述时间序列数据相似性搜索和预测理论应用在气象数据上,从实验结果进一步证明了这一理论确实是时间序列数据相似模式挖掘的好方法。