论文部分内容阅读
随着计算机技术及其应用的广泛普及和超大容量存储技术的发展,人们在各行各业的应用和科学研究中,积累的数据则呈现爆炸式增长。这些海量数据背后隐藏着具有大量的重要价值的参考信息。如何充分利用这些海量数据,从中挖掘出更有价值需要的信息是目前数据挖掘领域广泛研究的热点问题。时间序列数据具有空间或者时间顺序的特征,通过时间序列数据挖掘,可以获得与时间或空间密切相关的有用信息,实现对相关知识的提取。由于时间序列数据具有噪声干扰、信号波动和高维性且数据类型复杂多样等特点,同时也是数据挖掘的重要研究方向和研究热点之一,所以对时间序列数据挖掘的深入研究是非常具有挑战性和必要性。时间序列数据挖掘的研究内容有许多,重点包括时间序列的相似性查询、时间序列的异常检测、时间序列的模式表示、时间序列的关联规则、时间序列的分类和聚类、时间序列的趋势分段,以及对时间序列数据挖掘框架的研究等等。本文在分析国内外时间序列数据挖掘的研究发展和实际应用需求基础上,以生物医学领域中颅内压、动脉血压等相关时间序列数据的分析处理为实际应用背景,对时间序列数据挖掘中的时间序列数据挖掘框架、异常检测、趋势分段、挖掘框架中映射函数等四个方面的问题进行了分析和研究,提出了一些算法和解决方案,并取得部分成果。所做的主要工作和创新点体现在以下几个方面:1)时间序列数据挖掘框架研究时间序列数据挖掘框架是时间序列数据挖掘研究的一个应用热点:如何设计一个时间序列数据挖掘框架,利用已知的时间序列、相关的理论和技术来对未知的时间序列做出准确的估计是当前应用研究的重点。本文给出一种时间序列数据挖掘框架,建立知识学习模型,能够通过数据的选取、特征向量的提取、模型辨识等技术对相关的时间序列进行训练,然后对目标时间序列进行估计。实验结果证明:该数据挖掘框架能够利用相关时间序列对目标时间序列进行较好地估计。2)时间序列数据挖掘的异常检测研究研究时间序列数据的异常检测是热点问题:如何设计相应的算法从时间序列信号中快速、高效地找出异常数据,排除无效数据和噪声数据,提炼出有价值的时间序列数据。针对信号异常检索算法不能满足其他时间序列数据的检测需要,提出了扩展的信号异常检索算法解决此类问题,并应用到生物医学中对SPO2、CBFV信号的检测。实验证明:该扩展方法对噪声信号和干扰信号以及不可预知的伪信号较为敏感,能够快速准确地检测出异常数据。3)时间序列数据挖掘的趋势分段研究时间序列中的趋势分段研究是时间序列研究中的另一个热点问题:在各种时间序列应用领域中,辨识不同的趋势是非常普遍的问题。为预测关键事件的发生,趋势分析已经成功作为数据处理的步骤,并进一步结合其他数据分析模块来预测某些关键事件;同时,在许多应用中,也发展了许多方法用于趋势检测以及时间序列分段相关的问题。针对基于残留误差的累积和时间序列趋势分段方法存在的一些问题,提出了自适应时间序列趋势分段算法。实验证明:该算法在小样本情况下更能反映时间序列的趋势走向,对估计心脏停搏的出现有较好的指导意义。4)时间序列数据挖掘框架中的线性映射函数的研究时间序列数据挖掘框架中关键的模块之一就是映射函数,根据存在信号的特点,提出了使用总体最小二乘法(TLS)、截断奇异值分解法(TSVD)、标准吉洪诺夫正则化方法(STR)等方法构建线性映射函数。实验证明:截断奇异值分解法和标准吉洪诺夫正则化方法所构建的线性映射函数比线性最小二乘法和总体最小二乘法具有良好的估计效果。5)时间序列数据挖掘框架中的非线性映射函数的研究提出了使用支持向量回归(SVR)构建非线性映射函数,在利用它对颅内压信号做估计的实验证明:采用非线性方法SVR预测波形,比起采用线性方法TLS和STR所构成的映射函数,和真实波形间相比,有更好的一致性,预测精度有着明显的提高。