论文部分内容阅读
数据挖掘是指从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的过程,是目前国际上数据库和信息决策领域前沿的研究方向之一。随着时序数据在金融和科技应用中的广泛使用,时间序列数据挖掘成为数据挖掘领域中一个新的研究方向。
时间序列分割是将长序列分割成不重叠的、有序的子序列集合的过程,是时间序列数据挖掘研究的重要任务之一,具有广泛的应用空间和重要的研究价值。
时间序列进化分割算法是使用遗传算法将时间序列按所给标准模式集合进行弹性地分割的一种方法。在遗传算法中,适应度函数是一个非常重要的组成部分,它的设计对算法的收敛速度以及最优解的寻找有很大影响。因此,选择合适的距离度量作为时间序列进化分割算法中适应度的评估就显得至关重要。现有的时间序列进化分割算法在时间序列的模式匹配上采用基于点对点比较的距离度量,这种距离度量具有鲁棒性差,对噪音数据敏感等缺点,并且无法处理时间相位差的情况。针对现有距离度量存在的问题,本文提出三种有效的距离度量——包围面积距离、时间弯曲距离和模式序列距离作为适应度的评估,并详细介绍了这三种距离度量的实现方式以及所对应的时间序列表示方式。实验结果表明:基于这三种距离度量的方法在准确分割、收敛速度以及运行效率上比原来的方法表现要好。