论文部分内容阅读
随着数据库的迅速发展,网络及其他信息技术的广泛应用,生产生活中存储的数据量迅速增加。数据挖掘作为一种在大量的数据中寻找有价值信息的数据分析工具,受到越来越广泛的关注。数据挖掘旨在从海量数据中发现隐藏着的、先前未知的并潜在有用的模式和信息,以帮助人们正确理解和认识数据并做出科学决策。并且,由于序列在数据集中普遍存在,通过对序列进行数据挖掘,发现其异常行为和预测其未来趋势己成为当前研究的焦点之一。异常挖掘常常应用于金融、医疗、网络等重要领域,漏报与错报必然会带来巨大的困扰甚至损失。目前已有的各种异常序列挖掘算法在检测的准确率和挖掘的效率上都不尽人意。因此,有必要对异常序列挖掘算法进行更深入研究,开拓新思路,提出新算法,以提高准确率,降低漏报错报率,进而能够更加快速高效地挖掘出数据中的异常行为,提供更有价值的信息。本文从入侵检测和ECG异常检测两个现实问题出发,通过对国内外各种数据挖掘算法,特别是异常序列挖掘相关研究,针对已有异常序列挖掘算法的不足,首次提出固有子序列模式和固有趋势子序列模式的概念,并基于这两个概念对异常序列挖掘问题进行分析研究,提出了新的算法和解决方案,取得了以下成果:1)根据系统进程Windows Native API序列以及网络连接序列出现某操作时,总是表现为很强的整体性的特征,本文首次提出固有子序列模式的概念,并在此基础上提出了基于图的固有子序列模式挖掘算法以及基于固有子序列模式分解的异常检测算法。上述算法分别应用于Windows平台和Linux平台网络和主机的入侵检测系统中,取得了较好的效果。2)根据ECG序列随心脏活动变化反应不同趋势的本质特征,本文首次提出固有趋势子序列模式的概念。并在此基础上提出了固有趋势子序列模式挖掘算法以及基于固有趋势子序列模式分解的异常检测算法。上述算法应用于ECG信号的异常检测中,实验证明该算法在ECG异常检测中具有较高效率和准确率。