论文部分内容阅读
在Internet高速发展的今天,大量的弱点信息不断地出现,黑客经常利用计算机软件或配置上存在的弱点,进行无授权访问、特权提升、DoS攻击等,严重地危害了系统安全。仅在2005年,计算机安全事件响应小组CERT/CC就收到624,634个email报告安全事件和接报弱点5990条。因此,很多研究机构和人员都开展了弱点的研究工作,主要是整合弱点属性建构完善的弱点数据库,以存储大量的弱点信息和系统地研究弱点以及弱点分类法等。数据挖掘是面向海量数据的知识发现技术,可以从数据中自动、高效地提取出未知的可用知识。而关联规则挖掘是数据挖掘中最成功和最重要的研究领域,能够发现大量数据中项集之间有趣的关联或相关联系。因此,在弱点数据库中进行关联规则的挖掘,可以发现弱点的属性之间或项与项之间的关联关系,为弱点的分类法研究与应用提供新的信息。本文首先在深入研究关联规则挖掘算法的基础上,对其中的单维关联规则挖掘算法AprioriTidList进行改进,提出了一种适合关系型弱点数据库的高效的多维关联规则挖掘算法AprioriTidList+;并且将该算法应用到弱点数据库中,包括数据准备、算法实现和实验结果的分析,其中数据准备主要是对数量庞大的弱点信息和弱点属性进行挑选,取出一部分适合于关联规则挖掘的弱点信息来进行实验,同时也对量化属性值进行了离散化处理。上述实验结果显示,“支持度—置信度”框架的挖掘算法在阈值较高时会丢失有价值的信息,若阈值较小又会有大量无意义、冗余的规则产生,并且对于强关联规则的价值亦不能确定。为此,本文进一步引入了关联规则的兴趣度,应用基于概率相关性和基于综合的两个兴趣度参数,对挖掘结果进行评价,排除大量的无趣规则,以得到有价值的关联规则。最后,本文将基于兴趣度的规则评价加入到AprioriTidList+算法中,即进一步对挖掘算法进行改进;并将改进后的AprioriTidList++算法应用到弱点数据库中重新准备的弱点数据上,挖掘得到有价值的关联规则;从实验结果的分析中可知,改进后的算法不仅可以弥补“支持度—置信度”框架挖掘算法的不足,同时也提高了挖掘的质量,是优化的关联规则挖掘算法,能够更好地满足本课题的需求。