基于弱点数据库的多维关联规则挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zelda999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet高速发展的今天,大量的弱点信息不断地出现,黑客经常利用计算机软件或配置上存在的弱点,进行无授权访问、特权提升、DoS攻击等,严重地危害了系统安全。仅在2005年,计算机安全事件响应小组CERT/CC就收到624,634个email报告安全事件和接报弱点5990条。因此,很多研究机构和人员都开展了弱点的研究工作,主要是整合弱点属性建构完善的弱点数据库,以存储大量的弱点信息和系统地研究弱点以及弱点分类法等。数据挖掘是面向海量数据的知识发现技术,可以从数据中自动、高效地提取出未知的可用知识。而关联规则挖掘是数据挖掘中最成功和最重要的研究领域,能够发现大量数据中项集之间有趣的关联或相关联系。因此,在弱点数据库中进行关联规则的挖掘,可以发现弱点的属性之间或项与项之间的关联关系,为弱点的分类法研究与应用提供新的信息。本文首先在深入研究关联规则挖掘算法的基础上,对其中的单维关联规则挖掘算法AprioriTidList进行改进,提出了一种适合关系型弱点数据库的高效的多维关联规则挖掘算法AprioriTidList+;并且将该算法应用到弱点数据库中,包括数据准备、算法实现和实验结果的分析,其中数据准备主要是对数量庞大的弱点信息和弱点属性进行挑选,取出一部分适合于关联规则挖掘的弱点信息来进行实验,同时也对量化属性值进行了离散化处理。上述实验结果显示,“支持度—置信度”框架的挖掘算法在阈值较高时会丢失有价值的信息,若阈值较小又会有大量无意义、冗余的规则产生,并且对于强关联规则的价值亦不能确定。为此,本文进一步引入了关联规则的兴趣度,应用基于概率相关性和基于综合的两个兴趣度参数,对挖掘结果进行评价,排除大量的无趣规则,以得到有价值的关联规则。最后,本文将基于兴趣度的规则评价加入到AprioriTidList+算法中,即进一步对挖掘算法进行改进;并将改进后的AprioriTidList++算法应用到弱点数据库中重新准备的弱点数据上,挖掘得到有价值的关联规则;从实验结果的分析中可知,改进后的算法不仅可以弥补“支持度—置信度”框架挖掘算法的不足,同时也提高了挖掘的质量,是优化的关联规则挖掘算法,能够更好地满足本课题的需求。
其他文献
随着网络通信技术,多媒体技术,数据库技术的迅猛发展,多媒体信息急剧增长。而其中的数字图像信息应用日益广泛,并成为最主要的信息资源之一。在图像信息快速膨胀的今天,如何
在数据网络领域,IP网络技术正在演进,作为原有宽带通信网和新技术的ATM则由于技术难度大、路由灵活性较低以及效率不高等面临很大挑战,如何使ATM技术融入IP,如何将路由和交换相结
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处理,传送到需要信息的用
磁分离酶免疫分析测试仪主要用于对人体内分泌激素进行检测,根据激素指标的差异,为医生确定病人病情提供科学依据。目前,酶免仪已经成为医疗机构进行临床诊断所必需的医疗仪器之
当前众多的基于OSI的大型异构管理网络中,网管信息分散于各代理的MIB中,由于底层网络管理协议不同,这些网管信息的表现形式也不同,在传统的网络管理模式中没有统一的语义来解
在离散事件动态系统的研究中,逻辑层次的建模与控制是一个很重要的方面。由于Petri网的一些特点,例如真并发的语义、易于转换为计算机程序控制码、逻辑电路形式的硬件实现,因此
数据库知识发现(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成熟
Internet/Intranet不仅冲击了传统的市场,供应,销售和服务领域,也给人力资源管理带来了新的挑战和机遇,eHR实际上是一种基于Internet/Intranet的人力资源管理系统,为了将人力资源管理人员从繁重琐碎的日常事务性工作中解脱出来。大量IT技术的引入,eHR可以通过集中式的信息库、自动处理信息、员工自助服务、外部协助以及服务共享等信息化手段,使人力资源管理达到降低成本、提高效率
二进制翻译技术可以将一种体系结构的二进制代码翻译成另一种体系结构的二进制代码,很好地解决代码兼容性问题,缓解软硬件之间的矛盾,从而推动计算机技术的发展。根据翻译时机的