基于压缩树技术的属性约简算法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zhuzhutoutuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种分析不完整、不确定、不精确数据的有效的数学理论。它与其它处理不确定或不精确问题理论有着最为显著的区别,那就是不需要提供问题所需处理的数据集合之外的任何先验信息,就可以直接对数据进行分析和推理,从中发现其隐含的知识,揭示其潜在的规律。近年来,粗糙集理论在模式识别、机器学习等领域中取得良好的成果和广泛的应用。它作为一种较新的数据分析与处理工具,已经越来越受到学术界的重视,其中的一个研究热点是有效算法的研究及应用。目前,主要有属性约简算法,决策规则提取算法,与粗糙集有关的神经网络和遗传算法等。其中,属性约简算法是粗糙集理论及应用的重要研究内容之一。到目前为止,已有许多学者通过设计启发信息,给出了较好的用差别矩阵设计基于正区域的属性约简算法,这种设计思想直观简洁。但是存储差别矩阵需要较大的存储空间,对于大规模数据集的处理,这种设计方法并不理想。并且,由于差别矩阵中存在大量的重复的和无用的差别元素,而这些重复的和无用的差别元素既占用存储空间,又在计算属性约简时浪费时间。因此,若能不生成这些重复的元素,则可以大大提高属性约简算法的效率。本文对粗糙集理论的基本概念,目前各种属性约简算法及求所有属性约简算法进行了探讨与分析,指出现有算法的优点与不足。针对存在的问题和不足,以元素在简化差别矩阵中出现的频率作为启发式信息,设计出一种基于Skowron差别矩阵的高效属性约简算法。再提出了一种新的数据结构——压缩树(C_Tree),然后用这种新型的数据结构设计出相应的算法,并通过实例和实验证明本文所提出的新算法的可行性与有效性。具体而言,主要研究工作如下:(1)简述粗糙集理论及其发展现状,介绍属性约简及其算法与所有属性约简及其算法的研究现状,并分析其优缺点。同时,也介绍了粗糙集理论的基本概念。(2)从现有的基于差别矩阵的属性约简算法出发,以属性在简化差别矩阵中出现的频率作为启发式信息,设计出一种基于Skowron差别矩阵的高效属性约简算法。其时间和空间复杂度分别降低到O( | C || U |) + O( | C |2 | U / C|)和O( | U |)。并用实例说明了这个新算法的有效性和可行性。(3)结合FP树(频繁模式树)的思想,设计出一种新型的数据结构——压缩树(C_Tree)。在压缩树中,不但可以完全删除差别矩阵中所有重复的差别元素,而且可以完全删除无用的差别元素。这样,不仅减少大量的存储空间,还可以大大提高属性约简算法的效率。(4)基于压缩树(C_Tree),设计出快速的属性约简算法,该算法不用计算差别矩阵中大量的重复差别元素和无用差别元素,算法效率较高,尤其适用于大型数据库的处理。分析了算法在最坏情况下的时间复杂度和空间复杂度分别为max{O ( | C || U |), O (| C || U / C || POS C( D ) / C |)}和max{O (| U |, O (| N1 |)}。其中|C|表示条件属性的个数,|U|表示决策表中对象的个数,|N1|表示压缩树(C_Tree)中的节点数。用实例说明,并用实验证明了其有效性和可行性。(5)对于基于压缩树(C_Tree)求所有属性约简算法,该算法不用计算差别矩阵中大量的重复差别元素和无用差别元素,算法效率得到大大的提高。分析了该算法在最坏情况下的时间复杂度和空间复杂度分别为max{O ( | C || U |), O (| C |2 | U / C || POS C( D )/ C |)和max{O (| U |, O (| N1 |)}。其中|C|表示条件属性的个数,|U|表示决策表中对象的个数,|N1|表示压缩树(C_Tree)中的节点数。用实例说明该算法的有效性和可行性。本论文主要有以下创新点:(1)以属性在简化差别矩阵中出现的频率作为启发式信息,设计出一种基于Skowron差别矩阵的高效属性约简算法,其时间和空间复杂度分别降低到O( | C || U |) +O( | C |2 | U / C|)和O( | U |)。(2)指出了当前的用差别矩阵设计基于正区域的属性算法研究中,没有删除由不同等价类产生的重复差别元素,也不能删除所有无用的差别元素。从而影响了属性约简算法的效率。(3)针对本文提出的问题,结合FP树(频繁模式树)思想,设计出一种新型的数据结构——压缩树(C_Tree)。用压缩树存储差别矩阵中的差别元素,不但可以完全删除差别矩阵中所有重复的差别元素,而且可以完全删除无用的差别元素。(4)利用压缩树,设计出一种快速的属性约简算法和一种高效的完备属性约简算法。本文所提出的新型数据结构以FP树(频繁模式树)构建思想理论为依据,提出新的求属性约简算法和求所有属性约简算法是在前人工作的基础上,解决现有算法存在的问题,使之更有效处理大型数据库。也从实例和实验结果表明了本文提出的方法的有效性和可行性。
其他文献
面对越来越丰富的IT (Information Technology,信息技术)资源,越来越复杂的IT环境,无论企业还是政府的IT部门都开始广泛采用ITIL (Information Technology Infrastructure Li
随着无线通信技术的迅速发展,越来越多的人们希望提供无处不在的、高质量的无线通信,无线接入技术也得到了迅速的发展。无线MESH网络就是一种新型的宽带无线接入系统,是一种
长期以来,织物CAD技术一直是计算机在纺织领域中的一个重要应用与研究方向,织物CAD作为高新技术的手段为纺织品的设计和生产提供了很大的方便。织物的外观模拟在设计阶段就能
本文研究相关分析方法在异常检测中的应用,并将其应用于特征选择及地震特征数据的异常检测中。主要研究内容如下:提出了一种基于离散粒子群算法(Binary Particle Swarm Optim
计算机科学与技术的不断发展和计算机的广泛应用,促进了社会的进步和繁荣,给人类创造了巨大的财富。尤其是计算机网络的发展,日新月异,使信息共享广泛用于金融、贸易、商业、企业
当前国内的网络安全事件频频发生,垃圾邮件的泛滥成为其中显著的特点之一。传统的反垃圾邮件方法以基于内容的过滤为主,按照基于统计和基于规则划分为多种算法。但这些方法都
随着医学影像诊断技术的逐渐成熟,大量医学图像数据随之产生。这些海量图像的出现极大地丰富了医学工作者和科研人员的参考、教学和研究,然而怎样对如此大量的图像数据进行有
红眼是使用闪光灯拍摄照片时的常见现象。人类的瞳孔在环境光线不好的情况下会放大。在这种情况下使用闪光灯拍照时,人的瞳孔来不及收缩,光线直接穿过瞳孔照射在视网膜的微血
互联网技术的应用和普及把我们带到了网络信息的时代,用户在面临海量资源共享的同时对需要精确获取的信息反而束手无策。为了解决信息检索中难以满足个人独特需求的问题,个性
随着互联网的普及,过去的几年里,网络上的数据快速增长。对机器学习来说,大量的数据意味着可以训练更加复杂的模型,模型的泛化能力也得到提高,但同时,模型在训练和使用阶段的