基于无向图的关联规则算法的研究与应用

来源 :大连交通大学 | 被引量 : 0次 | 上传用户:xiaohw123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘(Data Mining,简称DM)技术的发展已经引起了信息产业界的广泛关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。对数据挖掘技术进行深入细致的研究是全球信息化发展的客观要求。数据挖掘是数据库中知识发现(Knowledge Discovery in Databases,简称KDD)的核心步骤,是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要研究领域,有着极其重要的应用价值。关联规则挖掘的目的是寻找在大量的数据项中隐藏着的联系或者相关性,既数据库中的知识模式。本文在广泛阅读了国内外文献的基础之上,提出了一种新的基于无向图的关联规则最大频繁项集挖掘算法以及对挖掘出的关联规则进行聚类的研究。本文的创新点主要有以下两个方面:(1)为了挖掘事务数据库中局部关联性比较强的频繁项集,提出基于无向图的关联规则最大频繁项集挖掘算法。首先将事务数据库由横向转为纵向,将其保存到一个邻接矩阵中,其中边的权值表示任意二项集的支持度。然后,基于边的权值将整个无项完全图拆分成若干完全子图。最后采用自底向上和自顶向下两种策略来挖掘频繁项集,根据不同的最小支持度阀值比较两种策略的效率。实验结果表明,在支持度阀值比较低的时候,本文提出的挖掘算法效率非常高。(2)为了从大量的规则中识别出有用的信息,必须对规则进行处理,删除冗余的规则或对规则进行聚类或二者同时进行。本文提出一种改进的规则之间的距离定义方法,基于此定义对关联规则进行聚类。首先确定项与项之间的距离,然后依据项与项的距离得出规则之间的距离,最后基于此距离结合DBSCAN算法的思想对关联规则进行聚类。分析了聚类结果的合理性,并准确发现了孤立规则。针对本文提出的算法编写程序,对来源于UCI数据源的数据集进行验证,实验结果表明算法是高效的和实用的。
其他文献
随着全球市场软件需求的持续上升,软件外包已经成为中国软件出口及软件产业国际化的重要途径之一。我国的软件外包企业要获得快速发展,需要努力探索如何在确保产品质量的基础上
网格是一种分布式资源共享方式,它将地理上分布的计算资源、存储资源和信息资源等有机地连接起来,为用户提供统一、标准的网格服务。目前,数据库网格技术作为一种为大型、复
视频点播(Video-on-Demand,简称VoD)是以用户需求为主导的视频系统。如何提高视频点播系统的可扩展性和在动态环境中的可靠性,成为视频点播系统大规模应用的关键。传统的视频
在图形系统中,二维布尔运算是最为基础的运算之一,在CAD和几何实体造型中有着广泛的应用。现有的布尔运算在一般的情况下可以快速地得出正确结果,但如遇到奇异情况,则会产生
椭圆曲线密码体制的安全性建立在椭圆曲线离散对数问题的难解性上。同其它公钥密码体制相比,它具有安全性高、密钥短、所需资源少的特点,是目前最具潜力的一类公钥密码体制,
分布式视频编码(Distributed Video Coding, DVC)是以Slepian-Wolf理论与Wyner-Ziv (WZ)理论为基础的视频编码技术。相对于传统视频编码,分布式视频编码技术将编码端的复杂的
现代操作系统和软件变得越来越庞大和复杂,软件漏洞等缺陷也随之而来。攻击者往往会利用这些缺陷实现非法访问。一种快速而可靠的机制就是对这些攻击进行侦测,产生免疫防护措
集成学习是一种新的机器学习方式,它使用多个弱学习器来对同一个问题求解,能够显著地提高系统的泛化能力。因此,从20世纪90年代开始,对集成学习的研究及发展成为了一种趋势。
植物生长模拟模型是定量化研究植物的生长规律的重要手段,其研究在农林研究、绿化景观设计、教育、娱乐、商业等领域有着重大的应用前景和实用价值。基于结构-功能模型是一种
无线传感器网络(Wireless sensor network,简称WSN)是一种由大量具有传感、数据处理、无线通信能力以及能量有限且无法补充的节点自组织而成的多跳网络。近年来,与传感器网络