析取闭合项集的快速生成和恢复算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:algenesis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统关联分析需要处理大量的频繁项集以得到可用的关联规则。为提高规则的抽取效率,已有多种频繁项集的精简模型被提出。但是目前关于频繁精简项集的快速挖掘和处理算法的研究还相对缺乏,这制约了关联分析在实际中的应用范围,尤其是在在线分析领域。  基于析取闭合项集的频繁项集精简表示模型是现有最优的一种精简表示模型。本文在深入分析析取闭合项集性质和特点的基础上,以寻找能改善析取闭合项集挖掘和恢复过程性能的技术,并设计出针对性的快速算法。  本文的主要研究工作如下:  (1)针对目前析取闭合项集挖掘效率低下的问题,提出了基于FP树的快速生成算法MDCPBFP。首先设计了利用FP树挖掘析取闭合项集的基本方法,然后探讨了挖掘过程中可提高剪枝效率的几个性质,并将其用于加速析取闭合项集的生成和析取支持度的计算。实验结果表明,本算法比基于逐层迭代方法的挖掘算法DCPRMINER执行效率大大提高。  (2)针对从频繁项集的精简集恢复全体频繁项集的问题,提出了一种恢复算法DCPTFI。该算法基于集合的容斥原理,采用动态规划思想,通过保存公共子项集及其析取支持度,可由频繁项集Lk-1快速生成候选项集Ck,并使用Apriori性质对Ck进行剪枝,提高从析取闭合项集恢复频繁项集的效率。实验表明,该算法比传统的频繁项集生成算法效率高得多。
其他文献
随着无线传感器网络向着廉价性、智能性、多功能性趋势发展以及短距离无线通信技术ZigBee的日趋成熟,设计出一种灵活高效、可扩展性和兼容性并存的低功耗节点软硬件体系结构并
随着互联网技术的飞速发展,IPv4(Internet Protocol Version4)的不足对互联网发展产生的负面影响显得越来越明显。互联网发展到今天,IPv4暴露出若干问题,而其中最为显著的便是IPv4
21世纪,人类进入互联网时代,人们的生活越来越离不开网络。在网上聊天,分享心情,传递照片,进行影视创作,尤其是移动互联网出现后,网上的信息交流更成为了日常生活的一部分。
核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库,对于分析不
随着信息技术的快速发展,海量高维数据不断涌现,高维数据明显增加了计算,存储的代价,给机器学习,模式识别等提出严峻的挑战,如数据灾难。数据降维能有效地避免维数灾难,已经成为图像
海洋是全球生命支持系统的一个重要组成部分,拥有丰富的资源。图像是获取水下世界信息的重要手段之一。但是,由于水体对光的衰减和吸收,水下光电成像所获得图像的清晰度、颜色保
普适计算发展至今,已经深刻地改变了我们的生活。人们可以一边移动,一边使用便携式设备和空间中的嵌入式设备对需要的信息与计算服务进行访问。然而,当前的普适计算研究仍然未达
随着多核处理器的产生和应用,如何提升其运行效率和并行性能倍受国内外各大硬件厂商和专家学者的关注。系统性能并不能仅仅依靠硬件平台的技术进步而提升,硬件平台还需要与其搭
学位
随着计算机网络的飞速发展,现在越来越多的信息使用网络进行传输,其中不乏个人隐私、公司商业秘密及国家机密等敏感信息。因此,如何保证私密信息的安全性成为人们关心的问题,而对