基于数据垂直分布的关联规则挖掘算法研究

来源 :天津理工大学 | 被引量 : 2次 | 上传用户:xuxiaorou12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于发现数据中不同项目或属性之间的有趣联系。随着被收集和存储数据的高速增长,许多业界人士对于从他们的数据库中挖掘关联规则的兴趣愈加浓厚。为了进一步适应和满足用户不断变化的需求,本文进行了一系列关于提高关联规则挖掘算法的性能和完善相关功能的研究工作。本文首先认真地分析和归纳了当前关联规则挖掘算法的研究成果,并分析了基于数据水平分布相关算法,如Apriori、DHP、FP-growth等,和基于数据垂直分布相关算法,如Eclat、Diffset等的实现方法和性能特点,为提出性能和功能更优的关联规则挖掘算法作好理论准备。然后提出应用于数据垂直分布的基于关联矩阵的深度优先关联规则挖掘算法ADFAR,ADFAR用关联矩阵来描述任意2个数据项之间的关联关系,并利用关联矩阵来约束候选频繁项集的产生,以减少所产生候选频繁项集。并且利用关联矩阵以深度优先策略产生频繁项集,每产生一个k-频繁项集只需要进行位图的一次交运算。算法采用位图方式来存储频繁项集支持集,具有较小的内存开销。ADFAR不需要多次扫描数据集,避免了Apriori算法及类Apriori算法繁杂的候选项集产生和验证操作等优点,具有良好的可操作性。实验证明,本文提出的基于数据垂直分布的关联规则挖掘算法ADFAR克服了产生大量候选集和需多次扫描数据库的缺点,且具有较高的挖掘效率。基于数据垂直分布的关联规则挖掘算法通常采用位图方式来存储频繁项集支持集,尽管使用位图来存储支持集映像已经减小了对内存空间的需求,但这仍然是基于数据垂直分布的关联规则挖掘算法的主要空间开销,也是制约算法可扩展性的一个重要因素。为此本文研究了位图压缩方法,将要存放在内存中的数据项支持集位图进行压缩,以减小算法的空间开销,提高算法可扩展性。本文详细介绍了位图压缩和基于压缩位图进行交运算所涉及到的有关理论和方法。实验结果表明,本文提出的位图压缩方法BCV使压缩率达到了70%左右,大大减少了基于数据垂直分布的关联规则挖掘算法运行中频繁项集支持集在内存空间的占用。
其他文献
工作流技术是近年来发展最为迅速的几项新技术之一。它是实现企业业务自动化的核心技术,也为协调复杂业务过程活动提供了有效的方法。工作流管理系统是开发和执行工作流的工具和平台,主要应用于实现业务流程自动化和基于层面的企业应用集成。为了在工作流管理系统运行过程中保证数据的一致性、正确性和可靠性,必须使工作流管理系统具有事务处理的能力。因此,工作流管理系统中的事务处理逐渐成为近年来研究的热点之一。为了更好地
教育信息化是国家信息化建设的重要组成部分,以计算机网络为基础的现代教育技术得到了迅速发展。全国信息技术标准化委员会教育技术分技术委员会发布的《学习对象元数据》标
随着计算机技术的发展与3C产品的融合,数字家庭为人们提供了方便、智能、高效的数字化生活,成为人们关注的焦点。城市公交覆盖面广、经济快捷,目前是大多数出行者的首选方式。在
随着经济全球化的快速发展,航运业在全球化贸易运输中的地位越来越重要,已成为国家经济发展中一个重要的行业,对于保证经济的繁荣、促进国际贸易的发展起着举足轻重的作用。
随着计算机网络和语音编码技术的飞速发展,语音通信技术获得了突破性的进展和非常广泛的应用。为了保证呼叫控制的安全性及语音数据的安全性,在通信开始时,一般采用身份认证
本文通过设计一种用于教学工作的激光笔轨迹识别系统,为授课者提供更方便的教学手段,为提高学习质量和效率提供有力的帮助。本课题是E-Learning实验室的Standard Natural Cla
剩余油分布的预测有很高的收益,因此引起世界各国对剩余油分布进行研究的重视。经过多年的开发,目前地下油水关系变得日趋复杂,有必要进行剩余油分布规律的研究。   本文分析
时间是信息的重要属性。随着数据库与信息技术的迅猛发展,时态信息的应用和处理已在各行各业成为必不可少的一部分,特别是在电子政务、电子商务、数据仓库、决策支持系统等信息
本文对信息检索原理和Agent技术进行了研究,对三种信息检索模型和四种信息检索方法进行了探讨。针对勘探与生产分公司对门户信息检索需求,在分析勘探生产门户的体系结构、组成
学位