基于数据垂直分布的关联规则挖掘算法研究

来源 :天津理工大学 | 被引量 : 2次 | 上传用户：xuxiaorou12345

【摘要】

：

数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于

【作者】

：

杨柳

【机构】

：

天津理工大学

【出处】

：

天津理工大学

【发表日期】

：

2009年01期

【关键词】

：

关联规则挖掘数据垂直分布深度优先关联矩阵位图压缩

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于发现数据中不同项目或属性之间的有趣联系。随着被收集和存储数据的高速增长,许多业界人士对于从他们的数据库中挖掘关联规则的兴趣愈加浓厚。为了进一步适应和满足用户不断变化的需求,本文进行了一系列关于提高关联规则挖掘算法的性能和完善相关功能的研究工作。本文首先认真地分析和归纳了当前关联规则挖掘算法的研究成果,并分析了基于数据水平分布相关算法,如Apriori、DHP、FP-growth等,和基于数据垂直分布相关算法,如Eclat、Diffset等的实现方法和性能特点,为提出性能和功能更优的关联规则挖掘算法作好理论准备。然后提出应用于数据垂直分布的基于关联矩阵的深度优先关联规则挖掘算法ADFAR,ADFAR用关联矩阵来描述任意2个数据项之间的关联关系,并利用关联矩阵来约束候选频繁项集的产生,以减少所产生候选频繁项集。并且利用关联矩阵以深度优先策略产生频繁项集,每产生一个k-频繁项集只需要进行位图的一次交运算。算法采用位图方式来存储频繁项集支持集,具有较小的内存开销。ADFAR不需要多次扫描数据集,避免了Apriori算法及类Apriori算法繁杂的候选项集产生和验证操作等优点,具有良好的可操作性。实验证明,本文提出的基于数据垂直分布的关联规则挖掘算法ADFAR克服了产生大量候选集和需多次扫描数据库的缺点,且具有较高的挖掘效率。基于数据垂直分布的关联规则挖掘算法通常采用位图方式来存储频繁项集支持集,尽管使用位图来存储支持集映像已经减小了对内存空间的需求,但这仍然是基于数据垂直分布的关联规则挖掘算法的主要空间开销,也是制约算法可扩展性的一个重要因素。为此本文研究了位图压缩方法,将要存放在内存中的数据项支持集位图进行压缩,以减小算法的空间开销,提高算法可扩展性。本文详细介绍了位图压缩和基于压缩位图进行交运算所涉及到的有关理论和方法。实验结果表明,本文提出的位图压缩方法BCV使压缩率达到了70%左右,大大减少了基于数据垂直分布的关联规则挖掘算法运行中频繁项集支持集在内存空间的占用。

其他文献

分布式工作流事务处理建模与设计

工作流技术是近年来发展最为迅速的几项新技术之一。它是实现企业业务自动化的核心技术,也为协调复杂业务过程活动提供了有效的方法。工作流管理系统是开发和执行工作流的工具和平台,主要应用于实现业务流程自动化和基于层面的企业应用集成。为了在工作流管理系统运行过程中保证数据的一致性、正确性和可靠性,必须使工作流管理系统具有事务处理的能力。因此,工作流管理系统中的事务处理逐渐成为近年来研究的热点之一。为了更好地

学位

工作流Sagas事务模型事务属性可补偿事务并发控制

基于符合Celts-3标准的XML教育资源查询技术的研究

教育信息化是国家信息化建设的重要组成部分,以计算机网络为基础的现代教育技术得到了迅速发展。全国信息技术标准化委员会教育技术分技术委员会发布的《学习对象元数据》标

学位

Celts-3标准查询模型相关度算法XML信息检索

公交最优路径算法研究及基于数字家庭短信平台的应用

随着计算机技术的发展与3C产品的融合，数字家庭为人们提供了方便、智能、高效的数字化生活，成为人们关注的焦点。城市公交覆盖面广、经济快捷，目前是大多数出行者的首选方式。在

学位

数字家庭公交查询最优路径算法最少换乘改进算法短信平台

基于Agent的主动知识服务及其应用研究

随着经济全球化的快速发展,航运业在全球化贸易运输中的地位越来越重要,已成为国家经济发展中一个重要的行业,对于保证经济的繁荣、促进国际贸易的发展起着举足轻重的作用。

学位

Agent本体主动知识服务用户模型个性化知识需求

基于细胞自动机的语音安全技术研究

随着计算机网络和语音编码技术的飞速发展,语音通信技术获得了突破性的进展和非常广泛的应用。为了保证呼叫控制的安全性及语音数据的安全性,在通信开始时,一般采用身份认证

学位

细胞自动机语音加密Hash函数规则空间

激光笔轨迹识别系统设计与实现

本文通过设计一种用于教学工作的激光笔轨迹识别系统,为授课者提供更方便的教学手段,为提高学习质量和效率提供有力的帮助。本课题是E-Learning实验室的Standard Natural Cla

学位

E-Learning亮点识别轨迹识别轨迹优化

基于神经网络的数据挖掘技术用于剩余油分布的研究

剩余油分布的预测有很高的收益，因此引起世界各国对剩余油分布进行研究的重视。经过多年的开发，目前地下油水关系变得日趋复杂，有必要进行剩余油分布规律的研究。　　本文分析

学位

油田开采剩余油分布油藏预测RBF神经网络数据挖掘技术

时态XML索引结构的研究与实现

时间是信息的重要属性。随着数据库与信息技术的迅猛发展，时态信息的应用和处理已在各行各业成为必不可少的一部分，特别是在电子政务、电子商务、数据仓库、决策支持系统等信息

学位

时态查询时态XML数据模型标记名称类起始时间类索引模型

基于Agent的门户信息智能检索模式研究

本文对信息检索原理和Agent技术进行了研究，对三种信息检索模型和四种信息检索方法进行了探讨。针对勘探与生产分公司对门户信息检索需求，在分析勘探生产门户的体系结构、组成

学位

计算机网络信息智能检索程序设计聚类算法多Agent系统

非均匀分布数据的核模糊谱聚类算法稳定性研究

学位

基于数据垂直分布的关联规则挖掘算法研究

其他学术论文