基于分界思想的关联规则挖掘算法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:YGLDY1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一。关联规则挖掘分为两步:频繁项集挖掘和利用这些频繁项集产生强关联规则。由于第一步决定着挖掘的整体性能,因此研究频繁项集挖掘问题具有十分重要的意义。虽然事务数据库中的数据存在于一定的环境中,如时间、地点和顾客等,但传统的规则挖掘忽略了这些因素。而多维关联规则能提供关于现实世界的更为有用的信息,因此其研究工作具有重要的实际意义和广泛的应用前景。 本文首先介绍了频繁项集的宽度优先搜索、深度优先搜索以及宽度和深度相结合的搜索挖掘算法,具体包括:Apfiofi、FP-growth、Eclat、上下分界、Diffset、RCFP和LR等。并以具体事务数据库为例,介绍了后五种算法的存储结构,对这些算法的存储结构和建树过程中的树深度进行了分析比较。 其次,论文提出了基于分界思想和RCFP-tree的频繁项集挖掘算法LR-RCFP,该算法借鉴了RCFP算法中频繁项集的压缩存储结构和LR算法中左右分界的思想。在UCI机器学习库中的6个数据集上进行了实验,实验结果表明,LR-RCFP算法比Eclat、Diffset、上下分界、RCFP和LR算法高效,而且稳定。 最后,论文在LR-RCFP算法的基础上,提出了基于LR-RCFP算法的多维关联规则挖掘算法--MLR-RCFP。该算法采用LR-RCFP算法挖掘频繁项集,利用频繁项集约束频繁谓词集和多维关联规则的挖掘。在UCI机器学习库中的6个数据集上进行了实验,实验结果及分析表明,MLR-RCFP算法相比MFP和MPIT算法效率更高;随着维数的增加,该算法时间上呈现较缓慢上升趋势。
其他文献
随着互联网的普及,以木马为首的的恶意软件日渐猖獗,利用木马进行计算机犯罪的案件也逐渐攀升。不法分子们将木马植入用户的计算机中,以窃取有价值的信息如银行帐号、密码等
全球地震主要分布于环太平洋和喜马拉雅——地中海两个地震带。我国正好介于这两个地震带之间,是个地震频发的国家。加上人口稠密和房屋抗震性能差等问题,地震已经成为造成我
由于当前嵌入式系统的硬件平台多种多样,相应的软件开发往往是针对特定的平台、特定平台的板级支持包(BSP)以及硬件抽象层(HAL)的,因而开发的软件往往需要进行与平台相关的修
随着计算机性能的提高和控制技术的发展,离散控制系统理论越来越受到人们的重视。控制系统中普遍存在着时滞现象,时滞往往使得系统性能下降。另外,控制系统一般都是在外界扰
基于立体视觉的三维重建是计算机视觉领域的研究热点,在机器人导航、虚拟现实、建筑、工业设计等方面有重要作用。目前大多数三维重建研究工作集中在针对单个物体的三维建模
作为人工智能的重要研究领域,机器人学科半个世纪以来取得了飞速的发展。自主机器人的路径规划问题,如今已成为人工智能领域的前沿课题,引起了各国学者的高度重视。在自主式
无线传感网络(Wireless Sensor Network,WSN)中节点的定位技术是无线传感网络技术的核心技术之一,在很多应用中,位置信息的准确性是节点数据信息实用性的前提。在网络节点成
目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限
以TCP/IP协议为基础的Internet自从九十年代以来,其网络规模、用户数量以及业务量都呈现爆炸式地增长,新型网络应用也不断涌现,网络参数动态变化。这些使得网络拥塞的状况愈
细分技术是计算机图形学研究的热点方向,其研究成果在多个领域得到应用。体细分作为细分技术的一个分支,主要应用于自由变形。在自由变形时,如果控制网格(体网格)过于稀疏,变