均值高效用项集挖掘算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:didos_jo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是一种在事务数据库中发现项目之间的特定关联关系的方法。它的目的是利用一些有趣性度量来识别事务数据库中发现的强规则,以便为决策者提供感兴趣的消息。关联规则挖掘在商业决策与推荐、科学研究、生物医疗等领域有广泛的应用。但是,传统的关联规则挖掘主要考虑挖掘基于“支持度-置信度”的频繁项集(FIM),过多强调了项集出现的频率,忽略了项之间的差异,因而很可能丢失了效用较高、但支持度较低的规则。引入了效用度量的关联规则挖掘——高效用项集挖掘则很好的克服了这个缺点。高效用项集挖掘用效用值来度量项集的有趣性,充分考虑项之间的差异性与频率,挖掘出更符合实际需求的结果。然而,在实际的应用中发现,长度较长的项集通常具有更大的效用,并且长项集通常是由个别效用较大的项贡献了大部分的效用。为了更客观地评价项集,均值高效用项集挖掘被提出。但是,现有的均值高效用项集挖掘算法要求用户拥有足够的背景知识与经验,来设置必要的最小效用阀值参数。本文主要研究Top-k均值高效用项集挖掘算法,以更加直观的项集数量参数代替最小效用阀值参数,解决了最小效用阀值难以设置的问题。文中还针对数据流系统逐渐增多的情况,提出了两种在数据流中挖掘均值高效用项集的高效算法。本文的主要研究有:(1)提出了一种高效的Top-k均值高效用项集挖掘算法TKAU。TKAU基于效用列表结构,将事务数据转换为列表结构,通过列表之间的递归交叉得到更长的项集的列表。该算法可以直接从列表获取效用,避免了多次扫描数据库。我们提出了两种剪枝策略,EMUP和EA,极大程度地减小搜索空间,减少了列表的交叉操作。并且根据Top-k项集挖掘问题的特点,设计了三种最小效用阀值提升策略RIU、CAD和EPBF,快速提升了最小效用阀值,避免了无效的搜索操作。(2)提出了两种能够在数据流环境下挖掘均值高效用项集的算法HAUIS-list和HAUIS-pd。HAUIS-list是将TKAU和滑动窗口模型相结合,加入了列表快速更新操作。而HAUIS-pd基于映射数据库的方式,利用事务映射与合并技术,不断减少所需扫描的事务数据库的大小,快速统计项集的均值效用。HAUIS-pd结合高效的剪枝策略,在时间和空间效率上表现优秀。
其他文献
世界各国对海权维护的日益重视大大促进了海用雷达的快速发展。使用海用雷达对海上和海面目标进行检测是雷达信号处理领域的一个重要课题而海杂波是影响海洋背景下雷达目标检
毕设作品《瓷色秘语》是一部以儿童为用户,从釉色的角度介绍中国传统瓷器的文化教育类移动应用。本论文阐述了《瓷色秘语》移动应用课题创作的全过程,第一部分选题的原因及意
随着大数据时代的到来,移动群智感知已经成为一个完成大规模感知任务的有效模式,是当前无线通信和传感技术领域一个研究热点。移动群智感知需要以大量用户参与为前提,利用群
在无线通信中,由于信道质量较差,需要依靠信道编码技术来提高系统传输的可靠性。格码是一种欧式空间上的线性码,具有可达加性高斯白噪声信道容量的特性。低密度格码(Low-Dens
随着计算机视觉技术的飞快发展,视频大数据以惊人的速度增长着。目前“智慧城市、智慧工地”项目的建设越来越成为常见,“智慧”项目建设中,监控视频的研究己经成为监控安全
BP神经网络是人工神经网络中的一种,现已被广泛应用于分类和逼近问题中,在面对数据密集型训练时,存在大量的时间开销。为此,有必要并行化BP神经网络的训练,以提高其训练效率
随着中蒙两国友好合作关系的不断加深,双方在高等教育方面的交流也越来越多,近年来,蒙古国来华留学生日渐增多。与此同时,在蒙古国内,也有许多的蒙古人在学习汉语,不同的语言
密集部署的小蜂窝网络(Small Cell Network,SCN)技术以链路传输速率高,功耗低,成本低和充分利用频谱资源等优势成为了第五代移动通信(The Fifth Generation Mobile Communica
Ad Hoc网络不依赖固定基础设施,具有快速灵活组网,节点抗毁性强等优点,适用于军事战斗、紧急救援、野外科考等特殊场景,它正成为全球无线通信的热点研究内容。相比于传统网络
大规模多输入多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)技术可以显著提升系统容量和频谱效率。然而,伴随着频谱效率的提高,能源消耗总量和碳排放量也在