高效用项集挖掘算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:cctasty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效用项集挖掘(High Utility Itemsets Mining,HUIM)已成为数据挖掘领域研究工作的关键。高效用项集挖掘是为了解决频繁项集挖掘只考虑出现频次的问题,高效用项集挖掘同时考虑事务数据库中项目数量和单位利润。先前大部分HUIM算法只考虑项目存在正效用的情况,然而实际应用中会存在负效用项集。根据先前高效用项集挖掘算法相关修剪策略,低效用项集的子集必是低效用项集。但是事务中存在负效用项,低效用项集的子集可能是高效用项集,因此含负效用项的高效用项集可能会被忽略。不仅如此,现有HUIM算法执行方面,阈值需要用户设定。而在实际应用中阈值的设定直接影响输出结果集的数量,从而极大地影响算法运行效率。阈值过高使得无结果产生,用户不能得到高效用项集(HUIs);阈值过低导致算法运行时间无限增长并且占用大量内存,甚至导致内存溢出。设定合适的阈值是一个困难的问题。针对上述问题本文对高效用项集挖掘算法存在负效用项和阈值设定方面进行研究,研究工作主要如下:(1)针对数据集中包含负效用项的问题,提出含负效用项的高效用项集挖掘算法EHUIN(Efficient High Utility Itemsets Mining with Navigate utility)。算法在第一次扫描数据库时使用覆盖理论指导方法,在初始化链表时对事务加权效用值相等的项集进行覆盖操作。随后在含负效用的传递分支公式tenu(transitive extension with negative utility)帮助下,将链表中项集效用与其传递分支项集效用之和与用户设定最小效用阈值比较,若小于最小效用阈值则项集的传递分支项集均为低效用项集并舍弃。在构建效用链表时使用提前过滤策略,通过计算元组中效用值来判定该效用链表是否为低效用链表,从而降低运行时间,减少内存消耗,进一步提高挖掘效率。经过近60万条数据24组实验证明在数据集稠密程度不一致的情况下,EHUIN算法效率更高,尤其是在稠密数据集上表现更佳。(2)针对最小效用阈值设定的问题,高效用项集挖掘算法通过和Top-k算法结合,将设定阈值的问题转变成设定高效用项集数量的问题。目前Top-k高效用项集挖掘算法主要研究方向是改进数据结构和优化效用链表的构建过程,但忽略效用链表构建后的内存管理。随着数据量增大,挖掘高效用项集所需构建的效用链表增多却无法管理内存资源,之前的算法运行时占用系统大量内存空间和计算开销。针对这一问题,提出新的Top-k高效用项集挖掘算法TKBPH(Top-k Buffer Pool High Utility Mining)。TKBPH算法提出数据缓冲池(DBP)结构管理内存空间,高效存储与检索缓冲池内数据,并在挖掘过程中进行内存复用。在不同类型数据集实验结果证明,TKBPH算法在挖掘过程中执行速度更快,内存消耗更少。
其他文献
随着网络技术的发展,越来越多的消费者参与到网络购物的行列中来,带动了电子商务的飞速发展,电商评论机制也愈发完善。消费者在进行网购行为之前,都会参考已有的产品评论,以此降低购买风险,从而促进购买决策。传统的产品评论是由顾客购买完产品后自发地生产而来,以生产者为导向。随着评论数据激增,消费者难以从中快速寻找到目标信息。评论内容的非结构化,以及信息量的增加,增加了消费者信息处理的难度。同时,虚假评论层出
媒介化社会的到来提醒我们应当关注以新技术为本质特色的媒介实践。而短视频作为新兴的低门槛、强视觉媒介,已经逐渐影响到社会生活的方方面面,并发展成为一种全民参与的文化实践。本文通过实地考察四川大凉山彝族地区“悬崖村”青年的移动短视频实践,试图从“可见性”(Visibility)的维度深描和理解短视频和悬崖村青年深度“互嵌”的过程。本文认为,我们不应只将短视频理解为信息传播的新形态,还要看到它作为草根“
近些年,随着卫星通讯技术的高速发展,卫星通信节点渐渐具备了相当的信息处理能力和信息转发能力。对比于地面的传统网络,卫星网络有着通信传输距离远、覆盖区域面积广泛以及不受地形因素影响等优点,在以后的通信系统中显得愈发重要。在卫星通信系统中,相较于高轨(GEO)卫星系统和中轨(MEO)卫星系统,低轨(LEO)卫星系统的优点是可以实现全球无缝覆盖、较低的传输时延以及更好的星间链路质量等,成为了卫星网络研究
对大规模图数据的紧凑存储,能够有效的解决图数据的增长速度快导致的数据量过大问题。随着互联网络的发展和图数据在各个领域的应用,传统的图数据存储方式已经不能支持大规模图数据的存储和操作。如何有效紧凑的表示大规模图数据并且在表示的基础上支持图的基本操作,不论是对大规模图数据的管理而言,还是基于大规模图数据做数据分析和知识推理,都是一项值得研究的工作。k2-tree和k2-BDC能够对大规模图数据的邻接矩
近年来,随着经济的迅速发展,人民生活水平日益提高,生活方式也悄然发生了许多变化,小轿车似乎已经成为每个家庭的必需品。中国的私家车保有量将近2亿辆。由于汽车保有量巨大以及新车存在纳税、保值等问题,为二手车行业的发展提供了契机,二手车的交易量近年在逐渐上升,2019年甚至有望突破1500万辆。随着成交量的增长,二手车物流的需求也急剧增长。同时,汽车物流行业都是被国际物流同行所公认的最复杂、最专业的领域
复合材料在长期服役过程中需要对其健康状态进行实时检测。在一些特殊领域中,存在着复合材料需要长期服役又无法连接电源的应用条件。因此,本文针对复合材料应变检测系统的电源供电方式进行研究,设计了一种基于RF能量收集的复合材料应变检测系统。该系统包括射频能量存储系统和碳纳米纸应变检测系统两大部分。射频能量存储系统收集环境中的射频能量,并转化为3.3V直流电源,由接收天线、倍压整流电路、升压芯片三部分组成。
传统发动机FRM (fast running model)模型将中冷系统简化,将通过中冷系统后的气体温度强制冷却至环境温度,忽略了中冷系统冷却性能对发动机进气温度(进气量)的影响。本文为了
本文主要叙述了利用CO_2驱提高采收率的历史及目前国内外的发展现状,阐明了CO_2提高原油采收率的机理,我国注CO_2提高采收率的应用前景以及混相压力对采收率的影响。对最小混相压力的研究可以提高注二氧化碳驱油机理的认识,同时也可以指导实际生产过程中,对各影响参数的控制。在模拟地层条件下,利用细管法进行CO_2地层油混相压力实验,确定了原油性质、油藏温度和注入气的组成及实验条件对CO_2最小混相压力
嘉庆道光时期正值中国历史从中古向近代转型的前夜,漕运危机是这一时期公共职能崩溃的矛盾聚焦点。原有的漕运制度在嘉道年间趋于崩溃,亟待改革。陶澍是清中晚期经世派的代表人物,历任巡漕御史、安徽巡抚、江苏巡抚及两江总督,是江南地区漕务改革的倡行者,其改革成效以漕粮海运最为突出。嘉道年间积弊严重的江南漕务是陶澍漕务文书的写作背景,漕务文书是陶澍所撰写的与漕粮征运相关的文书。文体类型主要有奏折、告示、祝文、序
划船运动是西方,尤其是英国的传统运动,在西方各国有悠久的赛艇比赛历史,这种运动与中国传统的划船活动“赛龙舟”在形式上有相同之处,但在竞技方式、文化内涵等方面则截然不同。中国最早接触到西方现代划船运动的城市是广州,上海开埠后,以英人为首的外侨又将这项运动带到上海,开始在黄浦江和苏州河上划船,第一场正式的划船赛事于1852年在黄浦江举行。为了更好地发展这项运动,上海划船总会于1863年正式成立。总会成