最大频繁项目集挖掘算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yao080803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。最大频繁项目集挖掘是数据挖掘的一个重要研究内容。最大频繁项目集挖掘的效率取决于搜索策略、数据子集的表示和对超集的检测等,通过分析现有的算法发现这些方面都可以进行优化来提高算法的执行效率。因此在分析已有算法和最大频繁项目集挖掘中的影响因素后提出了一种新的最大频繁项目集挖掘算法NDMFIA,算法中使用了以下三方面的优化策略:1.运用了一种剪枝策略来缩小搜索空间;2.借鉴了MAFIA算法中的PEP策略,它不仅可以缩小搜索空间,而且能够压缩FP-tree的规模;提出了频繁路径的概念,用它来提前发现最大频繁项目集,压缩FP-tree的规模;3.使用算法FpMAX中MFI-tree来保存最大频繁项目集,但是使用了一种投影的方法减少超集检测中项目匹配的次数。另外,目前大部分最大频繁项目集挖掘算法本身并不涉及任何领域知识,因此会产生许多对于发现主题无关的频繁项目集。将具体领域知识的约束条件加入最大频繁项目集挖掘算法中,在NDMFIA算法的基础上提出了约束最大频繁项目集挖掘算法NDCMFIA,该算法可以根据实际需要加入必要的约束条件来减少产生的最大频繁项目集的数量,提高挖掘结果的利用效率。最后对算法NDMFIA与算法MAFIA,FpMAX进行了分析和实验比较验证了算法NDMFIA的有效性。
其他文献
背景近几年来,多项实验表明,炎症性肠病尤其是溃疡性结肠炎患者血小板数高于正常人群,溃疡性结肠炎患者体内处于高凝状态,微血栓形成可能是溃疡性结肠炎患者的发病机制之一。目的
中国现代文学的星空,群星璀璨。萧红,作为中国现代文学史上最杰出的女作家之一,无疑是这星空中光彩夺目的一颗。但最为一个年仅31岁就过早去世的年青女作家,长久以来围绕在萧红身
背景据WHO 2004年世界卫生报告统计,由心血管疾病引起的病人死亡率占首位,其中主要是缺血性疾病。在心肌缺血/复灌等病理条件下,由于心肌氧供应减少、导致活性氧产生大大增加是
黄冈民歌中大量地使用了衬词和衬腔,且衬词衬腔的形式多样,内涵丰富,体现出鲜明的地方色彩,极大地丰富了黄冈民歌的表现力。本文对《中国民间歌曲集成·湖北省黄冈地区分卷》
伴随着大体积混凝土结构在现代工程建设中的广泛应用,存在其中的大体积混凝土结构温度应力问题越来越引起人们的重视。而仿真分析计算是解决这一问题的有效手段。目前,对于较为
喷头综合性能试验台,是南京农业机械化研究所于2005年开发的一套植保机械喷头性能综合实验设备。为了提高整个测试设备的精度和自动化程度,采用基于单片机AT89C52的微机控制系
我国数控机床制造水平与国外先进水平相比还有很大差距,主要反映在可靠性差、故障率高上。由于随着我国数控机床市场的不断扩大,许多国外品牌大量进入中国,国内企业要想和这
电压是电力系统中一个重要质量指标。电力系统正常运行,电压的变动将使用电设备工作出现异常,直接影响生产和日常生活。故电压调节是电力系统主要任务之一,供电稳定、连续、可靠
目前我国对大型建设项目的工程可行性研究越来越重视,然而城市轨道交通项目的经济评价方法及理论研究却始终落后于飞速发展的轨道交通建设,因此适合城市轨道交通自身特点的经济
伴随着BOT(Built-Operate-Transfer直译为建设-经营-移交)这一主要用于公共基础设施建设的项目融资模式在发展中国家的迅速发展,有关BOT的一系列问题也成为了学术界关注的一个