基于多支持度的负频繁模式挖掘关键技术研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:chuanjie_zheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘和知识发现领域的重要研究内容之一,它是指从数据库中挖掘出频繁出现的模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。作为频繁模式挖掘的补充,负频繁模式挖掘不仅考虑了已发生的事件,还考虑了未发生事件,为数据分析提供了新的角度,能够更深入地分析和理解数据中的潜在含义,在许多应用中甚至起着不可替代的作用。近几年来,负频繁模式挖掘已经应用于诸多领域。然而,由于实际应用中不同项的实际发生频率不同,而传统的负频繁模式挖掘算法往往局限于单一的最小支持度,无法反映出挖掘对象本身的特性,由此我们为每个项设定了一个支持度,即多支持度。本文利用负频繁模式挖掘算法以及多支持度的频繁模式挖掘算法来研究基于多支持度的负频繁模式挖掘算法,具体内容如下:1、多支持度的频繁项集挖掘算法。本文基于经典的单支持度的Apriori算法提出了一种新的多支持度频繁项集挖掘算法MSB_apriori,该方法先用Apriori算法根据最小的支持度阈值挖掘得到单最小支持度下的频繁项集,再对这些项集进行筛选,筛选出满足其自身最小支持度的频繁项集。因为此算法耗时长,我们又提出了它的优化算法MSB_apriori+,该方法主要不同之处在于挖掘之前先根据每个项的最小支持度阈值对所有的项进行升序排列,在整个挖掘过程中所有项集中的项都保持此顺序,这样可以大大减少侯选项集的生成数量。与MSapriori算法相比,这两个算法理解起来要容易很多,而且适合于支持度突然发生改变的情况。2、多支持度的负频繁项集挖掘方法。针对现有负频繁项集挖掘算法基本都采用单最小支持度,本文提出了多支持度的负频繁项集挖掘方法E-msNFIS。该方法先用MSapriori算法挖掘出多支持度下的频繁项集,再基于这些项集生成相应的负侯选项集,最后筛选出满足支持度要求的负频繁项集。本文还提出了负项集的最小支持度设置方法。与单支持度的E-NFIS算法进行比较,该算法可以挖掘出更多有价值的负频繁项集,为用户的决策制定提供了更多信息。3、多支持度的负序列模式挖掘方法。针对现有负序列模式挖掘算法基本都采用单最小支持度,本文提出了多支持度的负序列模式挖掘方法E-msNSP。该方法先用多最小支持度的MS-GSP算法挖掘出所有的正序列模式,再基于这些正模式生成相应的负侯选序列,最后筛选出满足支持度要求的负序列模式。本文还提出了负元素以及负序列的最小支持度设置方法。通过实验比较了正序列模式以及基于正序列模式挖掘得到的负序列模式的耗时和数量,结果显示该方法挖掘出的负序列模式数量多,用时少,非常高效。4、带负利润项的高效用序列模式挖掘。效用(利润)与支持度相比,在很多实际应用中更能反映出商业价值。传统的效用序列模式挖掘算法仅局限于项的正利润,而没有提及负利润,而负利润在许多实际应用中同样很重要。为此,本文将负利润项加入到序列模式挖掘研究中,提出了带负利润项的高效用序列模式挖掘算法HUSPNIV。每个项都有2个属性,即单项利润和购买数量。该算法采用q-序列词典树来构造和组织q-序列,采用I-连接和S-连接的方式基于父结点的效用值来生成孩子结点的效用值,并提出了三种剪枝方法,最后通过最小效用阈值挖掘出高效用序列模式,帮助用户更好的制定决策。
其他文献
无线传感器网络因其满足恶劣条件和特殊需求,已经成为学术界和工业界的热门研究领域。大量成本低、体积小、功能强的无线传感器网络节点可以任意布置在恶劣的环境中或者特殊
DSP技术正迅速应用于通信、电子、计算机等各个领域,尤其在信号处理方面具有独特的优势,用DSP技术来实现信号与系统实验装置对于课程教学、专业发展和工程实践等方面具有十分
为了解决现有Internet面临的高速交换、服务质量(Quality of Service,QoS)保障、网络安全和移动性方面的挑战,四川省网络通信技术重点实验室提出了“单物理层用户数据交换平
颅面形态学通过研究找出人的颅骨和面貌之间的形态关系,为颅骨面貌复原提供科学依据,近年来这方面的研究受到了广泛的关注和重视。本文针对颅面信息提取与三维重建展开研究,
随着新一代互联网——语义Web——研究的不断深入,本体(ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。本体
视频全局运动(摄像机运动)所表现的视频序列之间的时间相关性,较其它视频特征更能表达视频序列的高层语义信息。为了实现动态背景视频的快速分割,如何能够有效快速的得到视频
经过十多年的建设,我国电子政务建设取得了巨大的成就,政府各部门已经有很多的应用系统投入使用。但是这些系统往往采用不同的开发语言以及不同的操作系统平台,导致系统之间信息
学位
学位
随着计算机网络技术的迅猛发展,网络流量的特性随之发生了根本性的变化。近十多年来的大量研究结果表明,网络流量普遍存在自相似、长相关性,这种特性对网络流量建模、性能分