基于SP-tree的关联规则更新挖掘算法

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tiancai9550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术随着当前互联网中与日俱增的海量数据不断地热门起来,已成为当前信息科学领域中的热门研究课题。关联规则挖掘逐渐受到研究者的追捧,成为数据挖掘的热门研究方向,应用领域也得到不断扩展,从销售营销到医学医药等各种领域,主要是因为关联规则能够挖掘事务数据库中项集之间所隐藏的内在关系。关联规则挖掘研究得到了不断发展,各种关联规则挖掘算法如雨后春笋般产生,但是Apriori算法和FP-growth算法在关联规则挖掘算法中知名度最高。后续许多研究都是在上述两个经典算法的基础上加以改进和完善。Apriori算法需要对数据库进行多次扫描,面对海量数据其挖掘效率不高,很多时间都耗费在扫描海量数据和从大量候选项集中获得频繁项集上。FP-growth算法只需要扫描数据库两次,构造FP-tree树,然后在FP-tree结构上进行递归处理就可以完成频繁项集的挖掘过程,FP-growth算法虽然避免了多次扫描数据库和生成大量候选项集的问题,但是对于增量数据及最小支持度值发生变化时,FP-growth算法就无法处理。由于各领域的业务数据一直处于不断积累、增长及变化之中,伴随着数据库不断更新,数据库中存储的数据不断发生变化。由此需要对更新后的数据不断进行挖掘,这导致一些挖掘算法不再适应当前的需求,尤其难以适应不断变化的需求,如事务数据库中的数据发生增量或减量变化,最小支持度和置信度发生变更等。由此需要研究出一种能够有效应对变化,又能高效灵活地完成挖掘任务的方法和模型。目前大多数关联规则更新挖掘算法是基于FP-tree结构,但是基于FP-tree的算法需要两次扫描数据库,相关更新算法同样亦需多次重复扫描数据库。针对这些缺点,本文主要开展了下列研究:(1)提出了一个基于SP-tree (Shared Pattern Tree)的关联规则更新挖掘算法。利用该算法挖掘时只需扫描原数据库和新增(减少)数据库各一次,建立、修改并更新SP-tree,后续的挖掘工作在SP-tree结构上完成;(2)给出了数据发生增量(减量)变化时频繁项集的挖掘方法。通过扫描增量(减量)数据集,修改并更新SP-tree,进而开展数据挖掘;(3)给出了最小支持度发生变化频繁项集的挖掘方法。针对最小支持度发生变大或变小的情况,本文探讨了基于SP-tree的相应的挖掘方法;(4)用实验说明了本研究的有效性及基于SP-tree的挖掘方法在更新挖掘时的高效性。最后,本文给出了未来的研究展望。
其他文献
随着工作流技术广泛应用于生物信息学实验,其整合分析工具完成复杂生物计算的能力越来越受到人们关注。生物信息工作流通过一种模块化的流程表达方式形象地描述计算分析的过程
近年来,科学技术迅猛发展,信息技术已经渗入社会、经济、生活等各个领域,但信息技术是一把双刃剑,一方面它的便捷性和全球性对经济的发展起到有力的推动作用,另一方面,其自身的缺陷
背包问题在众多工业领域中都能遇到,诸如交通、物流、切割及包装、电信、可靠性、广告、投资、预算分配和生产管理。在这些应用中,背包问题一般作为独立的问题或复杂的子问题出
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈
集成学习,是先将样本提供给多个学习模型,再采取投票或是级联等方法把这些学习模型的输出集成起来的学习模型。集成学习采用合成多个学习模型的输出,能够显著的提高学习模型的泛
随着Web2.0的出现和高速发展,互联网中用户所产生的信息容量和用户数量都呈现爆炸性增长的趋势,网络平台已经成为人们日常生活中不可缺少的信息获取、交流和传播的重要媒体。
癌症不是单一类型的疾病,而是存在分子亚型的。其分子的复杂性体现在mRNA、DNA、蛋白质等多层次遗传物质中。仅分析其中一种数据并不能够完整揭示分子亚型的独有特点。  
随着信息化技术不断发展,人类社会进入了信息化时代,各种各样的应用软件也随之应运而生,如ERP、OA、SCM、PLM等。这些软件对企业的快速发展起到了重要作用,越来越多的企业也
随着互联网的持续高速发展和广泛应用,分布式计算取得了巨大的进步,分布式计算技术的新进展和XML技术的出现,最终导致了Web服务技术的诞生。Web服务是一种基于服务提供者和服
在基于目标函数的模糊聚类算法中,模糊C-均值聚类算法得到了丰富的理论研究和广泛应用。它通过迭代和爬山技术来寻找问题的最优解,是一种局部搜索算法。然而,该算法对初始中心很