一种关联规则的高效增量式挖掘算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:eric73384
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘则是数据挖掘的一个主要研究内容。而频繁项目集的发现是关联规则数据挖掘的核心问题。  关联规则挖掘算法在整个关联规则挖掘中占有十分重要的地位。只有一个好的算法才能保证挖掘具有良好的性能。事实上,对关联规则挖掘的研究首先是对关联规则挖掘算法的研究,挖掘算法的效率直接影响着关联规则挖掘的应用。  关联规则挖掘的经典算法,其核心思想是基于两阶段频繁项目集理论的递推方法,尽管经过不断的改进,但是基于这一思想的算法不可避免的会遇到两个不可克服的问题:过多的中间候选频繁项目集和重复扫描数据库,这导致算法的效率不能适应某些场合的需要。  本文首先对数据挖掘作了讨论,包括数据挖掘的概念、数据挖掘的理论基础、数据挖掘的主要问题和数据挖掘的分类等。然后,对关联规则挖掘算法做了深入的研究,分析总结了关联规则中经典的Apriori算法及其改进算法(FUP)。为了使在增加新的数据后,能够充分运用以前挖掘到的知识来提高挖掘的效率,首先提出了一个新的概念—敏感度。然后从敏感度和时间效率出发对增量式更新算法进行了改进,并通过一个实际例子对改进算法和原算法(FUP)做了分析和比较。最后通过实验对改进算法的性能做了比较分析,其优点是能较好地发现新增数据中的新模式,在挖掘过程中显示了良好的空间和时间性能,并具有较高的敏感性。
其他文献
当前,高性能计算已经全面进入“千万亿次计算”时代。根据最新的Top500列表显示,理论峰值1Petaflops以上的超级计算机已经达到55台。面向P级、E级计算,应用数学算法的设计应该考
无线多跳网络包括无线Ad Hoc网络、无线Mesh网络和无线传感器网络,其应用场景非常广泛,如应急通信、防灾减灾、环境监测等。无线多跳网络作为一种新兴的无线网络技术,还可以与传
随着互联网与应用的快速蓬勃发展,网络带宽和服务复杂度不断增长,从路由查找到入侵检测等数据包处理技术面临性能挑战。多核处理器可以通过数据包并行处理有效提升数据包处理速
自从W3C在1998年二月发布XML标准以来,XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可,并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多,人们开始考
近年来随着Internet的发展,以及社会对高等教育的需求日趋强烈,现代远程教育成为越来越被人们认识、重视和利用起来的一种新的教育模式,也促进了新的教育革命,深刻改变着教与学的
存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、转换、更新等过程,这也是数据
基于模型的软件测试是基于软件的需求分析与设计模型,提取测试信息,生成一套测试用例的技术。针对软件的不同特征和不同目的,研究人员提出过多种软件开发与测试模型。随着基于UM
伴随着互联网的发展和大数据时代的到来,网络知识库应用越来越得到用户的关注,比如智能问答系统,Google的知识图谱,百度知识图谱等,这些应用都是由强大的知识库为支撑的。然而基于
CMM和敏捷开发是软件过程改进领域两个代表性理论,分别代表着软件过程改进的“重量级”和“轻量级”思想。然而,无论是CMM还是敏捷,都尺有所短、寸有所长,不能解决软件生产领域的
随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来越强烈,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众