基于超级哈希树的关联规则挖掘

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:lantianaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘已经引起了信息产业界的极大关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发展的客观需要。   本文先对数据挖掘技术做了简单的总结,对它的产生进行了简要的回顾,对数据挖掘的对象、可发现的模式和常使用的技术进行了较全面的分类、归纳和总结。接着对关联规则数据挖掘技术进行了概括性描述。主要就关联规则的典型挖掘算法及基本思想进行了详细地归纳、分析和研究,就各算法之间的差别进行了客观地比较,分析了它们的优缺点,为SHT算法的提出做了较好的铺垫。   关联规则挖掘中最主要的问题是频繁项集的产生,针对经典频繁项集挖掘算法的不足,本文提出了一种基于超级哈希树三次扫描数据库的Apriori改进算法(简称SHT算法),该算法在生成频繁_2项目集后,只要再扫描一次数据库,就可对后面的多项集一次性计数并生成频繁多项集。该算法较Apriori算法减少了数据库的扫描次数,内存占用相对FP-树算法较少,实验证明该算法在速度上有一定的改进,特别是在数据集的项目数不超过30项,记录数较多时,效果更明显些。在后面又对SHT算法进一步做了优化,并在学校教学评价数据集上实现,得到了一些有意义的知识,具有较强的应用价值。
其他文献
监控系统作为保护人们生命财产安全的有效辅助设施,是当前一个新的研发热点。如何利用现有的资源和技术,更好地实现视频图像序列中的运动目标跟踪、定位与识别,通过图像分析实现
随着计算机网络结构的日益复杂,以及大规模、分布式高速网络的大量应用,整个网络所面临的安全威胁日益严重。入侵检测系统已成为网络安全的重要组成部分。许多网络中布置了大量
互联网已成为学习知识及开阔视野的最佳途径,它正在逐渐发展成为大众伸手可及的媒体传播手段和通讯工具;然而互联网也带来诸如色情小说、色情图像传播的问题。一些预防网络色情
随着计算机网络技术的迅猛发展,以及计算机硬件性能的大幅度提高,新的市场需求应运而生。特别是有关网络方面的需求更是层出不穷,从事宽带接入系统开发的一家公司向我们提出需要
本文研究的课题是目前仍未解决但关系到下一代电子市场发展以至成功与否的关键问题。 随着电子商务的发展,一些关键问题逐渐暴露出来。首先,面对全球数量庞大的在线企业,对一
本文首先讨论CSCW对数据库技术在移动性、保留历史记录等方面的要求,提出各种新一代数据库技术对CSCW的支持,并总结其各自的研究现状;针对移动CSCW的快速发展,本文又重点探讨时空
该文主要以音字转换问题为背景,以统计语言模型为基本框架,对汉语语言模型进行深入研究.该文的出发点为提高语言模型精度和自适应能力,最终改善应用系统的性能.该文在如下 四
本文作者研究了计算机网络系统集成理论与技术,包括:网络规划与设计、局域网集成、广域网集成、因特网集成、网络安全保密、VLAN技术、VPN技术等。在理论与技术研究的基础上,完
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效的管理是摆在人们面前的
随着计算机网络通信的迅猛发展,密码协议的重要性越来越得到重视。而在众多的验证方法中,模型检测方法在对密码协议的验证中体现出了它的优势。  本课题研究的目的是采用模