论文部分内容阅读
近年来,数据挖掘已经引起了信息产业界的极大关注,这是快速增长的数据量和日益贫乏的信息量之间矛盾的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发展的客观需要。
本文先对数据挖掘技术做了简单的总结,对它的产生进行了简要的回顾,对数据挖掘的对象、可发现的模式和常使用的技术进行了较全面的分类、归纳和总结。接着对关联规则数据挖掘技术进行了概括性描述。主要就关联规则的典型挖掘算法及基本思想进行了详细地归纳、分析和研究,就各算法之间的差别进行了客观地比较,分析了它们的优缺点,为SHT算法的提出做了较好的铺垫。
关联规则挖掘中最主要的问题是频繁项集的产生,针对经典频繁项集挖掘算法的不足,本文提出了一种基于超级哈希树三次扫描数据库的Apriori改进算法(简称SHT算法),该算法在生成频繁_2项目集后,只要再扫描一次数据库,就可对后面的多项集一次性计数并生成频繁多项集。该算法较Apriori算法减少了数据库的扫描次数,内存占用相对FP-树算法较少,实验证明该算法在速度上有一定的改进,特别是在数据集的项目数不超过30项,记录数较多时,效果更明显些。在后面又对SHT算法进一步做了优化,并在学校教学评价数据集上实现,得到了一些有意义的知识,具有较强的应用价值。