频繁项集挖掘问题的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:chengl1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对频繁项集挖掘问题进行了深入的研究和探索,主要研究工作内容和贡献如下: 1、对频繁项集挖掘中搜索空间剪枝问题进行深入研究,在认真分析现有的7种搜索空间剪枝策略的基础上,提出了两种新的搜索空间剪枝策略:扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2。它们都基于项集的扩展支持度相等性进行搜索空间削减,可用于最大频繁项集挖掘任务和封闭频繁项集挖掘任务,对其它剪枝策略无法处理的搜索空间有效地进行剪枝。同时证明了相关的定理和推论,保证了这两种新的搜索空间剪枝策略的正确性和有效性。 2、进行最大频繁项集挖掘算法的研究。在详细分析公认的高效最大频繁项集挖掘算法——MAFIA算法的基础上,应用新的搜索空间剪枝策略对MAFIA算法进行优化改进,得到效率更高的最大频繁项集挖掘算法——MAFIA+算法。通过实验对改进后的算法进行验证,实验结果表明,MAFIA+算法在不同的测试数据集上性能都优于MAFIA算法,尤其是在拥有大量长的最大频繁项集的测试数据集上,效率比原有的MAFIA算法提高约3倍。 3、进行封闭频繁项集挖掘算法的研究。提出一种新的封闭频繁项集挖掘算法——ECFIMA算法。该算法采用深度优先和广度优先相结合的策略访问搜索空间,使用垂直位图向量存储表示项集和事务数据库,同时利用基本剪枝策略、相等性剪枝策略、扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2进行侯选空间剪枝。采用多种不同特性的测试数据集进行实验。实验结果表明,ECFIMA算法是一种高效的封闭频繁项集挖掘算法,在多种测试数据集上性能都优于CHARM算法,尤其是在拥有大量长的封闭频繁项集的测试数据集上,效率比CHARM算法提高约2-3倍。
其他文献
众所周知,Navier-Stokes在流体力学中起着非常重要的作用,许多学者对Navier-Stokes方程也进行了研究,发展了方程的各种形式,并运用有限差分、有限元和谱方法来解决此问题。在差分
本文分别考虑了一维非稳态Burgers方程和二维非稳态Navier-Stokes方程,提出了二阶隐的Legendre谱格式,严格地证明了格式在时间方向上具有两阶精度,在空间方向上具有谱精度。
本文分文两部分论述了泛函微分方程的稳定性和振动性问题: 第一部分讨论的是P-滞后型泛函微分方程的稳定性问题,该类方程的定义最早在文献[1]中被提出,在文献[1]中将此类方程
本文主要研究了分数阶热传导侧边值问题,近年来侧边值问题成为数学领域的重要的一个分支并且对工业和工程领域的发展也有很大的推动作用.侧边值问题通常是不适定的,即初始条件
利用通讯网络实现地域上分布的现场传感器、控制器及执行器之间的信息相互交换,以达到被控对象的实时反馈控制,称为网络控制系统。网络控制系统具有系统连线少、可靠性高、结构
对于一阶Hamilton系统(z)=JHz(t,z)(HS1)和二阶Hamilton系统(z)-Kz(t,z)+Vz(t,z)=h(t),(HS2)其中位势函数H、V满足如下形式的超二次条件:当|z|→∞时,都有H(t,z)H(t,z)/|z|2→+∞,对
随着经济的快速发展,资源短缺和环境污染问题日益严重.同时,随着城市化进程的加速和人口的迅速增长,我国城市生活垃圾的产量逐年增加,它不仅造成严重的环境污染,还能影响到社
本文主要研究了两个方面的问题:一是Bihari不等式(参看[7])在多参数情形的推广;二是关于由多参数Brown运动驱动的非Lipschitz随机微分方程解的存在唯一性,同时我们研究了两种
正态分布在概率统计的理论和应用中,都占有特别重要的地位,因此如何生成服从正态分布的数据是人们热衷的问题。用随机数发生器产生均匀分布随机数,然后通过各种途径将其转换成服
本文研究了偏微分方程解的稳定性,全文分为两章: 第一章研究了Byrne和Chaplain在1996年建立的一个3-维未血管化肿瘤生长模型。该模型是一个关于肿瘤内部压力和肿瘤内部营养