不确定数据频繁项挖掘的研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:sungod123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项挖掘作为数据挖掘领域研究的重要主题之一,已被证实具有一定的理论价值,并且在市场选择、决策支持和商务管理等方面得到广泛的应用。随着科学理论和技术的发展,金融,传感器网络和医学等领域涌现大量不确定数据。简单忽略数据的不确定性,应用传统算法挖掘频繁项产生的结果难以令人信服。近年来,针对不确定数据的频繁项挖掘逐渐成为研究热点,大部分研究成果基于传统频繁项挖掘算法改进,如U-Apriori算法、UF-growth算法等,性能勉强接受,但有待深入研究。鉴于此,本文针对UF-growth算法和U-Apriori算法进行改进和优化,进一步提高不确定数据中频繁项挖掘的效率。  针对UF-growth算法构造大量树结点和分枝的局限性,提出压缩UF-tree算法,放宽构建树结构标准:不考虑数据项的存在概率,数据项名一旦与树结构中对应结点匹配,共享该结点,否则,考虑从未匹配结点处开辟新分枝,当前数据项及事务中其后的所有数据项作为结点有序地添加到新分枝中,事务中最后处理的数据项对应的结点保存事务编号。借鉴概念格理论中的等价类关系产生候选项,缩减遍历分枝的路径次数。构建概率向量结构,集中存储单项频繁项的存在概率,结合事务编号集,利用点积运算统一处理所有候选项的支持度,经过支持度约束过滤,产生所有频繁项。通过实验证明,与UF-growth算法相比,压缩UF-tree算法效率更高。  针对U-Apriori算法多次遍历数据库的缺陷进行改进,结合Eclat算法思想,提出UF-Eclat算法。将不确定数据项的存在概率进行抽离,保存在概率向量之中。采用Eclat算法的深度优先搜索策略,以单项频繁项构建初始结点,同层兄弟结点构成子数据库,利用概念格理论的等价关系,产生基于当前结点的原子项,作为项集搜索树的下层结点,实现i项频繁项产生(i1)项频繁项。在迭代过程中,利用概率向量点积运算计算候选项的支持度,通过支持度约束过滤非频繁项,使用Apriori性质对树分枝进行前修剪,抑制树结构的过度增长。通过实验证明, UF-Eclat算法结果与U-Apriori算法相同,性能比后者有所提升。  结合压缩UF-tree算法和UF-Eclat算法的工作机制,对两种算法进行对比,并分析影响算法运行时间的主导因素。在不同性质的数据环境中,两者性能对比的结果不同,压缩UF-tree算法效率与事务数量以及事务间的相似性紧密相关,而UF-Eclat算法运行时间主要由属性数量和支持度阈值决定。
其他文献
随着计算机技术的发展,嵌入式系统己成为计算机领域的一个重要组成部分,并成为近年来新兴的研究热点。而采用ARM微处理器作为硬件基础和μC/OS-Ⅱ作为嵌入式操作系统被广泛的应
随着计算机处理能力日益增强,网络技术、多媒体技术的不断发展,随之而来的是大量的多媒体信息不断地产生。视频信息在多媒体信息中占最大比例,信息量最多,应用前景最广。由于视频
随着Internet的普及与发展,网络安全所面临的威胁也越来越严重。在对Internet的恶意攻击中,拒绝服务(DenialofService,DoS)攻击占了相当大的比例,并且还在不断增长中。拒绝服务攻
统计学习理论是一种专门研究小样本情况下机器学习规律的理论,支持向量机方法是在该理论基础上发展起来的通用学习方法,它具有全局优化、适应性强、理论完备、泛化性能好等优
网络时代的出现和发展使越来越多的人融入到信息社会中来,各种信息、知识的获取以及娱乐节目的收看等媒体信息服务被越来越多的人们所希望,而对应于这些需求,出现了各种各样
随着计算机网络技术的不断发展和普及,数据量正在以一个爆炸式的趋势增长,数据的复杂度也更加多样化,而要从海量的数据中获取有价值的信息也变的非常困难,这给数据挖掘技术带来一
孤立点挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测。孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某
在当前网络蓬勃发展的今天,TCP/IP作为层次性网络体系结构的主流技术体系存在不少弊端,目前有两个方面的解决方案:在TCP/IP体系结构下的改进(如IPv6),开创新型网络体系结构。
随着多媒体技术和视频成像技术的快速发展,出现越来越多的图像显示设备,如手机、电视、平板电脑、笔记本电脑等。图像有固定分辨率,一幅图像在不同的显示器上显示时会发生导
随着信息化步伐的加快,软件危机呈现出愈演愈烈的趋势,如何有效维护现存软件以缓解危机的研究也变得更加紧迫。软件再工程通过利用重新抽象出设计模型、将新的技术和需求应用