基于频繁模式树的XML数据挖掘

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sddxfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决“数据丰富、信息贫乏”的有效方法。XML是由SGML发展而来的一种简单、灵活的文本格式。它已经成为Internet上数据描述和交换的标准,越来越多的数据以XML文档进行存储,在这些数据中隐含着大量的知识信息与各类模式,因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的知识,这就是XML挖掘。但是,作为一种树形的半结构化数据,XML非常复杂且具有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型数据的挖掘方法如Apriori算法等,并不能直接应用到XML挖掘上。因此,研究一种有效的针对XML的数据挖掘方法成为数据挖掘领域和XML技术领域的一项重要课题。本文首先介绍了传统的数据挖掘基本理论、XML的基本理论、XML的特点以及XML有关技术规范。其次介绍了频繁子树挖掘的相关概念和现有的一些频繁子树挖掘算法。接着在分析了现有频繁模式树挖掘算法FREQT和Freqttree的基础上,提出了一种新的频繁模式树挖掘算法—PDOM算法。PDOM算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来压缩候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的支持数时,采用增量式技术,提高算法效率。通过定理证明了PDOM算法的正确性,并对其进行了实验分析。最后,考虑到XML的树形结构,提出了基于频繁模式树的XML文档分类算法—BFPC算法。BFPC算法基于XML内容和XML结构两方面。它首先利用tf*idf权值法提取XML文件中非结构的信息即XML内容的特征代表,接着利用PDOM算法提取各个类别的频繁模式树,作为该类别的结构特征,并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算法—PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用PMatch算法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。通过实验证明,BFPC算法有较高的查准率。
其他文献
电信行业发展到今天,电信行业普遍面临传统语音业务趋于稳定甚至饱和的情况,各式各样的增值业务将是电信行业未来的关注点。在增值业务领域存在着运营商管理不统一,用户管理
Rootkit是一种新型的恶意程序程序或程序集,设计的目的是用来秘密的控制被攻占的计算机的行为。通过隐蔽后门程序或其他类似的工具程序,使得这些工具程序能在指定计算机上长
本文以海尔的中网发展战略为背景,通过对家庭网络中间件技术的研究,设计了家庭网络中间件系统,从而为下一步提供更加方便智能的家庭网络服务打下了坚实的基础,主要工作包括以
传统的家电已经无法满足现代家庭的需要,人们需要能够自动获取外界信息、能与其它家电协同合作并具有智能化的信息家电(IA),因此信息家电智能化的发展是未来家庭发展的必然趋
XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的新标准,各行各业都在使用XML描述本领域信息,随着XML文档的急剧增加,如何有效存储、管理和查询这些XML数据
随着Internet迅猛发展,接入Internet的用户数量剧增以及服务网络固有的延迟,造成Web服务器负载和用户访问延迟严重等一系列问题,用户的服务质量得不到很好的保证。缓存技术能
随着计算机系统性能的不断提高、存储数据量急剧增加以及信息越来越复杂,用户如何高效组织和管理信息成为信息技术的重要课题。文件系统作为操作系统中存储和管理信息的主要构
随着Web服务技术鉴于其封装性、松耦合等特点获得了的广泛应用,众多的服务提供商将他们的服务以Web服务的形式封装并发布。相应的,消费者对于服务的功能、反应速度、服务质量
随着我国经济体制和行政体制改革的深化,社会正处于转型期,在这种形势下,要求政府及时主动公开政府信息,加强与公众之间的沟通,为公众提供高效便捷的服务,履行公共服务的职能
随着通讯与计算技术的不断发展,无线传感器网络正在发挥越来越重要的作用。无线传感器网络通过传感器节点收集并传输观测数据,最终将观测数据交付观察者。它跟传统无线网络最