基于XML的Web文本挖掘算法研究及应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ysgmxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据挖掘对象主要是针对数据库或者数据仓库,然而大量的数据并非存储在他们之中而是分散在万维网上。基于种种因为不能直接得到Web数据的后台数据库,因而无法直接利用各种基于数据库或数据仓库的数据挖掘技术来获得Web上的隐含知识,由此Web数据挖掘应运而生。   Web是一个巨大的、分布广泛的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;它包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。现行的网络环境大都以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的标记语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W3C开发的XML可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。   本文研究了基于XML的Web文本挖掘的基本方法和技术,其核心思想是将现有的Web页面转换成XML格式,从而完成了对Web上异构的、半结构化的数据进行整合和组织,使其成为结构化较好的、高层次的资源集合,然后使用XML技术处理XML结构的数据,找到适当的数据,并将这些数据映射到关系数据库中,最后通过面向关系数据库的数据挖掘工具进行关联规则提取,以获得更多有用信息。   本文的主要内容有:   第一,阐述了XML的特点,文档结构,并与HTML作了比较,介绍了XML的相关技术。对Web数据挖掘进行了全面的介绍,包括Web数据挖掘的定义,工作流程,与传统数据挖掘的异同,将Web挖掘与Web信息检索作了比较。介绍了XML技术与Web数据挖掘相结合的发展状况。   第二,提出了一个基于XML的Web数据挖掘系统模型,给出了基于配对原则的Html到XML的转换方法,并通过实验与HTML Tidy工具作了比较。基于此方法,设计并实现了基于XML的Web数据抽取,最后将有关数据映射到关系数据库中,为在Web挖掘中使用传统的针对关系数据库的数据挖掘方法进行挖掘创造有利条件。   第三,简要介绍了关联规则提取的过程和方法,重点介绍并分析了挖掘关联规则的两种经典算法--Apriori算法和FP-growth算法。提出了一种基于排序FP-tree挖掘最大频繁模式的高效算法SFP_MFP,给出了最大频繁模式树MFPL-tree的定义,并用其存储最大频繁模式集,采取了多种措施减少候选最大频繁模式的产生,利用有效的子集检查方法,极大地降低了算法的时空开销,提高了挖掘效率。实验结果表明,该算法非常高效。   第四,本文探讨了基于XML的Web文本挖掘在网上基金日增长率挖掘系统中的应用。最后,对本文的研究和设计工作进行总结,并指出今后需要进一步完成的工作和待解决的问题。
其他文献
P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这
1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展
随着数字电视相关技术的不断发展和完善以及数字化产品和信息服务在家庭中的不断渗透和日益融合,数字电视互动应用也日趋丰富和多样。数字电视互动应用和服务有着巨大的市场需
网格中资源具有地理位置分布、运行平台异构、种类繁多的特性,它们能动态的加入或退出网格环境。因此,资源的发现和监控问题成为网格技术发展中必须要解决的问题,也成为研究
访问控制是提高工作流安全性的重要机制。本文研究了当前基于角色和任务的工作流访问控制模型的应用背景,分析与总结了工作流访问控制需求要点,针对现有的访问控制机制在工作
网格计算自从第一次被用到科学和商业领域到现在已经取得了长足的进步。相信网格计算的下一个阶段是将网格服务提供给资源受限的设备,例如手持设备、PDA、智能手机、传感器等
未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然
随着WebService技术的发展,面向服务架构的思想不断成熟,把SOA架构思想引入到电子政务系统是一个很好的尝试.因为SOA架构思想是面向服务的,它可以把已有的服务进行重组封装,形成
生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置
人脸识别是生物特征识别的关键技术之一,涉及图像处理、模式识别、计算机视觉、机器学习和人工智能等诸多学科领域,在公共安全、信息安全、人机交互、智能监控等领域中有着广