论文部分内容阅读
传统的数据挖掘对象主要是针对数据库或者数据仓库,然而大量的数据并非存储在他们之中而是分散在万维网上。基于种种因为不能直接得到Web数据的后台数据库,因而无法直接利用各种基于数据库或数据仓库的数据挖掘技术来获得Web上的隐含知识,由此Web数据挖掘应运而生。
Web是一个巨大的、分布广泛的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;它包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。现行的网络环境大都以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的标记语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W3C开发的XML可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。
本文研究了基于XML的Web文本挖掘的基本方法和技术,其核心思想是将现有的Web页面转换成XML格式,从而完成了对Web上异构的、半结构化的数据进行整合和组织,使其成为结构化较好的、高层次的资源集合,然后使用XML技术处理XML结构的数据,找到适当的数据,并将这些数据映射到关系数据库中,最后通过面向关系数据库的数据挖掘工具进行关联规则提取,以获得更多有用信息。
本文的主要内容有:
第一,阐述了XML的特点,文档结构,并与HTML作了比较,介绍了XML的相关技术。对Web数据挖掘进行了全面的介绍,包括Web数据挖掘的定义,工作流程,与传统数据挖掘的异同,将Web挖掘与Web信息检索作了比较。介绍了XML技术与Web数据挖掘相结合的发展状况。
第二,提出了一个基于XML的Web数据挖掘系统模型,给出了基于配对原则的Html到XML的转换方法,并通过实验与HTML Tidy工具作了比较。基于此方法,设计并实现了基于XML的Web数据抽取,最后将有关数据映射到关系数据库中,为在Web挖掘中使用传统的针对关系数据库的数据挖掘方法进行挖掘创造有利条件。
第三,简要介绍了关联规则提取的过程和方法,重点介绍并分析了挖掘关联规则的两种经典算法--Apriori算法和FP-growth算法。提出了一种基于排序FP-tree挖掘最大频繁模式的高效算法SFP_MFP,给出了最大频繁模式树MFPL-tree的定义,并用其存储最大频繁模式集,采取了多种措施减少候选最大频繁模式的产生,利用有效的子集检查方法,极大地降低了算法的时空开销,提高了挖掘效率。实验结果表明,该算法非常高效。
第四,本文探讨了基于XML的Web文本挖掘在网上基金日增长率挖掘系统中的应用。最后,对本文的研究和设计工作进行总结,并指出今后需要进一步完成的工作和待解决的问题。