基于XML面向Web的数据抽取技术研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:hezhimou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年Internet的飞速发展,信息量呈指数式增长。怎样从大量信息的Web中抽取出有用的数据成为现今的研究热点。因此,本论文对现在的Web数据抽取技术进行研究。论文首先提出一种基于二叉树的HTML向XML的转换方法,有效地将HTMU恪式转换为XML格式。简化了数据抽取工作,为后面的抽取数据作了铺垫。其次对数据映射进行分析,研究用XSL文档将XML数据进行映射。经过研究表明此方法对XML数据源映射为需要的XML数据文件是最优的。再对XML数据集成进行分析,提出了XML数据的存储,尤其是数据库的存储。同时还提出了基于XML的Web查询模式,为整个信息抽取工作的后期数据集成提供了很好的支持。最后根据所做的研究结合数据抽取技术、XML技术和.NET技术,提供了一个快速、通用的基于XML的Web数据抽取原型系统。
其他文献
本文比较基于几何建模和基于图像绘制两种虚拟现实技术的特点,分析了基于图像绘制技术在虚拟场景构造中的优点,并针对基于图像绘制技术所需要解决的问题,提出了一套基本完备
随着不断增长的信息化建设需求,提高软件开发的生产力并保证软件产品适应多变的客户需求成为信息化建设领域的两个核心问题。基于CMM的软件开发平台符合信息系统平台化建设目
网络技术是一项劳动密集型产业,在比较复杂的网络环境中,不对网络流量进行实时的监控和适当的管理,很容易造成网络的繁忙,导致网络的拥塞等状况,影响网络用户的使用,直接导致经济的
管理信息系统在现实生活中有着广泛的应用,企业利用管理信息系统控制企业的行为,帮助企业实现其规划目标。随着管理信息系统的广泛使用和市场需求量的扩大,在管理信息系统的
即时通讯目前已成为一种新型的通讯模式,随着3G牌照的发放,捆绑于移动IM之上的包括彩信、彩铃、图片、博客、手机电视等应用都会得到充分发掘。未来移动网络演进的必然方向是
随着互联网发展,已有30多年历史的IPv4协议目前还广泛地应用于网络通信中。但是,正因为其广泛使用,带来的却是最大弊端—IP地址极度匮乏,其次,安全方面、网络服务质量也是令IPv4头
近年来多媒体数据的数字化为多媒体信息的存取提供了极大便利,提高了信息表达的效率和准确性。但是,盗版问题也随之而来,如何有效地保护这些信息安全成为当前研究的热点。数
XML流数据处理系统通常运行在Web上,使用的用户可能增加到十万、百万级的数量。而用户查询通常用XPath语言表示,当XML数据以网络速度流入时,系统根据XPath描述,判断XML数据流
片上系统SoC(systcm on Chip)的出现使得整个系统在一个芯片上实现成为可能。总线由于可以提供高性能的互连而被广泛运用在SoC中。但是随着半导体技术的持续发展,出现了一些与
数据挖掘(Data Mining)是涉及人工智能和数据库等学科的一门新兴交叉性学科。作为数据挖掘的一种重要模式,关联规则一直受到广泛的关注,并取得了丰硕的研究成果,这些成果中,