基于XML的Web数据抽取技术的研究

被引量 : 0次 | 上传用户:AdamMYS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web作为一个全球化信息空间,蕴含着巨大的潜在价值。尽管目前已对Web数据抽取技术进行了大量的研究工作,但是现有的技术还不能让用户满意。XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准。 论文通过对Web数据抽取步骤的分析和研究,针对目前存在的问题,提出一种快捷、实用的基于XML的web数据抽取技术的解决方案,并对其中涉及的关键技术,如搜索策略、转换算法、抽取方法等方面进行深入研究,期望为推进本领域的发展作一点贡献。 论文的主要内容包括如下几个方面: 1.提出了一种应用于小范围Web的搜索策略:改进的HITS算法。该算法针对小范围Web的链接结构特点,构造间接链接,并且根据用户访问的频率对链接加权。改进的算法使得小范围Web的链接结构更接近万维网的链接结构,同时链接加权输入结合了用户的反馈。理论和实验证明算法是正确的。 2.提出了一种基于栈结构的HTML到XML的转换算法。通过栈结构的概念,有效地将HTML格式转换为XML格式。简化了数据抽取工作,方便地形成XML文档,为处理XML文档、抽取出适当的数据作了铺垫。 3.提出了XML数据抽取的健壮性标准,将该标准运用于XML数据抽取的区域定位和映射合并中,并分别给出了符合健壮性标准的合适方法,从而提高了数据抽取的效率。 4.原型系统的实现。根据上述三点的研究结果,结合数据抽取技术、XML技术和Java技术,提供了一个快速、通用的基于XML的Web数据抽取原型系统,具有良好的适应性和可移植性。
其他文献
管道风险评价技术是二十世纪70年代在国外发展起来的一项管道评价技术,具有很强的实践针对性。通常情况下,新建输气管线的设计主要选择省工时、省费用的方案,但未考虑管线的
农业产业链升级是提高农业生产效率、推进农业产业化进程的重要措施。随着京津冀一体化战略的实施和推进,承德市农业产业也迎来新的发展机遇。本研究基于SWOT模型分析承德市
近年来,随着中国已拥有的创业投资经验与环境,此刻更需要创业素质的增进及培养,因此创业教育的课程发展是当前重要的课题。同时,创业教育也成为高校素质教育的工作重点之一。
目前,我国资源税的征税对象只包括矿产品资源和盐资源。由于矿产资源具有不可再生性,在一定时期内利用开采越多、存量必然处于持续减少的状态,因此资源问题已经成为世界各国
甲壳素、壳聚糖是天然高分子化合物,具有独特的化学结构,无毒无害,由于其良好的生物相容性、生物活性、生物可降解性,是开发医用材料的理想原材料。对壳聚糖进行改性可以进一
船舶优先权虽然在各国的名称不尽相同,但它是各国海商法都有的制度,不论在实体上还是程序上,其均亦是是海商法中最具特色的制度之一。然在我国,海商法很晚才起草及至生效相对
人工神经网络(ANN)是以模仿人类大脑的结构为基本原理的一种非数值算法。将神经网络算法与模糊数学(FM)思想相结合便产生了模糊神经网络(FNN)。模糊神经网络作为人工智能领域
随着世界经济的快速发展和现代科学技术的进步,物流在社会经济中的作用越来越突出。对于企业而言,物流已成为企业“第三利润源”,物流战略已成为企业的重要战略之一。在企业
管理会计的发展意义重大,财政部在2014年初《财政部关于全面推进管理会计体系建设的指导意见(征求意见稿)》(以下简称《意见》)的发布拉开了我国全面开展管理会计建设工作的
随着科学技术的迅速发展,现代企业面临的竞争环境发生了很大的变化,制造费用的大比例上升,使传统的以单一的成本动因分配制造费用的成本管理方法不能提供准确成本信息,作业成