【摘 要】
:
信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析,本文提出了一种针对XML的信息提取技术。XML(eXtensible Markup Langua
论文部分内容阅读
信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析,本文提出了一种针对XML的信息提取技术。XML(eXtensible Markup Language)是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准。它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。 组件对象模型COM,是一种以组件为发布单位的对象模型,这种模型使各软件组件可以用一种统一的方式进行交互。COM除了具有面向对象的特性和客户/服务器特性这两个基本特性外,还有语言无关性、进程透明性和可重用性。COM作为一种软件模型,不仅提供了程序与程序之间通信的标准,而且可以改变传统的程序设计方法。 本文首先对XML技术的发展和特点做了论述,将它与HTML做了比较。接着阐述了COM的基本原理和COM的客户/服务模型,介绍了基于COM的组件化程序设计方法,将其与面向对象的程序设计方法进行了比较,并对COM技术的未来进行了展望。在以上理论的基础上,再加上ASP(Active Server Pages)技术,设计和实现了一个基于“ XML+COM+ASP”技术的一个应用系统。该系统可对XML数据文档进行分析和查询。本文描述了分析和查询XML数据文档的方式和算法,以及定制COM的结构,并在Windows NT Workstation上用Microsoft的IIS作为Web服务器,使用定制的COM,实现了一个XML文档分析查询器。 最后,本文对所定制的COM进行了分析,对所实现的系统的特点进行了阐述,指出了存在的问题,并提出了有待进一步探讨的问题。
其他文献
该网络课件制作系统是从底层开发的一种专门应用于制作网络课件的工具软件.它力求按照用户的操作习惯安排操作界面,尽量简化所需的操作环节.目前,该系统已经解决了制作课件中
该文着重讨论了松散耦合的分布式信息系统中的数据挖掘问题.对于信息标准化,文中采用XML作为松散耦合的分布式信息系统各自治系统之间的中介,将可能的信息和数据挖掘结果都采
CHARM-NT系统采用"退出再加入"的方式设置检查点,其设置的检查点是可恢复、可迁移的一致性检查点;在设置检查点完毕后,重新加入采用了指定逻辑结点号的方法,使得程序在检查点
该文针对高分辨率遥感卫星实际需求,研究适用于星载高速数传系统的高分辨率全色图像高速实时压缩技术,主要研究内容为:1.高保真压缩算法.压缩算法必须尽可能的保存图像细节,
该论文研究在通用网络上构建面向普通用户的动态非专用机群进行分布式并行计算的有关问题,主要围绕着系统体系结构和任务分配调度进行.在进行相关理论和技术研究的同时,结合
该文主要研究如何构造一个介于CICS/VS和应用系统之间的银行联机控制系统(Bank Control System),简称BCS.该文给出了BCS平台的设计思想,研究了基于CICS/VS环境下的BCS联机系统环
随着因特网和计算机技术的迅猛发展,电子商务、在线交易与分析、智能化的个性服务、企业的全球化管理、应用集成、服务集成等新业务需求的提出,需要在异构、分布的环境中完成各
该论文在对网格化简的相关工作进行介绍和分类的基础上,讨论了网格化简基本操作的内在联系.利用它,用户可以方便的选择合适的网格化简基本操作,并迅速开发他们所需的网格化简
主动网络作为一种新型的中间节点可编程的网络体系结构,为网络新协议和新服务的开发、验证和部署提供了很好的支持,同时也为网络管理、服务质量控制、可靠组播等提供了一条新
该文首先讨论了个性化领域在国内外的研究和应用现状,并着重介绍了几个与此相关的重要理论及技术,包括用户建模、数据挖掘等.然后文章以较大的篇幅详细论述了一个实际个性化W