基于ONTOLOGY的WEB页面信息抽取

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:aghiiuooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据的组织格式主要以半结构化为主.不像结构化数据,半结构化的数据对于数据查询是十分不易的.该文在信息抽取中引入了Ontology(本体)的技术,提出了一种基于Ontology、能处理语义的Web信息抽取系统.信息抽取技术(Information Extraction,缩写为IE)是一种面向具体任务的实用的文档理解技术.与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题的信息.该技术适用于具有特定主题及相对确定的信息结构的文档如广告、新闻、数据库自然语言查询、特定领域的文告等.
其他文献
钻井成本在油气田开发费用中占有很大的比例,如何降低钻井成本是油气田开发评价及研究中的重要课题.钻井过程由于井壁失稳造成的复杂情况,如井壁垮塌、缩径、漏失及储层保护
论文从软交换产生的背景、软交换的概念和主要功能、软交换的协议、与传统网络的融合,以及基于软交换的增强型业务框架等方面对软交换技术进行了论述,并给出了软交换技术的两
随着Internet的迅速普及和爆炸性发展,在网络上产生了许多新的应用,如网络会议、分布式资源发现、分布式数据库开发等,这些应用不再是简单的点对点的文本信息传输,而是一般需要传
该文来源于华为科技基金项目"IPSEC在IPv6中的实现以及基于其上的虚拟专用网的组建".论文首先简要论述了课题的研究背景和研究意义,分析了IPv6协议取代IPv4 协议的必然发展趋
该文根据N层体系结构的理论模型及J2EE规范,提出了一种基于EJB组件的企业应用模型,进而在Bea Weblogic 平台上实现了基于EJB组件的企业应用系统——网上购物系统.网上购物系
该研究课题是在移动设备上设计并实现一个多媒体消息系统,能够发送和接收多媒体消息,并且可以将收到的多媒体消息完整的播放出来.这个系统包括三个主要部分:MMI协议、多媒体
该文通过对Linux的进程调度进行分析,发现Linux关于实时进程的优先级没有涉及到实时进程的截止期和进程的紧迫性,为了增强Linux关于实时进程的处理,该文提出了一种优化改进调
TCP是因特网上的主要传输协议,在数据包丢失主要是由拥塞引起的传统网络上,TCP可以充分发挥其性能.但是在固定无线接入网络中,TCP将信道比特差错引起的数据包丢失误归于网络
因特网的网络带宽具有时变性.视频流传输速率高于网络带宽时会发生阻塞,造成突发的丢包和延时过大;视频流传输速率低于网络可用带宽,就无法有效地利用网络资源.因此,保证与提
为了适应企业发展的要求,提高软件抽象的层次,并在此基础上提高软件的质量和软件组织的开发效率,该文应用构件技术,提出一个适合于企业级文件传输与数据处理的系统总体结构.