面向网站及领域本体的Web信息提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ss1725
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互连网的飞速发展,信息提取技术成为互联网个人代理和数据整合,数据集成,数据迁移等数据密集型应用的关键技术.由于互联网是一个开放环境,如何解决开放性带来的各种数据不稳定的问题成为信息提取技术所要面对的挑战.更好的自适应能力,更强的可扩展性,更少的人工干预,更高的提取效率,是当前互联网信息提取领域的发展方向.另一方面,语义网(Semantic Web)作为下一代的互联网,描绘了在网络的开放式环境中计算机真正"智能"化地处理数据的美好前景,作为语义网核心技术的本体论方法具有改进信息组织、信息管理和信息理解的巨大潜力.越来越多的研究将本体引入了信息提取技术,利用信息提取与知识的天然联系,增强信息提取系统的适应性和可扩展性.该文根据数据密集型网站中的动态页面所固有的结构化特点以及信息内容分布上的统计特性,在信息提取过程中引入本体知识,针对Web信息提取领域面临的几个主要问题,设计了一个Web页面信息提取框架模型H-MODEL 2.0:该模型包括页面区块划分模型,HTML页面表示树状模型,本体架构模型和本体维护模型四个子部分,按照结构层,内容层和语义层的层次方式,循序渐进,逐步完成信息提取的工作.在H-MODEL 2.0的框架下,该文给出了一个实现系统——基于本体的自适应Web数据提取系统DOMi,并通过实验对其性能进行了分析.
其他文献
在人际交往中,面部表情是信息传递的重要方式之一,甚至可以传递语言不能表达的信息。研究人脸表情识别的计算方法,使得计算机能够根据人的表情信息,推断人的心理、行为状态,实现智
随着计算机技术的飞速发展,企事业单位对各类应用软件的需求越来越迫切,这对软件企业提出了更高的要求.传统的软件开发方法很少强调复用,这样就必然导致大量的重复劳动,给软
Internet技术正在深刻的改变着这个世界.随着人们对地理信息需求的增加,基于Internet发布地理信息数据,供全球用户查询、检索并提供GIS服务的万维网地理信息系统(WebGIS),已
近年来,随着云计算技术不断发展,各行业的信息化建设不断加快,如何有效地应用云计算技术优势,帮助行业将数据转换成服务和价值成为了一个亟需解决的挑战。本文提出了一种业务
生物牲识别技术因其在身份识别时的准确、方便、不易仿造等特点,正在被越来越多的学者和研究机构所重视.所谓生物特征识别技术是指导通过计算机利用人体所固有的生理特征或行
随着网络和通信技术的飞速发展,信息系统特别是信息管理系统的应用领域越来越广泛,各种企业管理系统的使用己成为企事业单位进行计划、监督和辅助决策的最重要的手段之一。目前
HLA(High Level Architecture)代表着先进的分布式仿真技术的未来发展方向,是目前分布交互仿真领域的研究热点.运行时间支撑系统RTI(Run-time Infrastructure)按照HLA的接口
数字地球建设要求广泛共享空间信息,空间数据仓库则为空间信息的有效管理和大众分发提供了有效的工具.空间数据仓库技术将较为成熟的数据仓库和联机分析处理技术应用到空间信
伴随着以IOS、Android平台为代表的移动智能终端的广泛普及和移动通信技术的更新换代,移动互联网飞速发展。根植于移动智能终端上的移动应用也迅猛发展,其中大部分应用均涉及
绪论随着越来越多的主机连入网络,网络安全变得越来越重要。增强网络安全的一种机制就是过滤掉那些潜在的不怀好意的网络数据包。防火墙就是提供基于策略的网络过滤,用于阻挡网