基于领域本体的网络信息抽取方法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wysnl2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络飞速发展的今天,Web已经成为全球最大分布式共享信息资源。由于网页结构的复杂性、页面动态性和内容的多样性,使得人们在网络上搜索到有价值的信息非常困难。信息抽取技术可以有效的将网络中的信息提取出来,转化为一定的格式,从而使得信息获取变得简单快捷。本文研究了本体及领域本体的相关概念,深入分析了本体构建的方法和规则,在此基础上提出了一种基于领域本体的网络信息抽取方法。该方法中,待抽取的网页自动同已构建的领域本体中的概念、属性、关系进行模式匹配,并进行相应的预处理和语法分析,然后按照抽取规则对预处理后的网页文档进行信息抽取,最后将抽取结果存储为信息文档格式或者直接保存在数据库。由于基于领域本体的信息抽取技术对页面结构没有依赖性,所以通过领域本体来描述待抽取的知识库进一步增强了信息抽取模板的语义表达能力,同时在特定的领域进行抽取信息,能够较大程度的提高信息抽取的正确率。本文在上述基础上构建了计算机操作系统课程(Operation System Course,简称OSC)领域本体,并设计实现了基于OSC领域本体的网络信息抽取系统。最后,通过实验对抽取系统的可行性、准确性进行了测试。
其他文献
视频中的人体动作识别是一个非常活跃的研究领域,随着相机、手机等电子产品行业的快速发展,对基于视频中人体动作识别的应用提出越来越高的要求。针对人体动作在视频中的定位
随着计算机仿真技术的不断成熟,针对不同领域的仿真器不断涌现,它在减少损失、节约经费、缩短开发周期、提高产品质量方面发挥了巨大的作用。然而,系统的规模日益扩大,单学科仿真
无线传感器网络是由一系列部署在感兴趣区域的传感器节点组成,传感器节点大都能量有限同时处理能力有限,不同的节点之间相互通信形成一个自组织网络,最终将物理世界的数据采
随着无线通信和泛在网络的飞速发展,泛在学习作为一种新型的学习理论体系正在逐渐流行起来。协作性是泛在学习的重要特点,它强调学习过程中的相互配合、相互促进,或者根据学习任
在短波大型通信系统改造过程中,前端上百台部的数字化接收机、专用解调器和网络复/分接设备等都需要统一的管理调度。要实现资源的共享或综合利用,合理可靠的资源管理技术是十
由于嵌入式设备的应用日益广泛,其开发技术也成为近些年来计算机行业研究的热点话题。其中,软硬件协同设计技术由于其开发周期短,成本控制好,系统灵活性高,适用范围广泛等优势,逐渐
电力工业是国家经济发展的基础型资源,关系到经济的稳定上升和人民的日常生活。电缆作为电力系统的传输介质,它的安全高效运行是国民经济和居民生活质量的重要保障。传统的电缆管理存在着数字化程度不高,原有的资料信息不完整,人工普查信息位置不准确,电缆规划、建设和抢修维护存在盲目性等一系列弊端。地理信息系统(Geographic Information System,GIS)综合地图学以及遥感和计算机科学,在
随着车辆的不断增多,在车辆行驶的过程中,一些驾驶人员的不良驾驶习惯致使交通事故频发,从而安全驾驶得到了越来越多的关注。作为一种潜在的解决方案,智能驾驶技术将成为一个
随着计算机技术的迅猛发展,收集并处理规模庞大且种类繁多的实际网络数据成为满足物质与文化需求的必要途径,网络科学也随之扮演着愈来愈重要的角色。与人们生活紧密相关的网
随着LTE网络技术的发展,越来越多的用户使用移动终端产品通过LTE网络进行数据通信。然而在LTE网络环境中用户传递的信息都是通过电磁波传播的,而电磁波的特性导致用户信息很容