面向半结构化文本的领域本体自动构建研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:iserce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。随着科技的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,快速构建和更新领域知识库的需求更加迫切。本体作为清晰和规范描述领域概念和实例及其之间相互关系的知识库得到越来越广泛的重视和应用。本文主要针对本体自动构建中的一些关键技术进行了研究,具体研究内容主要包括以下几个方面:(1)设计了一种两个层级的领域本体组成结构。该结构将本体中的节点分为概念层级和实例层级,不同的层级具有不同的本体组成结构。提出了基于核心本体的本体构建方法,利用种子实例来构建核心本体,然后利用从文本中获取知识的方法来扩展本体,最终生成一个完整的领域本体。(2)利用网页布局特征,提出半结构化文本的领域本体结构及实例的抽取方法。领域本体结构抽取,包括利用模板的方法抽取领域本体概念的候选属性,以及利用统计学方法对候选属性进行过滤。领域本体实例的抽取,将领域本体的结构信息作为线索自动生成实例的抽取模板,进而利用Web网页特有的结构特征获得实例的结构信息。在针对电影,音乐和图书三个领域进行的实验中,本体结构抽取的准确率和召回率最高为86.7%,100%,实例抽取的准确率和召回率最高可达83.9%,87.4%。(3)通过模式匹配的方法进行关系抽取和领域本体的更新。在关系抽取中,利用实体间的共现抽取关系模式,经聚类以及合并之后获得若干个类别的关系模式。在领域本体更新中,使用各类关系模式获得领域本体新实例的各属性值信息。关系模式的准确率最高可达85%,达到了应用要求。(4)提出了一种基于领域本体的查询扩展。利用领域本体对信息检索中用户输入的查询进行关键字扩展,增强了语义性,很大程度上提高了信息检索的查准率。经查询扩展后的平均查准率为85%,相比于未扩展前平均提高了41%。同时,将本文中提出的本体构建方法移植到其它领域中,验证了其领域适应性。
其他文献
人脸识别技术是一种依据人的面部特征来自动进行身份鉴别的生物特征识别技术。由于人脸识别技术在生物特征识别技术中具有众多的优势(特别是直观、非侵犯),决定了其广泛的应
21世纪是网络时代,人们的工作、学习和生活都与网络息息相关。但网络在给世人提供方便快捷的服务同时,也埋下了很多社会道德、法制、政治隐患,究其来源,就是网络中不良信息的
传统软件开发中固有的复杂性、软件产品的不易重复性,严重制约了软件产品的生产。如何提高软件产品的复用性,缩短软件开发的周期,降低软件产品的维护成本,成为软件业普遍关注的问
随着Internet和移动通信的迅速发展,人们对移动性和信息的需求也在急剧上升。越来越多的人希望在移动的过程中能持续方便地访问互联网,不更改计算机配置就能获取信息和高质量
目前,关系到国家安全和国计民生的重要行业,如金融、电信、能源、民航等的高性能容错计算机基本由国外厂商垄断。自主开发高性能容错计算机在保障我国的信息安全、提高我国产
虹膜识别作为重要的生物特征识别,因其具有唯一性、稳定性、可采集性、非侵犯性等优点而引起了广泛的关注,并且取得了相应的成果。然而在识别速度和准确率方面,很难做到两全
伴随着现代网络技术、通信技术、计算机技术的日趋成熟以及信息化普及程度的不断提高,智能化家电产品、个人计算机以及移动终端设备在家庭中的普遍应用,数字家庭市场已经形成并
随着高清和超高清视频的不断涌现,H.264/AVC已不能满足人们对于更高的编码效率的需求,国际视频编码组织VCEG与MPEG联合成立JCT-VC工作组来制定新一代视频压缩标准HEVC(High Eff
丰度估计一直是高光谱图像中混合像元解混中的一项重要技术。所谓的丰度估计,就是对混合像元中端元所占的比例进行估计。基于实际的物理意义,丰度估计技术需要满足两个约束条
随着科技、微电子产业、计算机技术的不断进步,无线传感器网络得到了快速的发展。密集型的无线传感器网络由于节点间竞争和冲突较大,带来了诸多问题,使得网络的整体性能变得