论文部分内容阅读
对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。随着科技的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,快速构建和更新领域知识库的需求更加迫切。本体作为清晰和规范描述领域概念和实例及其之间相互关系的知识库得到越来越广泛的重视和应用。本文主要针对本体自动构建中的一些关键技术进行了研究,具体研究内容主要包括以下几个方面:(1)设计了一种两个层级的领域本体组成结构。该结构将本体中的节点分为概念层级和实例层级,不同的层级具有不同的本体组成结构。提出了基于核心本体的本体构建方法,利用种子实例来构建核心本体,然后利用从文本中获取知识的方法来扩展本体,最终生成一个完整的领域本体。(2)利用网页布局特征,提出半结构化文本的领域本体结构及实例的抽取方法。领域本体结构抽取,包括利用模板的方法抽取领域本体概念的候选属性,以及利用统计学方法对候选属性进行过滤。领域本体实例的抽取,将领域本体的结构信息作为线索自动生成实例的抽取模板,进而利用Web网页特有的结构特征获得实例的结构信息。在针对电影,音乐和图书三个领域进行的实验中,本体结构抽取的准确率和召回率最高为86.7%,100%,实例抽取的准确率和召回率最高可达83.9%,87.4%。(3)通过模式匹配的方法进行关系抽取和领域本体的更新。在关系抽取中,利用实体间的共现抽取关系模式,经聚类以及合并之后获得若干个类别的关系模式。在领域本体更新中,使用各类关系模式获得领域本体新实例的各属性值信息。关系模式的准确率最高可达85%,达到了应用要求。(4)提出了一种基于领域本体的查询扩展。利用领域本体对信息检索中用户输入的查询进行关键字扩展,增强了语义性,很大程度上提高了信息检索的查准率。经查询扩展后的平均查准率为85%,相比于未扩展前平均提高了41%。同时,将本文中提出的本体构建方法移植到其它领域中,验证了其领域适应性。