论文部分内容阅读
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越不能满足人们的需要,以汉语内涵语义分析作为着眼点的概念信息检索成为目前中文信息检索的一个新的发展方向。基于概念图模型理论的概念信息检索包括用户需求的概念分析、概念图的标引以及概念图的匹配。其中概念图标引质量的好坏很大程度上影响着整个信息检索系统的性能。为了提高概念图标引的准确率和对已有的概念图标引结果提供校验,本文作者旨在构建一个知识完备、内容翔实、信息准确的相关领域概念知识库,以期为进一步构建实体概念内涵关系网络、改进和完善基于概念的信息检索提供了必要的基础资源。为了构建这样的一个领域知识库,本文工作选择了知识丰富权威、信息组织规范的机器可读词典作为知识库的源语料。然而以往的词典知识抽取大都针对一部词典,忽略了多部词典内涵信息之间的相容性和互补性。因此本文在已有工作的基础上尝试着提出一种机读词典内涵属性信息抽取的改进方法,目标是使知识来源多样化并能够在保证一定的知识覆盖面的同时达到可以接受的准确率,通过新的方法构建合适的机读词典领域知识库不但可以为概念图的标引提供准确的知识信息,也可以为用户的需求分析和需求与snippet的标引提供校验,具有很强的实际意义。本文的研究是以概念图模型理论为基础的。本文的工作内容及贡献主要如下:1.尝试了同时对《现代汉语词典》和《现代汉语规范词典》的内涵属性信息抽取和融合,得到的以实体-内涵属性值关系对形式表示的内涵属性信息尽量综合两部词典的知识,可以直接应用于概念图的标引和校验,避免再对词典释义进行概念分析,提高标引的效率和准确率。2.尝试了采用模式聚类方法对抽取模式进行分类。通过对抽取模式进行聚类并按内涵属性类型划分为不同的簇,再按照不同的簇从词典中抽取出不同内涵属性类型的内涵属性值。这样就极大的降低了识别抽取模式的内涵属性类型的人力消耗。3.尝试了将语义相似度计算引入到抽取模式的聚类中。通过计算抽取模式的上下文之间的语义相似度可以降低模式聚类的错分率,提高词典内涵属性值抽取的准确率。本文的研究对多部词典词汇释义的内涵属性信息的抽取和融合进行了探索,目标为概念图标引和概念信息检索提供一些基础资源和方法研究的思路。