论文部分内容阅读
步入信息化时代,中文信息处理成了重要研究领域。中文信息存在错综复杂的关系,相关是对多种关系的总称,范指任意两个对象之间存在的关联关系,相关度是对相关的定量表示。词语相关度计算应用广泛,在信息检索、语义扩展、文本分类、机器翻译等很多领域都有应用,是自然语言处理领域的重要技术。基于本体的相关度计算具有十分重要的意义。目前,针对词语相关度计算的研究很多,计算方法和算法也比较丰富,或是基于词语共同出现几率计算相关度,或是根据语义词典的相似度来得到相关度,或是基于维基百科层次结构计算相关度。这其中不乏比较经典和优秀的算法,但也存在着一些问题,例如,这些方法或是不能全面考虑词语语义,或是未语义概念间的关联关系的特性分析相关度。针对以上存在的问题,本文主要从以下几方面展开工作。(1)简要介绍了词语语义相关度计算的研究背景以及经典的研究方法,并根据经典计算方法挖掘影响相关度计算的因素。(2)深入研究领域本体的构建过程,构建面向儒学领域的本体实验片段,并将本体映射存储到关系数据库中的数据表。(3)挖掘本体概念的相关度包含相似度和关联度两部分,相似度基于领域本体中概念间的基本关系,提出并实现一个考虑语义距离、层次深度、公共祖先集以及本体之间基本关系的相似度计算公式。(4)阐述了本体间概念的关联关系,并给出关联度计算公式,并结合相似度计算公式得出相关度计算公式。(5)研究了本体概念间相关度计算在语义扩展中的应用,针对现存数据库检索系统中查询的问题,将基于相关度计算的语义扩展应用于图书馆古典文学检索系统。概念相关度计算广泛应用于自然语言处理中多项技术中,相关度能够在很大程度上反应概念词语间的关联程度,概念的关联程度适合于信息检索领域中进行语义扩展,通过扩展关键词的语义从而丰富检索语义,使搜素引擎明确查询目标,从而提高检索的查全率和查准率。