论文部分内容阅读
随着信息技术的飞速发展,人们越来越依赖于各种信息检索系统获取所需知识。问答系统是新一代智能信息检索系统,它能够对用户提出的问题进行自动分析,并根据用户提出的问题给出相应的答案,使用问答系统能够更好地满足人们对信息检索的需求。问句相似度计算是问答系统理解用户问题的关键环节,它是问答系统对用户问题进行分析和理解的基础方法,其计算结果的准确性直接决定答案的正确性。本文以问答系统在社保审计领域的应用为背景,对受限域问答系统中的问句相似度计算方法开展研究。针对问答系统中问句相似度计算过程中面临的主要挑战,本文开展了以下几个方面的工作。1)提出了一种知识辅助下的领域问句分类方法。该方法从现有审计方法体系中抽取典型的审计方法作为专家知识来构造训练集,然后在训练集上利用支持向量机得到决策超平面,根据决策超平面选取位于分类间隔内的调整集样本;最后结合所选样本重新进行学习,直到调整集部分中未选择的样本集合为空或者分类性能满足要求。该算法在审计方法体系辅助下利用主动学习策略选取最重要的样本进行分类,能够以较高的效率获得较好的分类性能。2)提出了一种基于形式概念分析(FCA)的问句相似度计算方法,该方法在计算问句相似度过程中考虑了问句的语义与语法结构,它能够利用形式概念分析方法提取和建立领域概念集,通过构建领域概念格和提出概念集相似度计算方法来改善领域问句相似度计算的准确率;这种基于FCA的问句相似度计算方法能够把问句相似度计算转换成概念向量的相似度计算,进而从概念层次对问句进行分析和相似度计算,使问句的相似度计算更为准确与稳定。3)提出一种基于本体支持的领域问句相似度计算方法,该方法首先从领域本体中获取由专家引入的相似度关系,然后利用相似度关系构建领域本体和形式背景的概念相似度图,使用相似度图为FCA概念相似度计算提供专家知识的支持,以提高FCA概念相似度计算结果的准确率,进一步通过在相似度图中引入d-传递相似关系对相似度图中的传递关系进行限界,这种方法能够在不损失计算结果准确性的前提下使FCA概念相似度计算效率得到进一步提高;在此基础上提出一种由d-传递相似度图构造二部图的方法,从而把基于FCA的领域问句相似度计算过程中寻找偶对权值最大候选集的问题转换为二部图上最大权匹配问题,通过计算由d-传递相似度图构造的二部图相等子图的完备匹配实现求解偶对权值最大候选集的目标,这种方法能够进一步改善领域问句相似度计算的效率。4)提出一种基于信息内容计算的领域问句相似度计算方法,该方法在基于概率信息内容的FCA概念相似度匹配算法基础上引入了基于语义的信息内容度量方法,并基于该度量标准提出了基于信息内容的领域问句相似度匹配方法,能够在不依赖领域专家的情况下自动获取FCA概念间的相似度,避免了基于概率的信息内容方法对语料库的依赖;该方法计算FCA概念相似度时引入了概念间的上下位语义关系,能够更加准确的反映出概念的一般和具体程度,通过把这种一般程度和具体程度的比例来作为其信息内容的度量标准,使得该方法对问句的相似度匹配结果的准确率要明显优于基于概率信息内容的方法。