论文部分内容阅读
随着Internet上信息量的飞速膨胀,使得人们在网上查找自己需要的信息变得越来越困难。虽然一些搜索引擎(如Google、百度)为人们从海量的网页中迅速查找有效信息提供了工具,但是现有的搜索引擎使用的信息检索技术大部分都是基于关键词匹配,这样使得搜索结果存在大量冗余和无用的信息,影响了返回结果的准确率。本文讨论的QA(Question Answering)系统试图改变这个情况,它不仅能有效利用Internet这个庞大的信息资源库,而且利用概念层次网络(Hierarchical Network ofConcept,HNC)理论,使得返回结果更加丰富和精确。从目前国内外研究情况看来,QA系统质量很难令人满意,原因在于两方面:其一,QA系统问题分类不精确导致最终答案与问题主题偏离;其二,现有的候选答案抽取技术大多基于统计的方法,忽略了句子的语义,影响了答案的准确率。针对这些不足,本文从问题分类和候选答案抽取两个方面进行研究,首先提出了一种基于HNC理论和随机模糊理论的随机模糊树模型,从而能够更好的处理HNC的五重模糊问题,使得计算机对自然语言的理解更加的到位;其次,本文提出的基于HNC理论的多策略答案抽取算法,将HNC符号的概念层次网络信息引入到答案抽取算法中,从而提高了生成答案的质量。本文的主要研究成果可以归纳为:(1)结合随机模糊理论和HNC理论,提出了一种随机模糊树。通过计算随机模糊树的句类本原机会,可以在一定程度上消解HNC的五重模糊问题。(2)提出了一种基于HNC理论的中文问题分类方法,利用HNC的概念层次网络信息同时句类分析知识和随机模糊语义消岐知识对中文问题进行分类。适应了汉语表达方式的多样性和复杂性。(3)提出了一种基于HNC理论的多策略答案抽取算法,利用同义词替换丰富候选答案的语义,改进了语句概念相似度的计算方法,并将其与模式匹配结合在一起。一定程度上提高了答案抽取的获取率和准确率。(4)以上海现代所综合业务应用为背景,实现了一套中文QA系统原型系统,与传统的QA系统进行了对比进行了对比实验,初步验证了本文算法在模糊歧义消解方面比传统QA系统更加有效。