论文部分内容阅读
语义蕴涵关系识别在自然语言处理中有广泛的应用。在多文档自动文摘中可以用来进行文摘句的选择,解决句子冗余;在机器翻译中,可以判断目标翻译句子与双语语料库中句子的语义蕴涵关系;在问答式信息检索的答案提取模块中利用语义蕴涵关系识别可以对问题和候选答案进行匹配,特别是在常用问题库(Frequently Asked Question,FAQ)问答系统中,可以表示目标问句和候选问句的相似程度。开放领域的问答式信息检索是指系统接受用户以自然语言形式描述的提问,并从海量数据中查找出该问题的准确、简洁的答案。随着互联网信息日益丰富,传统搜索引擎存在的局限性也越来越明显,比如返回信息太多、信息无关等,而开放领域的问答式信息检索能够提供用户真正有用、精确的信息。 本文研究实现了两种语义蕴涵关系识别的方法。 第一种是基于词汇和句法结构的语义蕴涵关系识别方法。基于词汇的匹配用到了Unigram和Bigram匹配;在此基础上,由句法依赖关系进一步实现句子之间蕴涵关系的判断,并使用RTE的数据集检测系统的性能。 第二种是使用分类器进行语义蕴涵关系判断,采用的特征提取方法包括基于词汇重复度、基于句法结构、命名实体识别等信息以及基于文档统计信息和语义信息的特征提取,一共提取了十一个特征,并使用信息增益对每个特征的重要程度进行量化。采用RTE公开评测数据集进行测试,使用Boost,Bayes,SVM等六种分类器实现蕴涵关系判断。 最后,设计一个开放领域的自动问答系统,在答案匹配过程中使用了基于词汇和句法结构的语义蕴涵识别方法以及基于分类器的语义蕴涵识别两种方法,对信息检索模块返回的备选答案进行抽取和判断,以提高系统的准确率。使用TREC的数据集进行测试,并对实验结果进行了分析和评价。