论文部分内容阅读
阅读理解作为问答系统的一个重要的分支,近年来受到研究者的广泛关注。现有的阅读理解研究大多是针对英文语料提出的方法,并且语料内容相对简单,问题形式比较固定,而高考阅读理解内容新颖、领域广泛、问题形式多样,因此,面向高考的中文阅读理解任务具有较大的挑战性。本文以国家863项目为背景,针对北京语文高考散文阅读理解概括类问答题展开研究,主要研究工作如下:(1)阅读理解概括类问题分析。首先,我们对文学类阅读理解的常见体裁—散文进行问题分析,发现高考中出题频率最高、所占分值最大的题型为概括类问答题,同时也发现,此类问题的提问方式复杂多样。为了提高机器对此类问题的答题效果,我们构建了概括类问答题的语料库。(2)问题关键词的词语关联方法。由于概括类问题的提问方式复杂多样,使用的词语语义抽象,而阅读材料的内容表达丰富和含蓄,造成问题与答案之间出现语义鸿沟问题。针对该问题,本文提出了问题关键词的词语关联方法。首先,利用LDA主题聚类方法,将同一主题类的词语进行聚类,根据各类词语的词性、词频特征,筛选与主题相关联的词语;然后,利用Word2Vec的语义相似度计算,将每一个主题关联的词语扩展,获得与主题词语义关联的词语;最后,根据情感词典从阅读材料中再筛选出情感词语,将其加入到扩展的语义关联词语集中,作为当前问题的关联词语。本文通过解答概括类问题来验证本文方法的性能。实验结果显示,通过本文词语关联方法解答问题的F值达到35.11%,比baseline方法提高了5.57%。(3)概括类问题的答案句抽取方法。为了获取问题的答案句,本文给出了三种方法:词形匹配与语义相似度混合计算方法、基于Word2Vec的相似度计算方法和基于CNN的句子相似性建模方法。将这三种方法在人工整理的散文阅读理解语料中进行比较实验,实验结果显示,基于Word2Vec的句子相似度计算方法的结果最佳,其获取的答案句F值达到52.04%。词形匹配与语义相似度混合计算方法和基于CNN的句子相似性建模方法抽取答案句的F值分别为50.34%和49.2%。(4)概括类问题解答系统。利用本文提出的词语关联和答案句抽取技术,构建了高考散文阅读理解概括类问题解答系统,该系统界面简洁,功能模块划分清晰,能够很好的展现本文提出方法的实用性。