散文阅读理解概括类问题解答方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:vera_00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读理解作为问答系统的一个重要的分支,近年来受到研究者的广泛关注。现有的阅读理解研究大多是针对英文语料提出的方法,并且语料内容相对简单,问题形式比较固定,而高考阅读理解内容新颖、领域广泛、问题形式多样,因此,面向高考的中文阅读理解任务具有较大的挑战性。本文以国家863项目为背景,针对北京语文高考散文阅读理解概括类问答题展开研究,主要研究工作如下:(1)阅读理解概括类问题分析。首先,我们对文学类阅读理解的常见体裁—散文进行问题分析,发现高考中出题频率最高、所占分值最大的题型为概括类问答题,同时也发现,此类问题的提问方式复杂多样。为了提高机器对此类问题的答题效果,我们构建了概括类问答题的语料库。(2)问题关键词的词语关联方法。由于概括类问题的提问方式复杂多样,使用的词语语义抽象,而阅读材料的内容表达丰富和含蓄,造成问题与答案之间出现语义鸿沟问题。针对该问题,本文提出了问题关键词的词语关联方法。首先,利用LDA主题聚类方法,将同一主题类的词语进行聚类,根据各类词语的词性、词频特征,筛选与主题相关联的词语;然后,利用Word2Vec的语义相似度计算,将每一个主题关联的词语扩展,获得与主题词语义关联的词语;最后,根据情感词典从阅读材料中再筛选出情感词语,将其加入到扩展的语义关联词语集中,作为当前问题的关联词语。本文通过解答概括类问题来验证本文方法的性能。实验结果显示,通过本文词语关联方法解答问题的F值达到35.11%,比baseline方法提高了5.57%。(3)概括类问题的答案句抽取方法。为了获取问题的答案句,本文给出了三种方法:词形匹配与语义相似度混合计算方法、基于Word2Vec的相似度计算方法和基于CNN的句子相似性建模方法。将这三种方法在人工整理的散文阅读理解语料中进行比较实验,实验结果显示,基于Word2Vec的句子相似度计算方法的结果最佳,其获取的答案句F值达到52.04%。词形匹配与语义相似度混合计算方法和基于CNN的句子相似性建模方法抽取答案句的F值分别为50.34%和49.2%。(4)概括类问题解答系统。利用本文提出的词语关联和答案句抽取技术,构建了高考散文阅读理解概括类问题解答系统,该系统界面简洁,功能模块划分清晰,能够很好的展现本文提出方法的实用性。
其他文献
史诗和悲剧皆源自神话与传说,但形成的方式却不同。悲剧和史诗的区别在于"悲剧是对传统立场的带有倾向性的塑型"。也就是说,被史诗所掩盖的倾向性立场在悲剧中被彰显出来,"好
目的比较不同检测幽门螺杆菌感染方法,为临床提供一种检测幽门螺杆菌的最佳方案。方法对125例患者分别采用快速血清尿素酶抗体检测法和13C尿素呼气试验(UBT)检验Hp感染情况,
高考语文阅读理解问答题中的提问方式复杂多样,使用的词语语义抽象,而相关阅读材料的内容表达丰富和含蓄,造成问题中的词语与阅读材料中词语存在一定的语义鸿沟。为了解决这
设计了一种具有柔性资源约束的多目标集成优化方法,建立了包括最小完工时间、最小生产成本、最大设备利用率、最大交货满意度和最优人工分配在内的多目标组合优化模型;为降低
<正> 一个学校的全体教师,在教育教学活动中,组成了这个学校的教师群体,每个教师叫做这个群体的组成成员或个体。群体对成员的吸引力称为群体内聚力。群体内聚力既指群体成员
目的探讨外周血中CD4+、CD8+T细胞、CD19+B细胞和血清白细胞介素-17A(IL-17A)在壹期煤工尘肺(CWP)中的水平变化。方法采用流式细胞术检测100例壹期CWP患者(CWP组)、75例具有
随着我国市场化改革和对外开放的不断深入,我国农户面临的市场价格所带来的风险越来越多,已经影响到了农户的生产决策行为。文章在对山东省蔬菜种植户的入户调查基础上,以果
目的建立一种实用有效的铜质管材及管件中镍元素测定的痕量分析法。方法应用石墨炉原子吸收光谱测定法,探讨适合的样品处理方法、仪器工作条件、升温程序等参数以及基体改进
设计一种基于锂离子电池的在线式不间断电源,用于煤矿井下监控、定位、传感器、风机、照明系统等,期间解决了STM32 ARM处理器的综合应用、BMS电池管理技术、嵌入式软件、上位
针对钢厂炼钢-连铸车间天车调度的时空约束下NP难问题特点,考虑重钢包和空钢包吊运任务,以所有吊运任务等待被运输时间最短、总运输时间最短、天车之间负载时间差异最小为优