论文部分内容阅读
随着互联网技术的不断发展,人类获取信息的方式正在进行深刻的变革,从过去的搜索引擎到现在的问答系统进行转变。问答系统让信息的获取更加直接,它不像搜索引擎一样返回相关网页集合,而是直接返回用户提问的答案。人工智能技术正在迅速发展,根据不同行业需求已经催生出了不同类型的问答系统。近年来,国外研究机构已经开始将自然语言处理技术应用在考试领域,期望研制出具有一定逻辑思考和推理能力的类人智能机器人,比如日本启动的大学入学考试机器人项目。在国内,科大讯飞公司也组织了高考答题机器人项目。本文在前人工作的基础上,希望构建一个面向高中历史简答题的自动解题系统,并且重点探讨背景材料在解题系统中的应用。本文针对基于背景材料的高中历史简答题的特点,提出了一种细粒度自动解题方案。通过对高中历史简答题的题型进行分类并总结每类题型的特点,本文归纳了每类题型的难点。结合试题中的问句类型和不同问句的依存句法结构,本文使用自然语言处理技术将复合问句分解成简单问句,并通过无监督方法将问句中的词汇进行重要性排序进而提取问句中的关键词。通过探讨问句与背景材料之间的关系,本文深入分析背景材料中的关键信息类型,并且提出一种两阶段的策略——候选词生成和候选词分类进行关键词提取。基于问句和背景材料中的意图关键词,本文在历史知识库中搜索相关的知识文档,并通过这些知识文档生成候选答案集合。本文还尝试了无监督排序方法和有监督的排序学习方法和卷积神经网络匹配模型进行候选答案排序,通过将相关度高的若干候选答案进行去重与合并的后处理操作得到答案。本文构建了一个包含高中历史教材、历史领域的百度百科和中文维基百科等在内的较大规模知识库,并且从互联网上搜集了大量的高考历史真题和模拟题作为实验数据。通过对350道高中历史简答题进行评价实验,本文的解题方法可以取得0.374的平均ROUGE-1召回率,比最好的基准方法高0.07。