论文部分内容阅读
近年来,随着人工智能的不断发展,自然语言处理领域的不断进步,以自动解答和类人辅导为核心的线上智能教育平台越来越多,对学生的学习起着越来越重要的作用。要想实现线上智能教育系统,关键在于中文文本形式的题目如何被计算机识别,并存储到对应合理的数据结构中进行知识推演。而线上教育系统的自动解答功能则为学生提供了更类人、更有效的学习方式,其中,初等数学应用题是数学领域自动解答功能的难点。本文以自然语言处理技术和谷歌神经网络机器翻译等相关技术作为理论基础,以实现应用题自动解答作为研究目标,讨论研究了初等数学应用题的知识表示、语义理解和自动推演等核心内容,且在此基础上实现了自动解答系统。本文的主要研究为:首先本文的应用题知识表示方式以Kintsch提出的单步应用题知识表示框架为基础,提出一种新的信息框架,囊括了Kintsch的知识表示框架,并扩展了一些新的内容,比如属性槽、单位槽和数量关系槽等。通过实验证明目前提出的信息框架可以表示初等数学应用题的题目信息,并能有效用于自动解答中;其次是语义理解,初等数学应用题的语义理解是指从应用题文本中提取信息并存放于信息框架中,即从文本中提取实体、属性、数量、单位和数量关系,并填到信息框架对应的槽中。对于实体和属性的提取,本文以条件随机场作为理论基础,采用命名实体识别方法,使用CRF++工具包进行命名实体识别,对于数量和单位的提取,本文采用特征模板匹配方法,对于数量关系的提取,本文以机器翻译作为理论基础,采用谷歌神经网络机器翻译(GNMT),准备训练语料,利用GNMT实现应用题语言到数学语言的映射。综上可构建完整的信息框架并用于应用题自动解答中;最后是自动推演,本文提出关系框架来提取应用题题目中的隐藏关系,并利用Maple符号计算实现单步或多步应用题的自动解答,采用自主构建的规则库进行类人答题。其中关系框架依赖于常识关系库与动态实体库,常识关系库以常识知识库和知识图谱为理论基础,自主构建于数据库中,动态实体库是针对每一道应用题文本自动生成的实体及属性库。综合上述的研究,本文构建出初等数学应用题自动解答系统,并具体阐述了这个系统的各个模块及实现方式,并在自主构建的300道测试题库中,达到了自动解答正确率为74%的效果。