论文部分内容阅读
近年来,人工智能领域机器学习、深度学习技术的发展使语音识别、图像识别取得了巨大的成功,因此人工智能技术越来越受到国内外专家学者的关注,而知识推理是机器学习、深度学习研究又是最重要、最核心的问题。因此基于知识推理的863课题“类人求解系统”相继被提出。然而在初等数学领域的类人解题系统进行知识推理的基础是数学知识的正确获取,然后才能进行准确的推理。所以本文从理论和实践两方面重点研究了如何正确高效的抽取数学领域的知识点。本文主要进行了以下几个方面的研究。1、基于自动解题的初等数学问题的相关研究首先通过分析初等数学语言的特点和基于自动求解初等数学问题的知识表示本文确定了以命名实体的方式进行知识的抽取。因为应用于解题的数学实体没有相关的研究,所以本文依据几何和代数知识的具体特点确定了基于解题需要的数学命名实体的类别。2、提出了新的基于解题的初等数学命名实体标注方法由于代数和几何实体的特点不同以及代数部分实体长度较长、实体边界判断容易出错的原因,本文针对于代数部分提出了新的6词位实体标注法。通过实验的方法证明了代数部分6词位标注方法效果要好于4词位和2词位的标注方法。3、提出了自动生成词典的实体识别后处理方法因为基于统计方法的命名实体的识别并不能达到100%的正确率,而解题需要完全正确的知识才能保证推理的正确。根据几何和代数部分实体的词形构造的特点,本文在统计模型识别之后添加了自动生成词典的识别后处理算法,大大的提高了实体识别的效果,也解决了人工收集词典效率不高的问题。4、提出了将Viterbi算法和规则相结合的剪枝策略本文统计了数学实体标注状态空间的转移规律后发现Vterbi算法在解码过程中的一些搜索路径是不符合实际情况的而且大大的影响了解码的效率。所以本文将发现的标注转移规律以规则的形式应用到解码算法中进行搜索路径的剪枝提高了解码的效率。最后,本文基于一系列方法,本文构建了一个基于CRF的初等数学问题命名实体识别系统。