论文部分内容阅读
21世纪以来,问答系统因其广阔的应用前景受到学术界的广泛研究与重视。作为人工智能领域的关键问题之一,研究如何构建面向基础教育的海量知识资源和知识图谱,研制具有海量知识获取与抽取、问题求解与回答等能力的类人答题系统,具有重大的战略意义。本文通过对高考试题考察要点和全国各地历年高考地理试题的研究与分析,阐述了地理试题作答的特点与难点。同时,按照地理问题解答思路的不同,将其分为概念题等7类,并把概念类地理选择题的解答作为本文的研究重点。在本课题研究过程中,搜集了来自地理教程、参考书、wiki百科、百度百科等知识库的文本数据,并通过算法实现了地理文档的自动过滤,同时,本课题还搭建了地理试题标注系统,完成了对地理试题资源的整理与标注工作。在地理概念类选择题的作答过程中,能否正确理解题干与候选项中的相关地理实体是研究的重点及难点所在。本文通过对多源地理知识文档的分析,编写程序完成了地理实体的自动去重及实体属性信息的自动抽取。在实体关系的研究中,本文基于百科文档中地理实体的共现特征,提出了基于文档的实体转移距离及实体间距的计算方法。此外,本文改进了经典的佛洛依德算法,使其能在较快的时间内完成对实体关系和距离的拓展和更新。通过基于实体距离的计算,本文最终得到了包含实体间距离信息关系的实体关系网络。地理选择题的作答可以转换为候选项的置信度计算与排序过程。因此,本文提出了基于文档相关度和句子相似度的候选项置信度计算方法。同时,本文提出了基于实体关系网络的题目信息拓展方法,并将其应用于置信度计算过程中。此外,本文利用置信度方法实现过程中的得到的文本特征,对比研究了支持向量机和logistic regression方法在答案排序中的应用。为了更好地展示地理答题系统的效果,本文还搭建了一个面向真实用户的高考地理在线解答系统,供用户测试与使用。同时,本文设计了一系列的对比实验,对比了在引入实体知识网络前后,基于置信度排序、支持向量机、logistic regression的答题方法的效果区别。通过在122道真实地理高考试题的测试集中的对比,系统答题正确率从0.311提高到了0.402,证明了本文所提出的答题方法的有效性。