论文部分内容阅读
近年的高考人数屡创新高,高考是我国青少年改变命运的最重要的一次机会,在高考结束之后的高考志愿填报至关重要。高校招生信息是考生和家长在高考后选择报考学校和报考专业的主要信息来源之一,如果考生能获取及时准确的高校招生信息,他们会更有把握进入心仪的高校专业学习。因此本文针对基于知识图谱的高考自动问答系统开展研究,主要包括以下几个方面:本文分析高考自动问答系统的设计需求,对系统架构进行研究,包括知识图谱构建模块和问答查询模块;设计高校信息知识图谱的结构,定义了知识图谱的5种实体、4种关系和11种属性;对问答系统的算法进行研究,分为实体识别任务和问答匹配任务。针对实体识别任务中词向量模型对词语语义信息提取不充分的缺点,采用预训练语言模型ALBERT代替传统word2vec训练词向量,针对只用词向量或者字向量训练实体识别模型,导致深层次的语义特征提取不足的问题,引入融合字词向量的CAW算法,采用CNN训练字向量获取词语语义、双向GRU初步提取上下文信息,经过拼接后再送入双向LSTM定位问句中实体位置。本文在人民日报和cluener数据集上进行实验,结果证明该模型能有效提高实体识别的准确率。本文在问答匹配任务中使用预训练语言模型ALBERT和双向GRU训练文本,获取问句的语义向量表示,针对知识图谱的分布式向量表示模型TransH无法处理一对多或者多对一的实体关系类型的问题,使用Bi GRU和超平面上的知识图谱的分布式向量表示模型Tran H获取知识实体关系的语义向量,最后通过计算问句、实体和关系的余弦相似度选取最相关的知识三元组。实验结果表明,采用本文的问答匹配算法,能够使问题回答的准确性得到提高。本文在上述基础上进行实验证明了算法模型的可靠性,并收集了3000余所院校信息构建高校招生知识图谱,实现了基于知识图谱的高考自动问答系统,实际运行展示效果。结果表明本文设计并实现的基于知识图谱的高考自动问答系统可以满足用户获取高校专业信息的需求,具有较好的可行性和实用价值。