论文部分内容阅读
随着互联网的发展,数字化信息呈现出指数增长的趋势,给人们从海量数据中快速准确地获取需要的信息带来了挑战。传统的信息获取方式是使用搜索引擎,通过关键词匹配的方法返回大量的相关网页,导致用户需要耗费大量的精力从返回的网页中筛选出自己需要的答案。与传统的基于搜索引擎的信息获取方式相比,智能问答能够精准理解用户的搜索意图,并将答案直接返回给用户,提高了用户信息获取的效率。同时,知识图谱能够作为智能问答的一个高质量数据来源,其快速发展推动了智能问答在多个领域内的应用。目前,在教育领域非常重视古诗知识的学习和运用,但是古诗知识的体系复杂,用户获取古诗信息的方法主要是通过搜索引擎,对于想要根据条件个性化查找古诗信息的用户来说,这种信息获取方式不够高效。因此,本文构建了一个古诗知识图谱,并基于该知识图谱实现了古诗知识的智能问答。本文的研究工作主要包括以下几个方面:第一,古诗知识图谱构建。以关系型数据库中的数据为基础,利用互联网数据进行补充,将不同来源的数据进行融合,构建了能够用于智能问答的古诗知识图谱。第二,基于BERT的问句分类算法研究。常用的分类算法大都采用Word2vec获取文本的词向量表示,这种词向量表示方法存在一定的局限,训练之后的词向量是固定的,不会发生变化。但是同一个词在不同的上下文环境中表达的语义会有所不同。因此,本文使用BERT来获取包含上下文语义信息的词向量,通过BERT实现问句的分类,实验结果表明该方法下的问句分类效果得到了提升。第三,基于加入了条件随机场的双向长短期记忆网络(BiLSTM-CRF)的实体识别算法研究。在实际语境中,单个词的上下文信息会对该词的语义产生影响,传统的神经网络无法捕获长距离的上下文信息。针对此问题,本文使用BiLSTM-CRF去识别问句中的实体,首先双向长短期记忆网络(BiLSTM)能够一定程度上解决文本的长距离依赖问题,其次结合条件随机场(CRF)能够获取实体标签之间存在的依赖关系,最终提升实体识别效果。并且本文在BiLSTM-CRF的基础上验证了不同词向量对算法的影响,实验证明使用BERT预训练词向量的BiLSTM-CRF能获得更好的效果。第四,基于古诗知识图谱的智能问答系统的设计与实现。本文实现了一个基于古诗知识图谱的智能问答系统,在实际运行过程中系统运行状况良好,能够实时对用户的问句进行准确回答,满足用户古诗信息获取的需求。