论文部分内容阅读
高考作为步入高等教育的最后一道关口,是进行人生规划的重要转折,因此高考志愿的选取至关重要。在考生填报高考志愿前,应该对各个学校及专业等信息有一定的了解,避免盲目选择,给未来大学学习和生活带来困扰。在信息爆炸性增长的今天,如何快速、准确地在海量信息中获取有用的学校、专业等信息逐渐演变成一个更加重要的课题。近年来,人工智能飞速发展,取得了突破性的成就,愈加引起了人们的关注与重视。人工智能的一个重要分支是问答系统。问答系统集自然语言处理技术于一体,是一种更人性、更高效的信息检索技术,具有很大的发展空间。本文是面向高考志愿的问答技术研究,由于较少人在该领域做问答技术相关研究,所以本论文的研究对以后该领域问答系统构建有一定的现实价值及意义。本文是基于信息检索的面向高考志愿的问答系统技术研究,主要针对问题分析和答案抽取两个部分内容进行研究。论文首先通过爬虫技术从各大高考网络平台、高考应用APP平台和百度知道等收集高考志愿相关问答对数据,并利用MySQL数据库进行数据储存。其次,针对爬虫获得的问答对数据集进行预处理、人工分类,为之后的问答技术研究实验所需数据做准备。本文研究时,主要应用了深度学习以及引入注意力机制的深度学习方法,具体研究内容如下:1.对爬虫获取的数据进行处理、人工标注问题类别和问题成分,建立问题分类语料集、问题成分抽取语料集。2.对于问题分类采用传统机器学习的方法SVM;基于深度学习的方法CNN、LSTM;两种深度学习融合的方法Bi-LSTM+CNN;基于Attention的BiLSTM+CNN方法,共四种模型进行文本分类,通过评价指标宏平均、微平均对模型分类效果进行评价。模型实验研究结果表明,基于Attention的BiLSTM+CNN问句分类方法比SVM、LSTM、Bi-LSTM+CNN分类方法具有更高的准确率,有助于提升问句分类的准确度。其宏平均取值为95.64%,微平均取值为94.47%。3.将问题成分抽取转为序列标注问题,本文使用CRF模型、Bi-LSTM+CRF模型进行序列标注实验。通过评价指标F1值来评判模型效果。根据模型实验结果来看,CRF模型进行序列标注的效果优于深度学习方法Bi-LSTM+CRF,可能是由于本文语料库太小,深度学习模型得不到很好的训练。针对该问题,本文在文末进行了展望,以期在后续研究工作中解决该问题。4.构建基于深度学习的答案置信度排序算法,并引入句内注意力机制结合Bi-LSTM模型来计算答案置信度排序,分析三种模型(CNN、LSTM、引入句内注意力机制的Bi-LSTM)在答案置信度排序上的实验结果。由实验结果可知:引入句内注意力机制的Bi-LSTM模型,在一定程度上提升了答案选择的准确性,在模型实验中效果最好。