论文部分内容阅读
进入21世纪以来,计算机技术发展越来越快,计算机技术也应在生活中的方方面面,人类社会的进步也离不开计算机技术的发展和应用。特别是近两三年来,随着计算机软硬件技术的飞速发展,计算机的运算速度越来越快,存储容量也越来越大,人工智能技术也得到了新的发展契机,在多个领域得到了广泛的应用。基于人工智能的自然语言处理是指利用计算机来识别、处理、理解并能正确回应人类的语言。智能问答系统是自然语言处理领域内的研究热点与难点,具有广阔的应用前景与现实意义。本课题设计了一个基于深度神经网络的中文自然语言智能问答系统,并对智能问答系统的中文分词和语义理解的部分关键问题进行深入的分析与研究,能够有效地完成问答系统的性能。中文与英文不同,英文单词之间原生地使用空格进行分割,中文词语必须借助上下文进行分词。针对中文分词中对上下文词语理解的不足的问题,本课题对深度神经网络中的中文分词方法进行改进。具体而言,就是对基于双向长短期记忆网络(Bi LSTM,Bi-directional Long Short-Term Memory)中文分词模型进行优化,分别对前向LSTM层和后向LSTM层设置不同的权重,从而增强网络的能力,能够更好地提高中文分词的准确度。此外,本文提出了多层次的注意力机制的机器阅读理解模型,该模型能够模拟人类在阅读文章时由浅到深、由粗到精、由概要到细节的理解过程,将不同种类的注意力机制应用于多个网络层中,实现了在不同的粒度级别上捕获问题和文章之间的关系,逐渐将注意力集中在最佳答案边界部分,最后通过推敲细节预测出正确的答案。并且通过在不同数据集上进行多组实验,验证了该模型的有效性。最后,本文设计一个基于深度学习的中文智能问答原型系统。整个原型系统采用经典的三层架构设计,从上至下分别为界面层、逻辑层和训练层三部分。在功能架构上分为用户交互模块、任务调度模块、数据预处理模块、中文分词模块、答案预测模块和模型训练模块。用户向系统提出问题,系统经过计算后,将计算得到的答案返回给用户。本文对自然语言处理领域内的智能问答系统进行了深入的研究,包括词向量、Dropout、中文分词与注意力机制等等,并重点针对中文分词以及机器阅读理解模型存在的问题,进行了相关改进。实验证明,文本提出的基于权重的双向LSTM网络的中文分词网络和基于多层次注意力机制的机器阅读理解模型能够提高中文分词与机器答案预测的准确性。