论文部分内容阅读
随着互联网的飞速发展以及自然语言处理技术的兴起,问答系统进入了面向开放领域、基于自由文本数据的发展阶段。如何从海量信息中获取有用信息是学术界和工业界关注的一个热点。与传统的搜索引擎相比,问答系统允许用户以自然语言提问,并能更好地满足用户对快速、高效、准确获取信息的需求。本文从问题分析和答案抽取两方面对问答系统进行进一步分析。在问题分析方面,本文从长文本和短文本以及数据的序列性三个角度提出了基于在线隐式狄利克雷分布(Extended Latent Dirichlet Allocation,Extended LDA)和增量短文本主题模型(Incremental Biterm Topic Model,IBTM)的动态主题模型—CTM主题模型。该模型不仅可以捕获用户问题文本中的语义信息,还可以捕获滑动窗口中的词对信息,并能对实时数据进行分类和用户意图分析。由于中文分词工具产生的误差和中文语法的灵活性,传统的从中文文本中提取关键词的方法并不能完整捕获用户所提问题中的主题焦点。本文从基于词性特征组合和同义词词库两个方面对前面提出的动态模型进行改进。实验证明本文所提出的两个改进方法有助于挖掘用户问题中的主题焦点。在答案抽取方面,现阶段本文所研究的答案抽取与答案选择和答案排序问题是类似的,为了保持上下文一致性,本文仍以答案抽取来表示答案选择和答案排序。针对目前基于神经网络的答案抽取模型没有充分考虑问题和答案之间的关系等问题,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term Memory Network,Bi-LSTM)的答案抽取模型。该模型直接用Bi-LSTM对问题的表示向量学习,通过利用卷积神经网络(Convolutional Neural Network,CNN)进一步提取问题特征,然后利用注意力机制对答案的表示向量与问题最终表示向量的相关性进行加权。该模型有效地提取了问题与答案之间的关系。经实验验证本文所提出的基于Bi-LSTM的答案抽取模型在基于搜索引擎中的问答数据集上取得了良好的实验效果。