论文部分内容阅读
校园生活中,每天都会产生大量的问题,信息获取的方式主要采用搜索引擎和信息化服务,传统的搜索引擎主要是基于关键词搜索并且伴随着返回大量无关信息,用户体验不佳,同时传统的信息化服务没有统一信息查询的入口,无法满足用户高效获取信息的需求。自动问答是一种新颖的信息获取方式,快速且精准地回答用户的问题,将自动问答应用到校园领域中,可以通过设计校园问答系统,提供咨询的统一入口,返回精准的信息,为用户提供便捷的信息化服务。校园问答的核心部分是将问题和问答库进行匹配得到答案信息,而次要部分是对问题进行类别分析,减少匹配的任务量。因此,本文主要从文本匹配和问题分析两个方面对校园问答进行研究,主要工作如下:(一)研究了用于校园文本匹配的语义匹配算法。目前的研究只从词或字的角度对校园领域的中文文本进行分析无法获取准确的语义表示。针对特征的表示和学习,本文从词、字和位置的角度对文本进行混合表示,同时结合注意力网络的优势,对各个特征之间的关系进行交互学习,提出了一个基于交互注意力网络的语义匹配模型(Interactive Attention Network Semantics Model,IANSM)。首先从词和字的角度对文本进行表示,其次通过位置编码和长短期记忆网络对词和字的表示进行编码学习,获取文本的混合表示,然后构建交互注意力网络学习文本特征的关联信息,最后构建分类器得到匹配的结果。(二)研究了用于校园问题分析的短文本快速分类算法。校园问答任务实质上是根据问题,从一个问题集中得到匹配度最高的相似问题,问题集的数量很大程度上影响了问答的效率。校园问答过程中如果先对问题进行分类,通过问题的类别从问答库中获取同类别的问题进行语义匹配,可以减少待匹配的问题数量,所以本文提出了一个基于自注意力网络的短文本快速分类模型(Self Attention Network Classification Model,SANCM)。首先通过N-gram学习特征的语序信息,然后构建自注意力网络聚焦重要的特征,减少冗余特征对分类任务的影响,最后构建分类器得到分类的结果。(三)构建校园领域的数据集。目前没有针对校园领域的公共数据集,因此本文通过爬虫技术抓取论坛和贴吧的相关数据,参照其他高质量且开源的数据集对数据进行完善和标注得到了校园常见问题对数据集,并将该数据集用于校园文本匹配的研究。针对校园文本分类的研究,本文对抓取的数据进行类别标注,得到了校园常见问题数据集。两个校园领域数据集的构建,为本文的研究提供数据支撑。(四)校园问答系统的设计和开发。本文结合IANSM模型和SANCM模型完成校园问答任务,首先使用SANCM模型对用户的问题进行分类,然后根据类别从问答库中获取同类别信息,最后将用户的问题和信息输入到IANSM模型进行匹配得到答案并返回给用户。同时该系统还提供了历史记录、收藏记录等个人信息的查看功能,热点问题的阅览功能以及知识扩充功能。