论文部分内容阅读
在计算机网络迅速发展的当下,作为互联网用户的我们,被淹没在海量的信息之中。文本信息是我们在网络中触接的最多信息之一。文本数据的信息质量严重的影响着用户获取信息的速度和进行决策的方向。仅仅依靠人力对互联网上海量的文本数据进行分析是不现实的,鲜有组织能够承受如此巨大的人力资源损耗。因此,使用相应的算法对文本的质量进行自动分析是具有非常的意义。与此同时,深度学习飞速发展,大量自然语言处理任务的深度学习解决方案都取得很好的效果。基于上述考虑,本论文进行了对文本质量分析任务的研究,并选择使用深度学习的方法对该任务进行解决。本论文设计了两个方案从不同角度对该任务进行解决。首先,本论文将文本质量分析视为文本在质量属性上的分类问题。本论文提出使用面向类别改进词向量和胶囊记忆网络对文本进行质量属性上的分类。面向类别的改进词向量模型能够有效的结合了文本语料集的类别信息,通过该方法训练得到的词嵌入不仅能够蕴涵浅层语义信息,而且能够引入对最终分类有用的文本类别信息。根据文本质量任务的相关特点,比如文本长度较长、特征模糊等。本论文设计的胶囊记忆网络进行文本的分类。该网络以记忆网络为框架,重新设计并构建了外部记忆模块、输入模块、特征提取模块、特征保存模块和输出模块。外部记忆模块的引入以及输入模块的处理让网络能够处理更长的文本信息,特征提取模块的胶囊网络设计能够使用向量更加细致的抽取特征。网络的多轮计算处理过程能够进一步强化模型的特征提取能力。然后,本论文提出对文本进行篇章句间关系分析,从文本语句逻辑上的起承转合对文本的质量进行判断。在该篇章句间关系分析任务中,本论文主要关注的是更加难以解决的隐式句间关系分析任务,设计了融合词嵌入和基于多任务学习的双向长短时记忆网络对该任务进行解决。融合词向量有效的引入了其他基于统计的先验知识,增强了词嵌入所蕴涵的信息量。然后,根据隐式句间关系识别和显式句间关系识别任务之间的关系设计了多任务学习的双向长短时记忆网络,通过多任务学习机制引入显式句间关系的语料增强了模型的特征提取能力,有效的提升模型的整体性能。最终,在多个语料的实验上对本论文所设计的方案进行实验验证,并与其他方法进行对比。结果证明本论文设计的方法比其他方法在性能上具有一定的优势。