论文部分内容阅读
自然语言处理首先要应对的是如何表示文本以供机器处理,将文本元素向量化是一个很好的方式。分布式表示模型(Distributed Representation Model)通过神经网络训练将文本元素映射成固定长度的向量,且向量间的距离能够刻画文本元素间语义的相关性,克服了one-hot向量维数太高且不能刻画文本元素间联系的缺陷。本文在文本分布式表示的基础上设计了新的文本分类算法与多文档自动摘要算法。针对文本图模型结构维数庞大与极其稀疏等问题,本文将词语的分布式表示与文本图模型表示方法结合,设计了文本的概念有向图模型。首先将文本中的词语映射为词向量,通过词向量聚类将语义相关性较高的词语聚为概念。然后按照词语的顺序关系构建概念有向图模型,将文本的概念有向图模型对应的邻接矩阵保存为灰度图像,将自然语言处理任务转变为图像处理任务,实现从文本到灰度图的映射。最后设计了一个三层卷积神经网络,对文本灰度图进行分类,将分类结果与其它文本分类算法作比较,结果表明本文提出的算法好于其它三种文本分类算法。针对国内多文档自动摘要研究中常出现缺乏摘要句消冗的问题,本文将句子的分布式表示与谱聚类算法结合,设计了基于谱聚类的多文档自动摘要算法。首先将文本中的句子映射为句向量,利用谱聚类算法对句向量聚类,将文档划分为各个子主题文档。然后在各个子主题文档中建立句关系图模型,利用TextRank算法迭代句子权重。最后抽取权重最大的句子作为摘要句,按摘要句在原文中的位置排序组成摘要。的内部评价方式常需要人工的参与而无法做到评价高效与客观等问题,本文提出了基于文本信息熵的摘要自动评价方法。通过摘要与原文档信息熵的比值来衡量摘要的质量,该评价方法并不需要人工来撰写参考摘要,利用此评价方法将本文提出的多文档自动摘要算法与其它自动摘要算法作比较,结果表明本文提出的多文档自动摘要算法效果要好于其它两种自动摘要算法。