论文部分内容阅读
随着“互联网+”概念的提出,互联网的应用在我国越来越广泛,人们对知识的渴望越来越强烈。但是目前海量的信息充斥在网络各个角落,导致人们对有效信息的获取越来越困难,其中如何快速准确的从海量信息中获取到有用的信息仍然是当前急需解决的问题。不少学者通过对文本进行压缩从中抽取出有用信息来解决该问题,这种对文本的压缩技术也称为文本摘要技术。本文深入分析国内外文本摘要技术的现状,充分考虑语义因素对摘要的影响,提出了基于概念对象模型的摘要生成技术,本文主要研究内容如下:(1)本文首先对文档中的多义词进行词义消歧,然后对同义词归并生成同义词词组,从而生成一系列同义词词组并从中抽取若干概念描述该词组,然后利用概念构建文档内句子的向量空间模型。(2)本文使用改进的k-means算法对基于概念的语句进行聚类,按照语句之间的相似度高低划分为若干分组,每一分组内的句子都具有比较高的相似度,不同分组之间的相似度较低,最后利用聚类结果构建概念对象模型。(3)本文构建以基于概念的句子为节点的图模型和以概念对象为节点的图模型,其中,在构建图模型边的过程中,考虑了句式特征和语义相同的语句对边的影响,在计算句子权重过程中,利用概念对象模型的权重以及句子位置的重要性来对句子得分进行修正以此生成摘要。本文的创新点主要有以下两个方面:(1)本文首先选择权重比较大的语句来初始化K-means算法的质心,利用该算法对文档中的语句进行聚类;然后借助面向对象的思想提出了概念对象模型,将这些聚类结果看成若干个概念对象,对象内都是语义相似度高的句子,不同概念对象间语义相似程度较低,最后抽取聚类内句子的属性和行为构建概念对象模型。(2)针对以句子为节点的图模型的不足之处,本文考虑句式特征和句子语义等因素,分别使用基于概念的句子和概念对象模型作为节点构建图模型,然后利用构造出的图模型进行文本摘要的处理,从而提高了生成的摘要质量。最后在哈工大多文档语料库的基础上进行扩展并创建新的语料库,对以句子为节点的图模型文本摘要生成技术和基于概念对象模型的文本摘要技术进行了实验比较。实验结果证明由本文提出的方法生成的摘要在ROUGE-1和ROUGE-2上都要好于传统的以句子为节点的图模型摘要技术,基于概念对象模型的文本摘要技术可以有效地提高文摘的质量。