论文部分内容阅读
当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。是文本信息处理中的一个非常重要的组成部分。在实现方法上,本文使用的浅层语义特征区别于常用的词语特征,研究的重点不再是可以观察到的构成文章的词语、句子等基本信息,而是隐藏在这些句子、词语背后,更深层次的语义信息,称之为主题特征。通过对文章主题特征的挖掘与分析,可以进一步得到主题-词语的关联,主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力,从而选择出能够完整表达文章主题的句子作为文本摘要。本文在详细阐述国内外研究现状的基础上,首先基于主题对句子关联度计算进行了针对性研究,提出一种新的衡量句子与句子相关性的方法,在语义层面,充分利用主题对文章的表达能力,基于主题在句子上的概率分布,使用相对熵来计算两个句子上主题概率分布的差异性来确定句子相关度,同时将文本归结为三类内容,作为摘要提取的依据,并在NLPCC2015数据集上进行了实验验证。同时,论文基于主题和图模型改进了文本摘要算法。通过LDA模型挖掘出文本语义层面的主题特征,分析文本中词语和主题的对应关系,基于改进的图模型进行文本摘要,改进其以往的建边方式,使用主题关联来确定不同节点之间是否建边。并在DUC数据集上实验验证,其ROUGE分数在比较的几种算法中得分最高。最后,在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,可以通过在输入框中输入文本或者提交文档的方式实时得到文本摘要的分析结果。本文所研究内容已经在实际项目中得到工程应用和验证,在自然语言处理平台中发挥了重要作用。