基于主题句语义融合的多文档摘要算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wingoH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上的文本信息量呈指数式增长,自然语言处理作为计算机智能处理海量文本信息的关键,已成为目前的一个研究热点。当前国际自然语言处理的研究热点有机器翻译,情感分析,语义分析,文档摘要等,并且都取得了不错的成绩。其中,多文档摘要技术为快速、有效地组织大量信息提炼出至关重要的内容,提供了一种良好的途径。其旨在相似话题的文本中提炼出重要主题的内容,生成简短通顺、可读性好的短文本摘要,为用户处理信息带来了便利。研究,主题关系和语义信息对文本信息理解至关重要。LDA模型是一种文档随机生成过程,它通过Gibbs采样,把语料库中的词项和文档映射到潜在主题的维度上,挖掘出文章中隐藏在词汇背后的主题信息。摘要的句法分析有利于降低修饰词的嵌套复杂度,融合新的结构信息,丰富了摘要句的表达多样性,对研究自动摘要的冗余消除有着积极推动作用。从主题关系和语义融合相结合的角度,本课题研究了多文档摘要句生成方法,重点工作和创新点如下:第一,设计了基于整数线性规划的概括式自动摘要算法的框架,该算法优选出每个主题下的重要主题语义信息,融合组装成新的摘要句,并考虑了对候选摘要句的润色加工,补齐句子主干成分的辅助信息,名词短语和动词短语的重写,改善了生成概括式摘要的信息覆盖和可读性。第二,提出了基于改进LDA模型和K-means的主题句聚类算法T-means,利用了大规模文档集的聚类数与拆为为句子集中潜在主题数目的一致性特点,解决了LDA模型的最佳主题数目的估计,设计出新的主题重要度可计算模型,选取n个主题所在维度上的重要句子作为初始聚类中心,完成主题句的聚类。第三,采用文本理解会议的公开数据集DUC 2003和DUC 2004对比不同风格摘要算法,以及当前流行的摘要算法,本文提出的摘要算法在信息丰富度和可读性上明显好于抽取式摘要和压缩摘要。
其他文献
两相流识别技术在工业上有很高的应用价值,其发展前景也不可小觑。随着计算机技术和信号识别技术的迅猛发展,电容层析成像技术近年来得到快速发展。电容层析成像(ECT)技术是
任务调度是网格研究领域的一个焦点问题,研究基于网格资源实际特征的任务调度对于高性能网格的实际应用具有重要的意义,任务调度已被证明是NP难解问题,考虑网格资源实际特征
网络访问控制是在终端接入网络时,按照安全策略对其进行检查,根据符合策略的情况,对其访问网络的能力进行动态控制,其中心思想就是“先检查,后接入”。随着网络访问控制技术
微内核是一种只提供最基本的机制与抽象的操作系统内核。其设计思想就是在不影响操作系统的安全性与稳定性的前提之下,尽可能地将内核功能移到用户态以服务线程的方式来实现,
针对高等院校教学管理系统中数据量不断增加与信息量却相对贫乏之间的矛盾,本文将数据挖掘中的聚类和关联规则技术应用于高校教务管理的数据分析和决策当中。本文以高校教师
随着人类社会的发展,社会的信息化程度越来越高,作为记录信息载体的数据也随之迅猛增长,应运而生的大数据技术也越来越多的应用到实际生活中方便人们的生活。大数据技术的应
随着互联网技术的发展,社交网络服务逐渐影响着人们的生活,微博作为社交网络服务中非常重要的组成部分,在带给用户资讯便利的同时,其中也充斥的网络谣言,轻者影响个人,重者影
高校的资产管理工作重要且繁琐,耗费大量人力效率却不高,设备采购工作往往凭经验安排。为改变现状,本项目研究开发了资产管理处网站,并在此管理系统中加入了决策支持模块,利
随着机器人技术的不断进步,移动机器人的应用领域越来越广泛,基于视觉的导航技术近年成为移动机器人的研究热点之一。与其它非视觉传感器导航相比,它具有信息丰富、探测范围
手机支付业务是指基于移动通信网络和互联网络技术,利用手机,通过短信息、STK、语音、WAP等方式,通过手机支付账户进行消费、充值、转账、查询等电子商务操作,并进行相关业务管理