基于主题的多文档自动文摘技术研究与实现

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:lijingmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文摘准确全面地反映某一文档或多文档的中心内容。在当今信息爆炸的背景下,各种信息的增长速度远大于手工文摘的处理速度。因此,人们需要一种快速浏览信息的工具,该工具直接提供各种文档中的重要而全面的信息,并以简洁的形式提交给用户。本文研究多文档抽取式自动文摘方法,将主题信息融入到文档的特征模型中,根据文档信息的特点,以句子为单元抽取文摘句。在计算句子重要度时用到TF*IDF特征、句子位置特征、句子与主题相似度特征以及句子长度特征这四个特征。本文将主题信息与文档信息相结合,并对两者指定不同的比率使评测结果更好;此外,本文对每个特征也指定不同的特征权重,从而找到主题信息与文档特征之间的关系,使评测结果最优。证明了特殊位置上的句子包含的信息在一定程度上与主题有着较紧密的联系,并且该句子一般不会太长或太短,这表明位置特征和与主题相似度以及长度特征存在一定的重合关系,这说明并不是所有文档特征组合在一起就能起到很好的效果,而是需要判断各特征与主题间相互关系选择适当的特征,这样自动文摘质量才能更优。
其他文献
概念格是一种用于数据分析和知识提取的有效形式化工具,具有完备性和精确性等特征。约束概念格是利用用户对数据集中属性的兴趣程度等作为背景知识,来指导概念格的构造,从而
图像配准是数字图像处理中的一个重要研究方向,也是计算机视觉和模式识别领域中的一项重要研究课题,图像配准已经在军事、航天、模式识别、遥感监测、医学图像处理等方面得到了
彩色图像成像过程中,由于受到场景光照变化的影响,同一场景中的物体在不同的光照条件下呈现出不同的图像颜色。这一现象会对计算机视觉领域中的一些基于颜色特征的算法的研究
本文研究了部队基层思想政治工作的现状,针对部队基层思想政治工作知识分散、影响战士思想的因素繁多、战士特点各异等问题。结合常用的模糊专家系统开发工具FuzzyCLIPS,提出
随着电脑和互联网的广泛应用,使得网络安全问题逐渐开始显现得重要起来。当计算机通过Internet联接到一起时,信息安全的内涵也就发生了根本的变化。它不仅从一般性的防卫变成
随着计算机软硬件的发展,目标跟踪技术在军事、交通管制、智能监控、GPS导航等多个领域得到了应用,相关的算法的研究日益深入。粒子滤波因其在非线性、非高斯系统的状态估计
与/或树是用于表示问题及其求解过程的一种形式化方法,它为问题的解决提供了一种问题归约的方法。Petri网是一种系统建模工具,由于其异步、并发的特性很适合描述动态系统,因
软件体系结构是软件工程领域中发展迅速的一个研究领域。软件体系结构是指系统中构件、连接件和它们之间的连接和配置等,是对软件系统的一个高层次的描述。根据软件体系结构
信息技术的发展使许多医院、社区医疗机构、医疗研究机构或企业中产生着大量的临床数据、病例资料、病历档案等健康数据。在这些包含了时间、空间信息的多维健康数据中蕴藏着
单片机技术经过几十年蓬勃的发展,正处于片上系统SoC阶段。由于单片机技术重视实践,因此教学实验系统在单片机教学中显得不可或缺的。本文所讨论的教学实验系统采用片上资源