面向冗余度控制的中文多文档自动文摘

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：eg

【摘要】

：

多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。

【作者】

：

王红玲周国栋朱巧明

【机构】

：

苏州大学计算机科学与技术学院

【出处】

：

中文信息学报

【发表日期】

：

2012年2期

【关键词】

：

冗余度控制多文档自动文摘中文自动文摘 reduandancy control multi-document summarization Chinese

【基金项目】

：

国家自然科学基金资助项目（60873150 60970056）, 江苏省高校自然科学基金资助项目（10KJB520016）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。

其他文献

事件信息结构分析

该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本

期刊

事件词事件信息结构主线信息链副线信息链event word event information structure the main informa

藏语自动分词中的几个关键问题的研究

在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字（R）的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义

期刊

未登录词紧缩词交集型歧义out-of-vocabulary word abbreviation overlapping ambiguity

商品品牌名称挖掘

百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的

期刊

商品名挖掘半监督学习图算法brand name mining semi-supervised learning graph method

面向冗余度控制的中文多文档自动文摘

其他学术论文