基于概念的多文档自动摘要研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sjhung888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动摘要是自然语言理解领域的一个重要的研究方向。近年来,随着计算机和互联网技术的迅速发展和普及,信息增长的速度比以前各个时期都更快,人们越来越陷入到信息的海洋之中。目前,人们主要是通过搜索引擎获得自己需要的信息,但搜索引擎返回来的相关文档太多,而多数是重复和相似的。这样人们就不能快速且高效地获取自己所需要的信息。多文档自动摘要技术研究的目标正是力求解决这一问题,把多篇同一主题的文档进行汇总,给人们提供简洁、信息全面的摘要,将人们从繁琐、冗余的信息中解脱出来。基于概念的多文档自动摘要的研究借助于语义资源确定文档中单词的概念,然后通过概念共现图抽取文档集的主题概念,计算句子的重要性,最后抽取文摘句生成摘要。 本文围绕基于概念共现图的多文档自动摘要系统,针对其关键技术展开了研究,主要研究内容和特色如下: (1)为了引出概念共现图方法,本文首先研究了词共现图方法,并通过引入潜在语义分析的方法减小词对之间的相关性,引入衰减因子来提高词共现度的准确性等对它进行了改进。 (2)对概念提取方法进行了研究。借助语义资源WordNet的支持,提出了一科,概念归并算法和概念权重计算模型来确定文档中单词在上下文中的概念。 (3)本文以概念代替词形,用概念统计代替传统的词形频率统计,建立概念向量空间模型。以减小传统的标引词向量之间存在的”斜交”情形对文摘效果的影响。 (4)深入研究了主题划分技术,并提出了一种基于概念共现图模型的主题划分方法,使得产生的子主题信息覆盖率大,又尽可能提高它对全局主题的反映程度。 本文提出了基于概念共现图的多文档自动摘要方法。这是对多文档自动摘要技术的初步探索,并取得了一定的研究成果。多文档文摘无论是作为独立的系统还是作为搜索引擎等的一部分都将拥有广泛的应用前景,随着互联网的发展和时代的进步会有更大的发展空间。
其他文献
纹理合成经过近年来的发展,已经成为计算机图形图像以及计算机视觉方向的研究热点。本文在基于样图的纹理合成技术的基础上,对用户约束下的多样图纹理合成做了研究,并对现有
时空数据库技术是计算机科学的新兴领域。面对着海量的数据,如何在给定的空间及时间范围内实现对移动对象快速有效地查询,是实现定位服务、智能交通、数字化战争等诸多应用中
软件测试是保证软件质量最为有效的技术手段,测试数据的优劣决定了软件测试的有效性。在不影响测试效果的前提下,减小测试用例集的规模将有效地减少测试成本,提高测试效率。
嵌入式系统开发是当今计算机软件发展的一个热点。嵌入式系统调试器是进行嵌入式开发的关键工具,常用于对嵌入式软件的调试和测试。嵌入式系统调试器由交叉调试器和调试代理
大学生综合素质发展测评是高校学生管理的重要内容之一,传统的描述性的定性评价方法往往是定性分析或者单因素的定量评价,往往存在主观片面,不够准确、不够全面的问题,已经不能适
近20年以来,随着国家经济的飞速发展,对能源的需求日益俱增。从而对各种勘探与解释方法要求也越来越高。特别是对石油勘探中的主要手段地震勘探要求更高。地震数值模拟技术是
随着存储规模日益扩大,存储网络的多样性和异构性,资源分布的广阔性和动态性,都对数据的存储管理方式和访问方式提出了新的要求和挑战。面向广域网的存储资源发现技术研究,旨
Internet上超过80亿个网页的海量数据使互联网成为当今世界上最大的信息库和全球范围内传播信息的最主要渠道,也为广大用户提供了一个巨大价值的,广阔的获取信息的渠道。但当我
OSEK操作系统标准是针对汽车电子领域嵌入式系统制定的工业标准,在汽车工业界有着广泛的应用。 调度是多任务系统正确运行的保证,而OSEK.操作系统作为硬实时系统,其调度有着特
MapReduce是支持数据并行的简单有效的编程模型,它最初为集群编程而设计。随着多核处理器的日益普及,研制面向多核的MapReduce编程库以充分利用多核单机系统的计算资源也变得