中文自动文摘系统的研究与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:whzjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现,它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,一篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈工大信息检索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRLab-NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。
其他文献
随着互联网的快速发展与普及,网络多媒体数据(包括:文档、图片、视频等)正在呈现爆炸式的增长,这给那些需要进行相似性搜索的应用带来了巨大的挑战,最典型的就是基于内容的图
非一致访问分布共享存储技术(NUMA)是服务器架构的一种常见方式,它一定程度上解决了并行内存访问的瓶颈,对服务器性能的提升起到了十分重要的作用。但同时也带来了NUMA的经典
本文研究多文档集合话题情感挖掘。本文使用能自动确定组件个数的层次Dirichlet过程将文档集合表示为多个组件的混合,每个组件包含话题词和情感成分,扩展了话题情感混合模型
存储服务作为云计算的核心业务,伴随计算机科学技术、互联网技术和相关网络应用技术的迅速发展,其存储的数据对象呈现指数级增长。与此同时,实际生产环境对大规模存储系统的数据
随着我国交通事业的不断发展,城市隧道日渐增多,计算机应用技术也越来越多的被应用到隧道监控系统中。本文以首义广场地下通道监控系统中水泵监控子系统为研究对象,将信息技
分布式系统由于不同的硬件和软件,不同的平台,使得共享数据,集成系统变得非常麻烦和困难,这样往往会降低开发的效率,增加了开发的成本。Web服务是解决分布式系统的一个理想的解决
CAD(Computer Aided Design)计算机辅助设计,是制造业企业产品设计时非常重要的工具。本文以CAD软件SolidWorks的研究与开发为背景,通过分析SolidWorks系统对权限控制的需求,
移动机器人路径规划是移动机器人技术研究中的关键问题,其主要任务是:机器人在有障碍物的空间中找到一条最短的或最低代价的无碰撞路径。多机器人路径规划以多机器人系统为对
随着三维模型获取技术、三维图形建模方法以及计算机硬件技术的发展,三维模型的应用领域也越来越广泛。三维模型不仅在数量上迅速增长,而且形成了诸多越来越庞大的三维模型数
编译器作为计算机软件中最为基础的软件之一,与操作系统、数据库系统一起被列为构成计算机系统软件的关键性的基础设施。而编译器作为任何软件的产生器,它的安全性、可靠性和