基于自然语言处理的自动文摘系统

被引量 : 0次 | 上传用户：super8516

【摘要】

：

在本文中,首先介绍了自然语言处理的基础概念体系,给出了自然语言处理的定义及其研究和处理的方法和过程,接着便介绍国内外关于自动文摘系统等方面的研究方向和发展动态,并指

【作者】

：

张峰

【发表日期】

：

2006年期

【关键词】

：

自然语言处理自动文摘潜在语义分析篇章多级依存结构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在本文中,首先介绍了自然语言处理的基础概念体系,给出了自然语言处理的定义及其研究和处理的方法和过程,接着便介绍国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后重点说明了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于理解的文摘、基于概念依存的文本结构分析方法和信息抽取的文本摘要等模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点。进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于潜在语义分析和篇章多级依存结构的文摘方法相结合,提出了一种综合型的自动文摘系统的设想。潜在语义分析(Latent Semantic Analysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。篇章多级依存结构分析(Text Multilevel Dependency Structure,TMDS)是一种基于结构的自动文摘分析方法。如果把各个部分视为节点,并在两个有语义联系的部分之间引一条边,那么我们就得到了一个关联网络。它清楚的表示了文章的整体结构;同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文章能够避免机械文摘的许多不足,保证文摘质量。本文提出的文摘方法综合利用了两种方法。首先通过对文本进行潜在语义分析,对文本矩阵进行相应的奇异值分解,重构语义矩阵;然后采用基于篇章多级依存结构的文摘分析方法,对重构的语义矩阵表示的文本内容进行深入的分析,抽取重要的句子生成文摘,这样就弥补了潜在语义分析在词法和句法分析上的不足;同时过滤和去除了语义噪音,缩小了问题的规模。

其他文献

以免税为主导的旅游购物政策创新破解旅游服务贸易逆差的扩大化

<正>一、境内外旅游购物消费发展的不均衡是我国旅游服务贸易逆差扩大的重要因素近年来,我国旅游服务贸易逆差出现长期化与扩大化趋势。由于出境旅游消费的大幅增长以及入境

期刊

旅游购物不均衡服务贸易逆差境外游客

活性焦脱硫脱硝一体化技术及其错流式反应器脱硫的数值模拟

活性焦一体化脱硫、脱硝技术是一种干法烟气治理技术,依靠活性焦的吸附作用在第1级反应器内进行脱硫,然后进入第2级反应器,通过加入NH3,在活性焦的选择性催化作用下,使氮氧化

期刊

脱硫脱硝一体化技术活性焦数值模拟

高效液相色谱法测定龙葵中的澳洲茄胺

目的建立龙葵中澳洲茄胺的高效液相色谱(HPLC)检测方法。方法采用甲醇酸水超声提取龙葵生物碱,在回流条件下对生物碱苷进行酸性水解,得到相应的澳洲茄胺。然后进行高效液相色

期刊

龙葵澳洲茄胺高效液相色谱

四川省野生荞麦资源的开发利用

四川省具有丰富的野生荞麦资源。对四川省的野生荞麦种类、分布情况和营养、药用价值进行了详细综述,并根据主要种类的营养、药用价值提出了合理开发利用野生荞麦的途径。

期刊

野生荞麦资源开发利用四川

农林复合系统水分运移模型与水分生态特征的研究

本文根据SPAC水分运移理论,通过试验研究和模拟研究,分析太行山低山丘陵区苹果-小麦复合系统的水分生态特征,并探讨水分调控对策与途径,旨在为该地区农林复合经营配套技术的

学位

农林复合系统SPAC水分运移模型水分生态特征水分调控措施

基于RMP分析的新疆奇台硅化木-恐龙国家地质公园保护开发研究

运用昂谱(RMP)分析法,以2010年抽样调查和深度访谈所取得的数据,对新疆奇台硅化木-恐龙国家地质公园资源(R)特性,市场(M)特性、产品(P)特性进行系统分析,结合自然生态、文化

期刊

奇台硅化木-恐龙国家地质公园古生物化石景观保护开发

互联网时代演讲新特色——以柴静的《穹顶之下》为例

所谓演讲,需要在调动听众情绪,引发听众共鸣的基础上,传达出某种思想、观点、感情。以柴静的演讲《穹顶之下》为例,从演讲的内容、结构、语言、情感、形式等方面分析互联网时

期刊

互联网演讲特色

沉香的质量评价及药理活性研究进展

目前国内市场提供的沉香来源广泛,品种繁杂,包括国内沉香和进口沉香,而进口沉香来源的国家地区又各有不同,本文对国内外沉香的质量评价及主要药理活性进行了研究总结,旨为沉

期刊

沉香(Aquilaria spp.)鉴定质量评价药理活性

基于移动互联网终端的电影营销策略

我国电影不能再沿用传统的营销模式。在移动互联网传播的时代,电影营销需要遵循SoLoMo理念,利用各种智能终端进行新媒体营销传播。这可以通过开发电影专属手机应用(APP)、分

期刊

电影营销移动互联网SoLoMo策略

一词多义现象的词汇语用学优选语境充实模式研究

长期以来，一词多义现象一直是词汇语义研究的热门话题之一。传统的经典范畴理论和结构主义一般局限于语言的内部结构，较少论及语境在一词多义现象中的重要作用，及其底层的认知机

学位

一词多义现象词汇语用学优选语境充实模式I原则Q原则

基于自然语言处理的自动文摘系统

其他学术论文