基于自然语言处理的自动文摘系统

被引量 : 0次 | 上传用户:super8516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文中,首先介绍了自然语言处理的基础概念体系,给出了自然语言处理的定义及其研究和处理的方法和过程,接着便介绍国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后重点说明了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于理解的文摘、基于概念依存的文本结构分析方法和信息抽取的文本摘要等模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点。进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于潜在语义分析和篇章多级依存结构的文摘方法相结合,提出了一种综合型的自动文摘系统的设想。潜在语义分析(Latent Semantic Analysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。篇章多级依存结构分析(Text Multilevel Dependency Structure,TMDS)是一种基于结构的自动文摘分析方法。如果把各个部分视为节点,并在两个有语义联系的部分之间引一条边,那么我们就得到了一个关联网络。它清楚的表示了文章的整体结构;同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文章能够避免机械文摘的许多不足,保证文摘质量。本文提出的文摘方法综合利用了两种方法。首先通过对文本进行潜在语义分析,对文本矩阵进行相应的奇异值分解,重构语义矩阵;然后采用基于篇章多级依存结构的文摘分析方法,对重构的语义矩阵表示的文本内容进行深入的分析,抽取重要的句子生成文摘,这样就弥补了潜在语义分析在词法和句法分析上的不足;同时过滤和去除了语义噪音,缩小了问题的规模。
其他文献
<正>一、境内外旅游购物消费发展的不均衡是我国旅游服务贸易逆差扩大的重要因素近年来,我国旅游服务贸易逆差出现长期化与扩大化趋势。由于出境旅游消费的大幅增长以及入境
活性焦一体化脱硫、脱硝技术是一种干法烟气治理技术,依靠活性焦的吸附作用在第1级反应器内进行脱硫,然后进入第2级反应器,通过加入NH3,在活性焦的选择性催化作用下,使氮氧化
目的建立龙葵中澳洲茄胺的高效液相色谱(HPLC)检测方法。方法采用甲醇酸水超声提取龙葵生物碱,在回流条件下对生物碱苷进行酸性水解,得到相应的澳洲茄胺。然后进行高效液相色
四川省具有丰富的野生荞麦资源。对四川省的野生荞麦种类、分布情况和营养、药用价值进行了详细综述,并根据主要种类的营养、药用价值提出了合理开发利用野生荞麦的途径。
本文根据SPAC水分运移理论,通过试验研究和模拟研究,分析太行山低山丘陵区苹果-小麦复合系统的水分生态特征,并探讨水分调控对策与途径,旨在为该地区农林复合经营配套技术的
运用昂谱(RMP)分析法,以2010年抽样调查和深度访谈所取得的数据,对新疆奇台硅化木-恐龙国家地质公园资源(R)特性,市场(M)特性、产品(P)特性进行系统分析,结合自然生态、文化
所谓演讲,需要在调动听众情绪,引发听众共鸣的基础上,传达出某种思想、观点、感情。以柴静的演讲《穹顶之下》为例,从演讲的内容、结构、语言、情感、形式等方面分析互联网时
目前国内市场提供的沉香来源广泛,品种繁杂,包括国内沉香和进口沉香,而进口沉香来源的国家地区又各有不同,本文对国内外沉香的质量评价及主要药理活性进行了研究总结,旨为沉
我国电影不能再沿用传统的营销模式。在移动互联网传播的时代,电影营销需要遵循SoLoMo理念,利用各种智能终端进行新媒体营销传播。这可以通过开发电影专属手机应用(APP)、分
长期以来,一词多义现象一直是词汇语义研究的热门话题之一。传统的经典范畴理论和结构主义一般局限于语言的内部结构,较少论及语境在一词多义现象中的重要作用,及其底层的认知机