基于同义词词林的自动文摘系统的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yalaso_wind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足了人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前成为了人们日益关注的研究热点。本文首先介绍了自动文摘的发展历史与研究现状,并说明了目前几种主要的自动文摘系统模型和方法:基于统计的机械文摘、基于理解的文摘、基于篇章结构的自动文摘以及它们的研究处理过程,对它们的优点和缺点进行了讨论,归纳出各自的特点。接着本文对自然语言处理的技术基础进行了阐述。介绍了语料库的发展现状,并对本文所采用的来自北大计算语言研究所标注的《人民日报》语料库进行了说明,在其基础上进行了词典的建立,以及词性转移概率统计;介绍了本文采用的分词切分方法:正向、逆向以及双向结合得方法;针对出现的交集型切分歧义,本文采用基于互信息的消歧方法,并通过对语料库中歧义现象的统计建立了歧义信息统计表,避免了对整个语料库的重复搜索,提高了消歧的效率;词性标注方面,本文介绍了马尔科夫相关模型,借助其特征转移的性质对已切分完毕的语句进行标注,取得了很好的效果。随后,本文利用同义词词林进行了词语概念的提取,构建文本概念的向量空间,并利用相似度的理论计算出其中的参数值,即段落重要度,从而在此基础上计算出了句子的重要度,最后利用fisher分类方法对重要度较高的语句进行提取,从而形成文摘。本文尝试将句子格作为描述句子的特征,在句法依存的基础上进行格的提取,提出了粗糙集的决策方案,并进行了探索性工作。
其他文献
为了完成电容式微加速度计测量电路的设计,本文对电容式梳齿微加速度计进行了系统级的集总电路建模和仿真。虽然商业化MEMS CAD软件CoventorWare和Intellisuite都有系统级仿真
软件过程是软件开发中用于开发和维护软件及其相关产品的一系列活动、方法、实践和改造的步骤。它是对软件项目进行过程的一种抽象表示。目前对软件过程的研究通常采用建模方
功能磁共振成像(functional magnetic resonance imaging,fMRI)是一种无创、可重复、成本适中的脑功能成像技术,常用于探测大脑的自发神经活动。局部一致性(regional homogen
在交流调速系统中由于直接转矩控制技术(DTC)是对电动机转矩直接进行控制,因此电动机可以获得优良的动态和静态性能;而高速数字信号处理器(DSP)为采用先进的控制算法提供了硬件
随着中国社会经济的发展和科学技术的进步,尤其是城市人口的急剧增加和城市化进程的飞速发展,具有大空间特点的建筑物比比皆是。由于发生在大空间建筑物中的火灾具有蔓延速度快