基于自组织映射的自动文摘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:amao01010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上个世纪50年代以来,随着自然语言处理技术的日趋完善,自动文摘取得了丰硕的成果。到20世纪90年代,随着Internet的开通并在全世界范围内的普及,自动文摘的价值充分显露出来,越来越多的学者纷纷开始从认知心理学、情报科学、计算语言学、社会学等各个方面对其进行研究,开辟了许多有关自动文摘的新方向。目前,机器学习、神经网络、人工智能等方法也被引入到自动文摘的研究中,使得自动文摘的研究进入了前所未有的繁荣期。尽管如此,自动文摘还存在很多期待解决的问题。例如,对全局性语义知识的表示,文本特征的选择与融合,文本话语结构的理解,以及对自动文摘系统的自动评测,都是自动文摘面临的挑战。本课题研究的目的在于从语义信息的量化模型出发,引入神经网络中的Kohonen自组织映射算法选择和融合文本特征,运用潜在语义索引中的奇异值分解方法挖掘语义信息之间的潜在关系,从语义聚类的角度来生成摘要,达到对已有自动文摘系统的改进。本文应用自组织映射算法从语义相似性的角度来生成摘要,但还未对文本进行话语结构的分析,从而未应用基于衔接和连贯的修辞方法对摘要进行去毛与润色。本文的研究内容主要包括以下几个方面:(1)为了表示全局的语义信息,本文采用了语义信息的量化模型,用语义矢量来表示和存储文本的语义信息。(2)运用潜在语义索引中的奇异值分解对存储的语义信息进行空间降维,从而降低计算的复杂性;同时挖掘语义信息之间隐含的内在联系,剔除可能存在的干扰信息。(3)引入自组织映射算法,对全局性的语义矢量进行训练,生成自组织映射网络。利用自组织映射网络对文档进行聚类和仿真,从语义相似性的角度生成摘要。(4)实验与结果分析。
其他文献
移动对象数据库是近年来发展起来的一门技术,其索引技术是直接影响数据库性能的主要因素之一。目前,对移动对象数据库索引技术理论的研究还刚刚起步,研究的成果主要集中于运动不
本文结合软件建模在软件开发中的作用的实际情况,就当前一般软件建模通用性强,难以掌握,且不能实现完全代码生成等问题进行了分析。就节省软件开发时间、提高软件质量等进行了深
随着Internet/Intranet的日益普及,Web已成为共享和传播信息的主要渠道之一,UML建模语言、RUP统一过程、XML信息交换标准、.NET架构、Web Service、JavaScript脚本、组件技术
同时多线索SMT(Simultaneous Multithreading)体系结构在每个周期内允许有多条独立的线索发射指令。这样,处理器内部就存在有多个同时活跃着的上下文,它们每个周期都会竞争处
虚拟细胞是在计算机上模拟真实细胞的结构、物质组成、生命活动的动力学行为和生命现象。虚拟细胞的发展虽然只有十几年的历史,但是它对疾病防治、科学研究、社会生活等方面
MIMO-OFDM系统内组合使用两种关键技术:多输入多输出(MIMO,Multi-Input Multi-Output)天线和正交频分复用(OFDM,Orthogonal FrequencyDivision Multi-plexing)调制。MIMO技术
信息系统维护(包括移植)是软件生命周期的重要一环,是信息系统不断增强实用性与可靠性的重要措施。本文作者根据用户实际需求,对企业已有的生产准备WEB信息系统进行了维护性
由于数字图书馆具有丰富的信息资源和便捷的操作性,在近几年内其得以快速的普及和发展。当前比较成功的数字图书馆系统有ACM数字图书馆,中国知网(CNKI)等,但是它们面临着用户无法
MPLS(多协议标签交换技术)是目前组建VPN的一种关键技术,它为基于IP的QOS或COS提供了体系结构的支撑。但是,由于MPLS本身没有固有的COS或QOS特性,尤其是MPLS对路由的依赖性远
平面问题是一个典型的组合优化问题。平面问题在印制电路板的设计和大规模集成电路(VLSI)的布线方面有着重要的应用,对于很多可视化问题,例如基因调控网络的可视化也有着重大