基于关键词修正的Seq2Seq中文短文本摘要技术研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:itartan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网已经成为了人们获取信息的重要途径之一,每天数以亿计的文本信息在互联网上被发布和传播,给用户准确获取自己需要的信息增加了难度。利用自动摘要技术为互联网上的这些文本生成摘要,不仅能够帮助用户更快的了解信息的内容,还能帮助用户剔除那些题文不符的信息,大大提高了用户获取信息的效率。由于这些信息大多是以短文本作为载体,传统的基于长文本的文本摘要方法不能完全适用,因此短文本摘要的研究有着重要的意义和价值。  在此背景下,本文提出采用深度学习结合核心词修正的方法来自动生成中文短文本的摘要。本文的主要工作有:一,通过对长短期记忆网络(LSTM)进行研究,构建了一个基于注意力机制的序列到序列模型(Seq2Seq),通过改变不同的输入特征来生成短文的摘要,根据ROUGE的评分发现采用字词联合特征作为模型的输入的效果优于字特征或词特征;二,在深度学习模型的基础上,提出利用原文的关键词来修正生成的摘要,从而提高摘要的质量。经过相关的对比实验以及ROUGE评分,证明了该模型的有效性;三,基于关键词修正的Seq2Seq中文短文摘要生成模型,设计并实现了短文本自动摘要系统,对生成的短文本摘要进行了相关展示。
其他文献
随着Internet技术的迅速发展和信息共享要求的不断提高,数据库与Web的结合日趋紧密,数据库系统由小型化向大型化发展,由集中式向分布式发展.能处理分散地域的分布式数据库系
随着社交网络的兴起以及高清数码相机的普及,图像数据的数量正以指数级的速度增长,如何快速有效地检索和管理这些海量的图像数据成为当今计算机视觉和大数据领域的研究热点。图
网络终端技术已经在我国迅速发展起来,智能化应用服务协议是智能化网络终端和服务器上的应用系统之间进行交互的机制,研究开发智能应用服务协议具有重要的意义。本文研究了智能
面向对象软件测试是面向对象软件开发方法中不可缺少的一环,是保证软件质量,提高软件可靠性的关键。面向对象的软件测试分为四级:方法级测试、类级测试、类簇级测试和系统级测试
随着计算机和微电子技术的迅速发展,软件和芯片技术已成为IT的核心技术,这些核心技术在很大程度上决定着一个国家的信息安全和综合国力。网络计算机是一种基于网络计算机环境的
J2EE规范定义了一套标准来简化N层企业级应用的开发;J2EE服务器提供了交易处理服务、数据存取服务、Java消息服务(JMS)、安全性服务等执行环境和系统服务.J2EE的最大优点是,
数据库中的知识发现(Knowledge Di scovery in Databases,简称KDD)是数据库和人工智能领域研究的热点课题,其目的是在数据库中提取隐含的,先前未知的,潜在有用的知识。数据挖掘领
近年来,专家系统技术已广泛应用到工业、农业、军事、医学以及国民经济和社会生活的各个方面。将专家系统的研究应用于产品的可制造性分析中,利用它指导产品设计,对于提高产品质
随着互联网的迅速发展以及移动信息时代的到来,信息化正在潜移默化的改变着人们的生活,然而在改变人们生活的同时,各种信息化产物也在不断的产生海量的数据信息文件,因此也给数据
人类获取外界信息的绝大部分来自视觉,所以数字图像成为人们生活交流的重要载体之一,但是数字图像在采集、保存和传输过程中却存在很多问题。首先,传统图像在保存和传输时可能出