基于深度学习的多语种自动摘要系统的研究与实现

来源 :延边大学 | 被引量 : 0次 | 上传用户:mlgb7758521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,国际间的交流日益频繁,人们在生活中每天都被大量的信息包围,如何高效地挑选出自己最需要的信息变得愈发重要。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助人们迅速了解世界上不同国家和地区的信息,具有重要的研究价值和应用价值。本文实现的多语种自动摘要系统主要有单语种自动摘要和跨语言自动摘要两个功能,可以处理中、英、朝三种语言的科技文献短文本。基于RNNLM模型,本学位论文提出预训练词向量的单语种自动摘要方法,对某种语言的文本生成相同语种的摘要;基于Seq2Seq模型,本学位论文提出一种不需要机器翻译的跨语言自动摘要方法,可以对某种语言的文本直接生成另一种语言的摘要。首先,整理科技文献的摘要和标题,构建中、朝、英三种语言的平行语料库。使用不同的循环体结构和不同的神经网络结构,观察模型在测试集上的表现。同时以加入Attention机制的Seq2Seq模型为基础,分别使用Word2Vec和RNNLM对词向量进行预训练,观察模型在测试集上的表现。其次,利用中、朝、英平行语料库,使用基于Seq2Seq模型的训练方案,实现无需借助机器翻译技术的跨语言生成式自动摘要,模型可以对一种语言的文本直接生成另一种语言的摘要。最后,设计并实现基于Django框架的多语种生成式自动摘要系统,介绍系统的总体设计和各个功能模块,展示系统的单语种自动摘要功能和跨语言自动摘要功能。实验结果表明,在单语种自动摘要任务中,本学位论文提出的基于RNNLM的词向量预训练方案与基于Word2Vec的词向量预训练方案相比,效果更好,在测试集上的ROUGE-1、ROUGE-2和ROUGE-L指标上分别为32.57%,9.17%,25.70%。在跨语言自动摘要任务中,本学位论文提出的跨语言自动摘要方法在测试集上的实验结果良好,在六个跨语言自动摘要实验中,ROUGE-1指标平均为23.30%,ROUGE-2指标平均为4.93%,ROUGE-L指标平均为19.47%。本学位论文开发的多语种自动摘要系统,能满足东北亚地区科技工作者的实际需求,提高人们阅读文献的效率。
其他文献
在素质教育蓬勃发展的今天,体育作为素质教育的必修课已经得到了广泛的认可,体能训练的开展对学生日后的身体素质发育和良好体魄的形成起了十分重要的作用。从体能训练的重要
本文描述了电化学噪声模型,测试方法。并建立电化学噪声测试装置。
目前我国高校商务英语专业人才培养面临许多压力,从课程设置到教学模式存在诸多问题。商务英语专业本科教育的人才培养目标是培养具有扎实的英语交际能力、商务运作和管理创
在改革东风的吹拂下,动物庄园兴起了一轮房地产热, 牛们猪们、鸡鸭都搞起了房地产,房地产峰会、明星对话论坛此起彼伏,好不热闹。话说动物庄园里一头理想主义的猪和一头结果
文章对郑州市高校教师的绩效考核进行了调研,发现目前高校教师的绩效考核评价体系出现单一化、不全面、不科学等问题;在对高校教师的绩效考核影响因素分析的基础上,构建基于
中小企业对任何国家的经济和社会发展都做出了重要贡献。因此,中小企业部门的增长直接影响到国家的绩效。在所有经济体中,它们构成了绝大多数商业机构,它们通常负责创造的绝大多数就业机会,占私营部门营业额的三分之一至三分之二。中小企业在全球市场上创造、获取和商业化新知识的能力是其持续竞争力的基础。这项研究是在乌兹别克斯坦的中小企业中进行的,这些企业近年来经历了几次困难的经济转型。本文讨论了世界金融危机前后的
随着城市化进程加快、人口数量快速增加及人民生活水平普遍提高,城市生活垃圾管理已成为世界各国,特别是发展中国家城市面临的主要挑战。作为中国东北最大的中心城市,沈阳正
句型是根据句子的结构模式划分出来的句子类型。本文着重探析了以一定语义范畴为标志的三个句式系列之一的比较句的若干特殊句式。
<正>随着市场竞争的日益激烈,原材料和劳动力价格利润空间日益狭小,劳动生产率的潜力空间也有限.加工制造领域的利润趋薄,靠降低原材料消耗、劳动力成本或大力提高制造环节的
目的 :探讨对大量输血的患者进行预防出血护理的临床效果。方法 :对2011年4月~2014年4月期间在我院进行大量输血的60例患者的临床资料进行回顾性研究。我们将这60例患者随机