论文部分内容阅读
随着互联网技术的发展,国际间的交流日益频繁,人们在生活中每天都被大量的信息包围,如何高效地挑选出自己最需要的信息变得愈发重要。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助人们迅速了解世界上不同国家和地区的信息,具有重要的研究价值和应用价值。本文实现的多语种自动摘要系统主要有单语种自动摘要和跨语言自动摘要两个功能,可以处理中、英、朝三种语言的科技文献短文本。基于RNNLM模型,本学位论文提出预训练词向量的单语种自动摘要方法,对某种语言的文本生成相同语种的摘要;基于Seq2Seq模型,本学位论文提出一种不需要机器翻译的跨语言自动摘要方法,可以对某种语言的文本直接生成另一种语言的摘要。首先,整理科技文献的摘要和标题,构建中、朝、英三种语言的平行语料库。使用不同的循环体结构和不同的神经网络结构,观察模型在测试集上的表现。同时以加入Attention机制的Seq2Seq模型为基础,分别使用Word2Vec和RNNLM对词向量进行预训练,观察模型在测试集上的表现。其次,利用中、朝、英平行语料库,使用基于Seq2Seq模型的训练方案,实现无需借助机器翻译技术的跨语言生成式自动摘要,模型可以对一种语言的文本直接生成另一种语言的摘要。最后,设计并实现基于Django框架的多语种生成式自动摘要系统,介绍系统的总体设计和各个功能模块,展示系统的单语种自动摘要功能和跨语言自动摘要功能。实验结果表明,在单语种自动摘要任务中,本学位论文提出的基于RNNLM的词向量预训练方案与基于Word2Vec的词向量预训练方案相比,效果更好,在测试集上的ROUGE-1、ROUGE-2和ROUGE-L指标上分别为32.57%,9.17%,25.70%。在跨语言自动摘要任务中,本学位论文提出的跨语言自动摘要方法在测试集上的实验结果良好,在六个跨语言自动摘要实验中,ROUGE-1指标平均为23.30%,ROUGE-2指标平均为4.93%,ROUGE-L指标平均为19.47%。本学位论文开发的多语种自动摘要系统,能满足东北亚地区科技工作者的实际需求,提高人们阅读文献的效率。