针对中英文长文本的自动文本摘要算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:abc124333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
飞速发展的互联网与大数据技术使我们置身于信息爆炸的时代,同时也导致文本信息过载的问题变得更加严重。通过互联网我们能够快速获取海量信息,但网络中文本含有大量的冗余数据,自动文本摘要的目的是提炼出文本的关键内容并生成简短摘要,能够有效提升用户的使用体验,故颇具研究意义。目前,基于深度学习的自动文本摘要技术已经取得了不错的发展,但是受限于软硬件条件和模型复杂度的要求,在文本较长的情况下相关算法还是存在许多不足,并且生成的摘要难以充分覆盖源文本的关键信息。本文主要基于深度学习技术,设计合适的模型架构和训练策略,有效改善单文档中长文本输入的生成式文本摘要效果。本文的主要工作和研究成果如下:本文基于序列到序列基础架构设计生成式自动文本摘要模型,借助迁移学习的思想,提出了基于预训练模型的生成式自动文本摘要算法,有效增强了摘要模型的文本表示和特征抽取能力。并且,本文引入多任务学习,针对性地设计了三阶段训练策略:第一阶段使用抽取式文本摘要任务对模型的编码器部分进行微调;第二阶段使用生成式文本摘要任务对整个模型进行训练;第三阶段使用多任务学习对抽取式和生成式文本摘要任务进行联合建模并训练,最终在真实数据集上取得了较好的效果。此外,针对长文本输入,本文放弃对长文本使用截断策略,而是通过无监督的关键句抽取算法得到关键句,从而将其压缩为短文本,然后在短文本的基础上运用模型生成摘要,减少长文本中关键信息的损失。并且,为进一步增强模型的关键信息抽取能力,本文构建了关键词抽取数据集,将关键词抽取任务转换为分类任务,在基于卷积神经网络搭建的模型上进行分类训练,最终将得到的关键词作为摘要模型的额外输入,用于优化注意力机制的权重分布和指针网络的概率计算过程,有效增强模型的关键信息抽取能力。本文在中文和英文公开数据集上进行测试,详细验证了文中所提出的算法和各项改进策略的有效性。实验结果表明,相较于一些基线模型,本文提出的算法能够在多个方面获得提升,并最终取得了较好的摘要结果。
其他文献
曾报告过中国拟青霉(CN80—2)的药理作用,本文仅报告它与生育调节有关的实验结果:1.雄性小鼠以CN80—21.08g/kg×14d灌胃(PO)后,再与雌性小鼠合笼交配,结果怀孕率与胎仔
<正> 十六、年年有福年年有福是以鲢鱼的“年”,豆腐的“福”,平菇的“平”之谐音,组建而成,用砂锅烩制,不仅营养素丰富,而且味很适合老人为寿宴上乘之佳味。 (一)原料:花鲢
最近几年,我国地震应急救援能力得到了很大程度的提升,但缺陷也同时存在,还有很多工作亟待改进。反思并解决这些问题至关重要,它对以后应急救援在突发自然灾害前的表现起着不可估
本文报道了用塑料袋生产菌种或进行栽培的一种包装、封口新方法。此方法的关键是在培养基包装扎口时,用一根硬质材料将袋口插入事先打好的培养基中央孔内。经10万袋各种菌种
<正> 利用资源丰富的野草栽培毛木耳,从根本上解决了生产上的原料问题,为代料栽培食用菌开辟一条不受林木资源制约的新途径。经我场三年多野草荫棚筒栽试验及各示范点大面积
本文采用Ames试验和微核试验对食用蘑菇进行了致突变性研究。两种试验结果均为阴性,说明食用栽培蘑菇无致突变作用。
目的分析胎儿右位主动脉弓产前超声的相关异常、遗传物质改变及其预后。方法回顾性分析2013~2016年在本院产前超声诊断的右位主动脉弓并采用AffymetrixCytoScan HD行染色体微
本文在分析开展茶树健身栽培的重要性的基础上,从茶园生态建设、植物检疫、选用优良茶树品种、增施有机肥、合理修剪与及时分批采摘、茶园耕作与地面覆盖7个方面,阐述茶树健身
随着电力体制改革与电力市场对外开放程度加深引起的行业升级,无论在建设规模还是资源集中方面,都有了更多的要求,因此给竞争者提供了许多抢占市场份额的机会。企业从早前单