面向主题的文本摘要生成研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:shao402248950
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术就是对给定的单个或者多个文本进行总结概括,得到文本摘要。摘要既要能够反映原文档的主要内容,还要尽可能地保持简洁明了。最近几年,由于deep learning技术的快速发展,文本摘要技术也有了很大的改变,不再是只有传统的抽取式文本摘要技术,而是转变为抽取式与生成式共存的文本摘要技术。当原文档中存在多个主题共存这种情况时,目前大多数生成式摘要方法会对这多个主题的内容进行较为全面的总结和概括,尽可能地生成包含这些主题的文本摘要,而无法生成关于其中某个主题更为详细的摘要。针对这个问题,本文提出了一个面向主题的文本摘要生成方法。该方法将给定特定主题,在解码端利用注意力机制将特定主题与文本自身所包含的主题进行主题信息融合,使得那些本身包含了特定主题的文本得到了较大的注意力权重,从而得到内容与特定主题更为相关的文本摘要。本文的主要研究内容如下:(1)本文基于神经网络中的序列到序列模型,对模型进行改进,在解码端引入注意力机制,从而使得解码器对输入信息有针对性地生成一组注意力权重,从而可以对输入文本中不同部分的不同语义内容来生成不同的摘要,并且文本摘要在情感上更能体现。在YELP数据集上进行了实验验证,实验结果验证了本文对模型的改进确实有效。(2)基于在序列到序列模型的改进之上,提出面向主题的文本摘要生成方法,引入主题概念及其向量表示,利用注意力机制结合主题信息,从而得到面向主题的文本摘要生成模型,并对模型中的主题信息的向量表示、编码器和解码器进行了详细地分析,使得程序运转流程简洁明了,数据流向清晰,为进一步实验打下了基础。(3)在大规模英文文本数据集YELP上进行实验验证,面向主题的文本摘要生成方法与基准方法进行了实验对比,实验结果验证了本文所提方法的可行性和有效性。
其他文献
脑血肿与脑肿瘤会对颅内正常组织会造成挤压效应,严重损害中枢神经,进而危及病人生命安全。治疗脑部病灶的手段一般为神经外科手术,医生需要在术前阶段对病灶医学影像进行诊断分析,常用医学影像分割技术辅助处理。然而,分割算法仍存在许多挑战与困难。在脑血肿分割中,病灶与正常组织之间边界模糊、灰度信息上表现相似,造成分割结果包含了正常组织,容易发生误诊现象;在脑肿瘤分割中,肿瘤包含浸润水肿部分、肿瘤核与坏疽部分
阿尔茨海默病(Alzheimer’s disease,AD)是一种最常见的脑组织神经疾病,其患者病症具体表现为记忆和思维能力的退化以及个人行为能力和社交能力的退化,且患有AD的人通常会伴随其它生理疾病。因此,AD的早期识别诊断对于减缓病情发展具有重要意义。针对阿尔茨海默症不同阶段人群难以识别的问题。本文首先使用卷积神经网络(Convolutional Neural Networks,CNN)方法对
在互联网信息技术迅猛发展的大背景下,在线学习资源开始大量涌现,导致诞生了更加丰富多元化的网络学习方式和教育手段,但是丰富的在线学习资源易造成“信息超载”这一现象的产生,导致学生在通过网络在线学习资源进行知识内容的学习时,容易产生“知识迷航”的问题。正因如此,关于个性化学习推荐领域的研究正成为热点。首先,本文提出一种二级结构知识地图。在学习者进行学习课程时,这种结构能够指引学习者更为充分了解课程的知
随着铝型材在国内建筑、汽车、制造等行业的广泛应用,中国已经成为全球最大的铝型材产地和消费市场。而挤压加工是铝型材生产中核心环节,其工艺参数直接决定铝型材的生产成本、效率和能耗,这与《中国制造2025》政策要求、企业发展需求密切相关,所以优化挤压工艺参数使得多个目标值达到最优成为铝型材研究领域的热点。传统的方法依靠经验或物理公式建立工艺参数与优化目标之间的映射关系十分困难,而且难以根据近期生产情况迅
目标检测在近年来一直都是众多学者研究的热点问题。其目的是对自然图像中的实例对象进行分类并找出实例对应位置的包围框,在医学图像检测、人脸识别、视频监控等领域都有着非常广泛的应用。传统的目标检测技术都是建立在大量带有精确注释的图像数据集基础上,然而收集并标注该类数据耗时耗力,相较之下,基于弱监督学习的目标检测仅利用图像级别注释信息的数据即可完成目标检测模型构建。图像级注释仅需标注图像中的类别信息,不需
协同致死关系是基因之间的一种特殊的相互作用,当构成协同致死关系的两个基因同时产生缺陷时,会导致细胞的死亡。利用协同致死关系开发靶向抗癌药物是现代癌症治疗理论中重要的一环,在传统的生物学实验中需要通过RNA筛选等手段探测未知的协同致死基因对,而这些实验存在成本高昂以及效率低下等问题。通过计算方法预测协同致死基因对可以为生物学实验提供目标指导,从而提高探测实验的研究效率,在一定程度上降低实验成本。随着
在晚间,多数无课程与活动安排的教室会被学生自习使用。一般情况下,用于晚自习的教室在所有教室中所占的比重较高,但平均每间晚自习教室的座位占用率较低,容易造成电能的浪费。因此,有必要对晚自习教室进行调度,提高整体的座位资源利用率。在晚自习时,学生越发关注空间上的舒适感能否被满足,即有没有足够的自习空间。当前,缺乏考虑学生晚自习所需空间的教室节能调度研究。本文通过采集与分析晚自习相关的数据,对学生微观选
在计算机视觉中,迁移学习称为领域自适应。通常,数据选自于两个有所差异的数据域,分别是源域、目标域。这两个数据域的差异在于其中数据的特征分布或者所在的特征空间不同。领域自适应的目的是从有足够标注数据的源域中学习知识来帮助没有(或只有少部分)标注数据的目标域进行模型的学习。领域自适应可以有效解决特征分布不同时的跨域识别问题,大多领域自适应方法将两个域的特征投影到子空间,在子空间进行分类器的学习,以取得
随着互联网技术的发展,互联网几乎融入社会的所有行业,并逐渐成为我们生活、学习、工作中必不可少的一部分。作为当今最热门的Web程序开发语言,PHP语言具有成本低、速度快、可移植性好等优点,被广泛应用到互联网应用开发中。伴随Ruby On Rails出现,PHP也涌现出Laravel、Symfony、Yii等优秀的开发框架,并从开始的模仿逐渐过渡到拥有自己特有的风格。但是当前主流的PHP开发框架还是存
注意力缺陷伴多动障碍(Attention Deficit Hyperactivity Disorder,ADHD)是一种常见的儿童神经发育障碍,表现为注意力不集中、过度活跃和冲动,严重影响儿童的日常学习和生活。目前医生主要依靠临床观察和评定量表来进行ADHD的诊断,定性诊断占比高,使得结果具有较大主观性。由于临床上仍然缺乏客观有效的ADHD量化评估方法,对症状较轻微的患者容易造成误诊或漏诊。近年来