Seq2seq attention:超长中文文本摘要模型

来源 :广东财经大学 | 被引量 : 0次 | 上传用户:yangzdh2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
是自然语言处理里面的一个热点前沿问题,已有的方法进行长文本摘要时存在准确率低的问题。基于长短期记忆单元(long-short term memory,LSTM)的Seq2seq(sequence-to-sequence)深度学习技术在自然语言处理中取得了令人瞩目的效果。本论文致力于构建改进的Seq2seq网络模型来处理中文超长文本自动摘要。本论文主要工作由以下几个部分组成:第一,给出并实现了一种用于超长中文文本摘要的注意力Seq2seq网络模型。第二,针对目前国内长文本摘要的研究相对较少、当前可用的中文长文本摘要数据集缺少的问题,本文选取搜狗实验室的新闻数据集,对数据进行预处理,得到可以用于网络训练的超长文本数据集,并构建了词汇表。第三,模型指标值对比实验:以随机选取的50个样本作为测试样本,使用rouge-1,rouge-2,rouge-L指标作为评测指标,分别用本文改进的Seq2seq模型,Textrank模型和TF-IDF模型对样本进行预测研究,并算出对应的rouge值,对各个模型的rouge值做了对比实验,实验结果表明,相比Textrank算法,本文模型的Rouge-1值提高了0.64左右,Rouge-2值提高了0.59左右,Rouge-L值提高了0.66左右;相比TF-IDF算法,Rouge-1值提高了0.67左右,Rouge-2值提高了0.61左右,Rouge-L值提高了0.69左右。生成对比实验:分别将本文的模型,Textrank算法和TF-IDF算法在同一段超长文本上进行预测研究,并做了对比实验,最后得出,本文的模型和Textrank模型的效果都不错,都能够提取指明中心主旨的语义特征,两者的效果也都要优于TF-IDF算法。此外,本文的模型对摘要的概括性更好,预测出来的摘要要更加简明扼要。
其他文献
近年来,随着计算机计算能力的飞速提升以及大规模可用数据的出现,人工智能技术得到了大踏步的发展。其中,对话系统作为人工智能中重要分支--自然语言处理(Natural Language Processing,NLP)的主要研究方向之一,也逐渐受到学界和产业界的关注并成为当前的研究热点。目前,针对对话系统的研究虽然取得了一定的进展并将相应的技术成果应用于客服对话、法律咨询、虚拟助手等实际场景中,但是仍然
贞观二十年(646年),唐太宗下令重修《晋书》,三年后,《晋书》撰成,原有的十八家晋史皆亡。因此《晋书》成为我们了解两晋史事的主要历史文献,其中《晋书》“帝纪”则是我们研究两晋帝王的基本史料。以诸家晋史和唐修《晋书》“帝纪”相对照,可以发现,唐以前诸家晋史多以司马懿为首,因此关于西晋从何人开始写起这便涉及到修史断限。晋初,大臣们对此争论不休,意见不一,最终采纳贾谧的意见。那么诸家晋史为何多以司马懿
近年来,越来越多的家庭用户接入分布式电源,实现了用户从能源消费者到“产消者”的转变,这使得用户能够自主管理发用电以实现效用最优。然而,由于风、光等分布式能源出力和用户用电行为的不确定性,如何有效实现家庭用户电能供需平衡成为目前亟需解决的问题。考虑到储能和电动汽车充放电行为的可控性和灵活性,可采用车-家互动技术并配合储能系统来解决家庭微网内源-荷双端协同调度问题,并采用点对点交易方式在多个用户间开展
近年来,利用CT(Computed Tomography)技术对精密零件内部尺寸高精度测量已逐渐成为产品质量控制的重要技术手段。在工程实际应用中,通过CT图像测量工件几何尺寸等参数时,由于待检工件材料和结构的差异、以及CT设备射线能量等性能不同,导致重建图像质量不佳,存在不同程度伪影,从而严重影响图像分割以及高精度测量。因此,如何改善工业CT图像质量,提高精密零件工业CT图像高精度测量一直是工业C
随着电机技术的发展,分布式驱动电动汽车因其响应快速、可靠性高、驱动灵活等特点引起了广泛关注,同时促进了车辆横向稳定性的发展。但车辆在极限工况下易因轮胎非线性动力学特性而出现失稳现象,威胁驾乘人员的安全。因此,进行分布式驱动电动汽车在极限工况下的稳定性分析与控制研究是十分必要的。随着自动驾驶技术的发展,稳定性这单一控制目标的研究不再满足实际需求。而路径跟踪作为极限工况下另一难题,其与稳定性的协调控制
加筋土边坡相比传统边坡具有诸多优势,其在水利、道路、环境等工程领域得到了广泛应用。研究表明近场地震动含有较大的竖向分量,可能影响土工结构在地震作用下的稳定,但现行的大多数设计规范并未予以充分考虑。此外,加筋土边坡在双向地震动作用下的抗震机理存在模糊之处,可能带来较大的安全隐患。因此,有必要针对双向地震动作用下加筋土边坡的动力特性开展研究,探明其背后的响应规律,这对加筋土边坡在我国的合理应用具有重要
近些年来,随着信息时代的快速发展和科技技术的不断进步,人们对定位导航的位置服务需求变得越来越大。虽然全球定位系统GPS(Global Positioning System)和北斗等卫星导航系统能够在室外环境中提供较为精准的定位服务,但是当目标处于建筑群或者室内环境中,GNSS接收器接收到的信号质量较差,使其定位精度大幅度降低甚至会导致无法进行定位服务。近些年来,为了实现复杂室内环境下的定位服务,各
企业避税是一种复杂社会行为,会计学、经济学和法学等学科都存在对其各自不同角度不同目的不同方法的阐释,本文以经济学为主线对企业避税行为的机理和识别在学理上进行了一些初步探索。第一章描述了企业避税的内涵和外延,分析了企业避税的概念、成因和主要表现形式。在企业避税的定义上,各相关学科研究中有很多角度不同的界定。本文对企业避税的定义:企业形式上遵从税法,通过合理化相关行为但实质违反诚信原则,脱离税法规制,
卡宾作为一类高活性的反应中间体,一直以来都是热门的研究领域。获得传统卡宾中间体的主要手段是通过重氮化合物的分解,近年来,具有安全,低毒,底物多样性等特点的炔烃作为卡宾前体的研究受到越来越多化学家的重视,并且成为卡宾化学的重要分支之一。本课题主要研究了具有多重不饱和键的炔类化合物经历环化反应和卡宾转移反应的工作。在研究过程中,分别发现了铂催化下炔烃产生呋喃卡宾中间体经历炔基迁移和邻硝基炔烃作用产生自
匿名网络通信是一种具有高度匿名性的网络通信方式,因此广受匿名需求用户的欢迎。然而,攻击者仍然能够通过匿名网络中的通信流量数据挖掘泄露的隐私信息,构建相应的分类器进行用户行为的关联分析。构建匿名网络流量指纹模型,以此进行流量分析的被动攻击方式是一种主要的去匿名化攻击方法。然而结合深度学习分类器模型的去匿名化攻击方法仍然有诸多问题。针对现有深度学习攻击模型在处理长指纹序列上特征提取不充分的问题,结合时