基于知识图谱及深度学习的标题自动摘要研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:mikelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻行业及短评文章需要大量标题型摘要,不仅对新闻编辑人才提出需求,还在很大程度上影响受众的用户体验,限制新闻媒体行业智能化发展。因此,标题摘要技术对于新闻媒体传播发展至关重要。技术可以视为传统长文本摘要的一个分支,核心是根据正文信息抽取或生成能够概括全文的高质量标题。抽取式摘要通过评估原文中句子的重要度,由原文中提取重要度高的句子组成,而生成式摘要则使用了一系列自然语言处理技术,由计算机生成更加简明干练的句子构成。深度学习网络相比于传统抽取式摘要方法能够保留更多的语义信息,与抽取式自动摘要相比,生成式自动摘要更符合人类撰写的习惯,有着简洁、灵活、多样性等特点。论文主要研究基于深度学习及知识图谱的摘要生成方法,并设计完成了两种基于深度学习的摘要生成系统,主要工作如下:(1)基于深度学习Seq2Seq框架下的摘要生成。首先对清华新闻数据集及爬取的新闻数据集进行清洗分类后,分别以字向量与词向量路线展开研究,技术上分别采用卷积神经网络、LSTM网络和BERT预训练模型对文本进行深度特征提取,并结合注意力机制、指针生成网络、Beam Search等技术优化模型。通过实验对比,本文提出架构能生成更为优质的标题。(2)提出基于传统生成式摘要与抽取式摘要结合方法,将Textrank与TFIDF算法用于文本预处理阶段展开研究,通过实验证明该方法使得数据利用率得到有效提高,能够使得下游任务能够获得更多更优质的数据集。(3)有效结合知识图谱语义知识,使得标题摘要生成效果显著提升。为了提高文摘的专业化程度及可读性,融合知识图谱三元组知识特征,在LSTM网络及BERT预训练模型上分别提升和优化,通过实验证明,融合知识图谱三元组知识特征后,能够生成更为优质的专业化标题。
其他文献
1病例资料患者,男,61岁,2019年6月因"发现右肺上叶占位5 d"就诊于湖北省肿瘤医院,CT下经皮穿刺活检病理:腺癌。完善诊断为右肺上叶腺癌cT2N3M1(肝脏)Ⅳ期,(组织)肺癌7基因均为阴性。6月26日—10月25日给予"培美曲塞+顺铂+帕博利珠单抗"方案治疗6周期,疗效为部分缓解(partial remission,PR)。2019年11月14日—2020年1月9日行"培美曲塞+帕
复杂网络广泛存在于现代社会的各个领域,其结构与性质特点已经成为当前研究的热门领域。计算机技术自上世纪诞生以来,已经深入现代人生活的方方面面。其中现代软件技术的发展使得软件结构日趋复杂化,令其开发和测试越来越困难,质量也越来越难以评估和保证。为了解决目前软件发展中存在的研发周期过长,测试投入人力物力不断增大,软件质量仍然无法得到可靠保证,需要通过长期的更新版本或发布补丁来不断修正等软件危机,发展出了
随着全球卫星导航定位系统的发展,基于多星座卫星导航系统兼容定位是未来导航领域的发展趋势。目前对比较成熟的GPS、GLONASS两个相对独立的卫星导航系统的研究会对将来我们国家的北斗二号定位系统与其它系统兼容定位有一定参考意义。用户可以根据实际需求采用不同的星座系统组合进行兼容定位,从而避免采用单一星座系统定位时对该特定星座的过分依赖,星座的增加必然会带来卫星个数的增加,参与定位的健康的卫星越多能使
随着信赖域方法的快速发展和对其应用前景的日益重视,国内外对于信赖域的改进算法的研究越来越多、越来越深入。在信赖域子问题中利用锥模型代替普通的二次模型的做法近年来受到很大的关注,如何求解这样一个模型也成为了亟待解决的问题。在本文中我们尝试应用半正定松弛技术解决这一难题。本文主要探讨的是带锥模型的信赖域子问题的求解。我们针对具有良好定义的新型锥模型信赖域子问题,提出了一个能有效地解决此问题的算法:首先
随着移动通信产业的高速发展,人们对于更低时延和更加丰富的移动应用需求与日俱增。因此,为了提供更加多样更高质量的应用服务,摆脱用户设备的资源限制,移动边缘计算(Mobile Edge Computing,MEC)应运而生。移动边缘计算是将计算能力从云端下沉到网络边缘节点(MEC节点),用户通过接入这些边缘节点获取需要的服务。由于大量智能设备的涌入,需要大量的MEC节点提供相应的服务。然而部署过多的M
随着智能变电站的广泛应用,作为常被应用于其中的设备电子式互感器,在信号数据采集时经常处于复杂的电磁环境中,电子式互感器出现故障的情形已愈发平常。因此针对电子式互感器受到的电磁干扰进行研究具有较大意义,并且找到抑制方法防止此类事故再次发生。GIS隔离开关产生的VFTO通过不同的耦合方式会对电子式互感器产生较大的电磁干扰。本文主要针对VFTO对互感器产生的传导干扰和辐射干扰影响以及对应的抑制方法进行研
随着我国电网的发展逐渐呈现出高电压、大容量、远距离输电的新特点,电力系统的规模愈发庞大,其结构以及运行方式也变得愈加复杂。在此背景下,柔性交流输电(FACTS)技术由于控制方式灵活,并有利于提高电力系统的稳定性与可靠性,改善电能质量而得到了广泛的研究与应用。作为FACTS装置的典型代表,静止无功补偿装置(SVC)能够快速调节系统的无功功率和维持节点的电压稳定,可大大提高系统的电压稳定性,因此在电力
随着社会的进步和发展,互联网应用逐步深入人们生活的方方面面,电子在线投票也逐步得到人们的广泛关注和重视。电子在线投票系统通过在线投票的方式,可以跨越空间距离、不受时间限制,也使投票活动不需要聚集到固定场所,以高效且极大的灵活性,得到广泛的认可。但另一方面,在线投票方式使投票者失去了对投票过程的知情权和监督权。在线投票后,投票者担心投票数据被篡改,而投票者无法查证甚至无法知晓,因而产生对投票结果的不
X射线计算机分层成像技术(CL)适用于印制电路板、电子芯片、生物化石、飞机机翼等板状构件的成像检测。本文研究一种正交直线扫描CL成像系统,研制以UMAC为核心控制器的分层分布式正交直线扫描CL控制系统,并开展扫描成像实验研究,具有重要的应用价值。论文的主要研究工作如下:(1)进行了正交直线扫描CL成像相关理论和图像重建算法研究。以直线扫描CT成像理论为基础,建立了正交直线扫描CL的成像方法几何模型
随着不可再生能源的日益消耗,海洋石油气资源的开采规模愈发扩大,海洋平台提升齿轮箱作为自升式海洋平台升降装置中的重要组成部分,行星轮系作为齿轮箱的主要结构,其传动系统的啮合特性对其承载能力、寿命和振动噪声动性能具有十分重要的影响,因此关于行星啮合性能的研究备受关注。本文以提升齿轮箱四级NGW型行星传动为研究对象,在分析其传动原理与强度校核的基础上,建立行星传动系统啮合分析模型,对各级齿轮副的啮合特性