【摘 要】
:
随着社会的不断发展,信息呈现爆炸式增长,同时由于人力成本的逐年上升,因此对于从大量文本中快速获取文本信息并帮助总结文本的能力便成为了相关工作人员迫切需要的一个的需求。而随着深度学习技术的不断发展,自然语言处理技术也得到了不断的发展,特别是使用自然语言处理处理摘要和文本改写方向更是成为了研究热点。基于以上背景,本文设计与实现了一套基于BERT的辅助阅读系统,能够有效地辅助用户获取原文重要信息,同时生
论文部分内容阅读
随着社会的不断发展,信息呈现爆炸式增长,同时由于人力成本的逐年上升,因此对于从大量文本中快速获取文本信息并帮助总结文本的能力便成为了相关工作人员迫切需要的一个的需求。而随着深度学习技术的不断发展,自然语言处理技术也得到了不断的发展,特别是使用自然语言处理处理摘要和文本改写方向更是成为了研究热点。基于以上背景,本文设计与实现了一套基于BERT的辅助阅读系统,能够有效地辅助用户获取原文重要信息,同时生成一份总结概括示例。本文对辅助阅读系统的实际需求与工作流程做了详细的分析与介绍。系统的实现存在着许多挑战,面对不同的挑战,本文首先使用了更加细粒度的句子拆分,使摘要的最小单位变得更小,因此结果也就更加准确;本文采用了BERT这个目前最为流行的语言模型作为文字表示模型。首先使用微调后的BERT生成句子表示,通过一个改进后的CNN——DGCNN来判断是否为摘要句,随后使用NEZHA来改写摘要,作为源文本的改写总结。本文还使用了Elasticsearch+模型模糊生成的混合策略来完成模糊检索的功能。最后采用Spring Boot、Mysql、Elasticsearch等开发技术完成系统的开发。系统划分为5个核心模块,摘要生成模块用于获取用户上传文本的抽取式摘要;数据管理模块用于管理和维护后台数据;文本改写模块用于将摘要重新改写成连贯的总结;自动标签系统用于为文本智能打标签以方便用户查看;智能检索模块负责混合检索关键词,为前端返回最合适的搜索结果。本系统能够帮助用户快速的获取目标文本的核心句并给出文本对应的标签,并给出一个改写总结。减轻了用户阅读大量本文以及二次创作的负担。系统以网页形式构建前端界面,贴合用户实际使用场景,提供了人性化的交互方案,能够显著提高用户的工作效率。
其他文献
随着高校毕业生就业难问题越发突出,如何有效地预测毕业生的就业情况越来越受到大学生和就业指导部门的关注。更好地引导高校毕业生选择合适的就业发展方向,不仅是对我国人才资源的有效利用,也是对我国教育事业的一大推动。在当前的就业预测中,学习成绩作为关键特征,在就业预测中起着决定性作用。而大多数研究主要使用平均学分绩点(GPA)和自编码器来表示学习成绩,这两种方法可以很好的解决成绩的异质性和成绩矩阵的稀疏性
多元关系存在于各种领域中,可以给人类探索这些领域提供有效的帮助。例如医药领域中的生物反应关系可以帮助人们寻找对抗疾病的药物,检测社交网络中的虚假新闻传播关系可以帮助人们避免流言和欺诈。然而目前大多数的深度图学习算法专注于使用二元关系对图进行表征,或是将多元关系拆解成多个二元关系来考虑。使得表示学习结果遗漏或是完全缺少多元关系信息,得出错误的结果或是影响模型的效果。为了解决以上的问题,本文设计并研究
最先进的语义分割方法需要足够的标记数据才能获得良好的结果,并且在没有微调的情况下很难在看不见的类上工作。因此,为了解决这个问题,提出了小样本语义分割,通过快速学习少量带有真值掩码的样本,从而适应训练集中未出现过的新类别。本文提出的方法分为三个部分,第一个部分为特征迭代优化模块,因为现有的小样本语义分割方法主要采用全局池化操作来生成原型特征,这种操作会使网络完全放弃当前对象的空间布局,简单的混合来自
虚拟仿真技术从20世纪初就开始发展了,近几年由于虚拟仿真技术的进一步发展,诞生出了很多仿真建模平台技术,从最先的集中式仿真建模平台到后来的组件化仿真建模平台,再到如今的分布式仿真建模平台应用的持续落地。说明了该项技术能够把现代软件工程思想很好的转换为需求开发到实际的应用中去,雷达作为一个精密且昂贵的电子探测设备,在现实中直接研究其性能和评测分析不仅测试成本高,而且在真实环境中运输和部署难,这些无疑
随着深度学习的飞速发展,卷积神经网络在处理图像分类任务时的准确率已经超越了人类。虽然神经网络具有出色的性能,但是大多数神经网络的结构需要专家进行手工设计,整个设计过程不仅十分依赖专业的机器学习知识,而且需要漫长的试错过程。因此,神经网络结构自动化搜索成为了研究热点,然而多数搜索出的神经网络对于硬件设备的计算能力具有较高的要求。与此同时,随着移动互联网的快速发展,将图像分类神经网络部署在移动设备和嵌
工业4.0之后,IIo T(工业物联网)的发展成为我国工业转型升级的关键途径,为了解决工业物联网环境下的访问控制问题,提供安全性更好的访问控制方案是十分重要的。基于区块链的访问控制是目前分布式访问控制的有效解决方案,且在工业物联网中也有许多探索。为解决上述问题,本文提出一种结合Hyperledger Fabric区块链架构的分布式ABAC(基于属性的访问控制)访问控制方案,同时基于LSTM(长短期
随着开源软件的流行以及开源社区的发展,开源许可证的不合理使用为企业在实际使用的过程中留下了许多法律隐患,而开源许可证大量使用的原因在于基于组件的开发方式的流行,其中组件多以开源软件形式存在,在开发过程中会使用很多组件,而每个组件、每个文件都可能包含不同种类的开源许可证,同种开源软件可能存在不同版本,这些开源许可证之间可能存在一些兼容问题,因此如何对软件进行兼容性分析,如何选择开源许可证来减少甚至消
樱桃,别称“含桃”,落叶果树类中属成熟最早的树种,其果实晶莹饱满,果肉营养丰富,深受消费者喜爱。然而由于种植过程会引发多种病虫害,容易造成产量下滑以致经济效益不高。传统病虫害检测大多依靠种植户的经验判断和农业机构的专业检测,费时费力,实时性差,难以满足现代化农业的发展需求。因此实现樱桃病虫害的精准、快速检测是非常必要的,可最大限度地减少产量与经济的损失。基于上述背景,本文依托樱桃智慧种植项目,设计
目前超市连锁店存在采购成本高、采购效率低、采购模式落后等一系列问题,制约商贸行业发展。因此,本文设计研发了一款以商品集采为核心且具有招标功能的综合服务平台以解决上述问题。系统依托于科技部项目“村镇社区新型商贸连锁综合服务平台研究及示范”课题(2019YFD1101104)属科技部重点研发计划。以湖北省十堰市新合作超市有限公司为研究背景,从超市连锁店的实际需求出发进行开发设计。该系统主要包括用户信息
图像描述生成是涉及计算机视觉与自然语言处理的一个交叉领域问题,在近年来得到了广泛研究,形成了一系列基于编码器-解码器框架的典型方法。其中基于Transformer模型的图像描述生成方法,通过引入自注意力机制,大幅度提升了图像描述的质量,迅速发展成图像描述生成的主流方法。本文基于Transformer模型提出了一种多特征融合的图像描述生成方法。针对标准Transformer模型中的注意力机制没有充分