基于深度学习的长文本自动分类算法的研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:zgjcq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网作为现代信息传递的主要媒介,可实时动态提供海量多种信息,其中文本信息在互联网中的占比最大,具有表达能力强、应用场景丰富和易于筛选等特点。在通过互联网浏览信息的过程中,文本信息的有效分类对高效获取目标信息十分有益。因此,对文本信息的分类研究已成为信息处理工作中的热点。传统的文本分类器多采用计数的表征形式,虽然易于理解和实现,但其泛化能力较差且不适用于处理海量文本数据。近年来,深度学习在自然语言处理领域中取得突破,将其应用于文本信息处理有望实现文本的快速准确分类。其中新闻类文本信息具有实时性强和文本结构复杂的特点,对新闻类文本信息的分类一直以来都是文本分类研究中的重点与难点。本课题主要对具有上下文结构特点的新闻长文本分类的研究,采用新型深度学习网络模型构建高效文本分类器,提高长文本新闻信息分类的精准度,实现对互联网上海量新闻类文本信息的精确分类。本文将从以下三个要点进行研究:(1)在文本的词嵌入表示方法上,针对传统的词向量表示方法存在高维稀疏性和缺少对上下文语境依赖性,本研究采用了微调BERT语言模型动态生成词向量的方法,充分提取的上下文中语义关联信息;在文本信息的特征提取方面,针对新闻类文本信息的长文本特征,本研究选用空洞卷积神经网络(DCN)和分层注意力神经网络(HAN)对词嵌入表示中的文本特征进行并行提取,构建具有序列化特征和全局特征的BERT_HAN_DCN融合模型分类器。通过对BERT_HAN_DCN模型效果进行实验验证,最终得到融合模型的8)(6(8-1指标与单一模型BERT相比在新闻长文本数据集SougoCS和THUNews分别有2.75%和3.59%提高,训练过程中模型较稳定且未出现过拟合,证明了该特征融合方式对处理长文本分类有一定的优势。(2)为进一步提高融合模型BERT_HAN_DCN的性能,因为HAN网络Query矩阵查询出的数据具有全局统一性不能直接查询文本数据,所以本研究对HAN网络进行了改进,通过CNN提取嵌入表示层的原型向量表示并计算实例向量(instance vector),将其与句级查询向量矩阵相结合建立实例注意力机制(instance attention mechanism),构建了具有交叉注意力特征的Cross HAN(CHAN)模型。将CHAN与层叠DCN并行提取文本特征,得到BERT-CHAN-DCN融合模型分类器,对文本信息的深层次文本特征、上下文结构信息以及关键值语义信息进行进一步的提取。实验结果表明,改进模型的8)(6(8-1指标与BERT_HAN_DCN相比在新闻长文本数据集SougoCS和THUNews分别有3.34%和2.08%提升,改进模型稳定性好、分类精度高。当句子字符数超过256个,改进模型的分类精度也有一定的提高,说明了改进模型具备提取文本信息长期依赖特征的优势。(3)为解决softmax loss无法减少相同类别的差距的问题,本研究提出将人脸识别中的Arcface loss引入到的文本分类领域改进softmax loss的方法,进一步学习模型的角度裕度特征,从而提出了BERT_CHAN_DCN_Arcface模型。并将本文的所有模型的softmax替换为Arcface loss进行实验验证改进loss计算方式对提高文本分类精度有效性,最终BERT_CHAN_DCN_Arcface模型在长文本数据集SougoCS和THUNews的8)(6(8-1分别提高了0.71%和0.85%,模型迭代一次的时间比原模型分别快5s和8s。实验结果表明,对loss计算方式的改进不仅可以提高了模型文本分类器的综合评价指标,还能进一步提高该模型的收敛速度,改进loss的计算方式为文本分类领域有一定的导向意义。最后,将本文训练好的模型部署到Python的Django框架下搭建了中文长文本分类系统,设计了可实现对已输入新闻长文本进行向量转换和分类,并展示分类结果的前端页面。
其他文献
目的 使用葡萄糖变异参数建立2型糖尿病患者重度DPN发生的临床风险预测模型并进行验证,为糖尿病慢性并发症的防治提供参考依据。方法 收集2019年4月至2020年5月昆明医科大学第一附属医院内分泌二科住院治疗且符合纳入标准的2型糖尿病周围神经病变患者323例的临床资料。据感觉阈值测定结果将患者分为重度糖尿病周围神经病变(DPN)组及非重度组。使用Lasso回归模型筛选重度DPN发生的预测因子,制作列
期刊
聚酯纤维是世界上第一种工业化并广泛使用的聚酯产品,它是由对苯二甲酸和乙二醇为原料缩聚而成的,简称PET纤维。聚酯纤维生产工艺主要包括聚合、熔体输送、纺丝等部分,作为聚酯纤维生产的起点,聚合过程直接影响了纤维的性能,但其反应机理复杂,涉及变量很多,建模较为困难。本文针对聚酯纤维特性粘度的在线预测问题,提出了基于Copula函数的特征选择方法,并建立了基于经验Copula函数和混合Copula函数的即
学位
针对传统的护理床驱动方法存在的精度低、设备复杂和用户人群受限等问题,提出多种功能机制举措与护理病床相结合,构建出一套基于视觉驱动的新型护理病床体系,该系统允许患者利用眼睛操控病床的运作,有效地提高了患者的生活自理水平,解决了患者的诸多需求和所述技术存在的弊端。作为医疗康复领域的重要组成部分,该系统对提高社会医疗设施水平建设具有重要发展意义,为完善医用器械理论体系研究,促进医用护理产品研发提供新思路
期刊
超高层建筑的设计和建造过程复杂且具备较多重难点,给建设方的管理带来了诸多挑战。通过BIM的应用,可以为超高层项目的建设方提供有效的支持和辅助,实现精细化管理。以苏州中南中心项目为例,介绍了在策划前期进行的BIM组织规划,为项目的BIM应用打下基础;在开发建设过程中应用BIM解决具体问题,为建设方团队提供管理支持的实践经历;从项目组织和技术层面,探讨了如何将BIM深度融入超高层项目管理并最大化BIM
期刊
人类最容易理解和接受的信息表达形式为图像,所以保存图像内容的完整性至关重要。因此与图像修复技术有关的研究十分火热,具有广大的应用前景与商业价值,比如将该技术用于古籍文献修复、影视制作和刑事调查等领域。其中人脸图像的修复是一个具有丰富挑战性的课题,人脸存在眼睛、鼻子和嘴巴等一系列具有逻辑结构性的器官组织,对人脸图像的修复不仅仅要考虑整张人脸的合理性,还要将人脸器官的组成是否合理考虑进去。传统的图像修
学位
由于世界人口的不断增长导致了化石能源的过度利用,为了解决化石能源的匮乏以及大气中的CO2浓度逐年攀升等问题,通过各种手段捕获和转化CO2成为了研究的热点。其中,由于CO2RR(CO2还原反应)技术清洁无污染,并且可以作为再生能源的储备能源等优点,引起了人们的关注。迄今为止,很多研究者会关注催化剂的研究进展,但是所使用的H型反应器具有一定缺陷。所以,为了实现工业化,对CO2RR系统的研究与开发高性能
学位
在发放调查问卷分析招投标阶段BIM技术应用现状基础上,从技术、经济、组织、环境4个方面探索影响BIM采纳应用的因素,并结合TOE框架和信息技术接受模型(TAM)定性分析,构建招投标阶段BIM技术接受模型。最后针对目前招投标阶段BIM应用现状,提出相应对策。
期刊
<正>脑性瘫痪是一组持续存在的中枢性运动障碍和姿势异常活动受限症候群,这种症候群是在婴幼儿出生前到出生后一个月内脑发育期内由于多种原因非进行性损伤所致。同时伴有其他功能障碍或并发症。临床表现是持续存在的运动障碍和姿势发育异常及活动受限。近些年来,由于产科技术及护理技术等医学技术的飞速发展,新生儿的死亡率下降,重症新生儿救治成功率提高,经积极救治的重症新生儿发生脑性瘫痪的概率有增多的趋势。
期刊
针对我国农村教育存在的一些问题,为促进农村教育工作深入开展及带动其他产业建设,国家制定了乡村振兴战略,旨在助力乡村改革。文章针对乡村振兴背景下的农村教育工作展开探究,提出当前农村教育的不足,以及相应的完善措施,从而实现以文化建设推动经济发展的目标。
期刊
项目进度管理是工程项目的重要组成部分,并与整个工程效益挂钩。随着数字时代的到来和我国建筑业的发展,数字化和信息化已经成为项目进度管理中数字化转型的发展方向,BIM技术也得到了国家政策层面的支持。项目管理本身的动态性对于整个工程的质量、成本等方面都有影响。有研究显示,随着时代的发展,传统的建筑设计过程已经无法满足人们的需要,BIM技术则对降低工程延期风险以及为项目进度管理创造效益发挥着重要作用。因此
期刊