基于BERT的新闻短文本分类方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:ouyang1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据规模越来越大,并且具有多样性和低信息密度等特点。这样的背景下,互联网内以文本形式存在的新闻数量繁多,而且难以进行管理。现阶段,处理文本数据的方法以BERT等预训练语言模型为代表,这类模型具有深层并且复杂的内部结构。BERT等模型在训练阶段先在大规模语料库上进行预训练,再根据不同的下游任务进行微调,相比于传统方法,这类方法拥有更强大的性能和更好的迁移性。本文重点研究BERT预训练模型,通过微调实现新闻文本分类。结合新闻文本的特点,研究了 BERT的内部原理、训练方式和输入特征,提出了针对输入处理过程的调整策略。实验阶段,在提取的THUCNews子集上完成了微调训练,并进行了与基准模型的对比实验以确定最佳输入处理策略。使用能体现精确率和召回率整体性能的F1分数作为实验指标,在测试集上F1分数达到了 0.956,该结果表明BERT比其他基准模型有更好的分类效果,通过分析也发现了该模型存在训练盲区、灾难性遗忘和过拟合等问题。针对BERT模型存在的问题,依据模型结构特点和相关理论提出了 N-BERT模型。该模型引入了对抗训练、动态学习率和分层自适应调节等机制,其中对抗训练通过构造对抗样本解决训练盲区问题、提升鲁棒性;动态学习率通过调整不同阶段的学习率减少过拟合;分层自适应调节通过对不同层级的学习策略进行划分来缓解灾难性遗忘。在此基础上,还应用集成学习构建了由N-BERT、Bi-LSTM-Attention和TextCNN组成的融合预测网络,进一步提升模型的泛化能力。在实验阶段,针对几种改进方法进行了对比实验,引入的几种方法都能使F1分数有不同程度的提升,应用集成学习的融合预测网络在测试集上F1分数达到了 0.973。结果表明,N-BERT相比BERT具有更强的分类性能和稳定性,同时集成学习可以有效地提高模型的泛化能力。
其他文献
钛合金因其质量轻、耐腐蚀等优异性能,广泛用做发动机或汽轮机叶片及螺栓紧固件等关键部件的制造材料。钛合金属于难变形材料之一,其成形品质影响着钛合金产品的服役性能,而产品质量因其成形工艺、成形设备性能及材料特性的不同使产品的成形性和力学性能等方面有较大的差异。锻造是关键构件材料成形的主要方式之一,不同的锻造工艺和设备对锻件的性能有着不同的影响,选择合适的锻造成形方案对提升钛合金的服役性能非常重要。因此
湿陷性黄土地基处理是岩土工程领域特殊土处理的重要研究课题。粉煤灰水泥注浆加固桩作为一项湿陷性黄土处理技术,既可解决粉煤灰存储问题,又可降低水泥用量。其设计方法与计算理论等相关理论并不完善。论文以复合地基现行地基处理相关规范、工程实践经验为依据,通过理论分析、室内缩尺试验和数值计算对这类复合地基承载、变形机理进行研究。主要研究内容如下:(1)通过理论研究,系统分析了复合地基加固机理、沉降理论以及破坏
我国西部地区滑坡治理 直是科研人员面临的研究难题,传统的直线排桩结构在黄土边坡支护工程中应用广泛,但仍存在受力不合理、资源浪费及土体污染等问题。针对传统抗滑结构的局限性,本文提出选取毛竹管混凝土作为抗滑结构桩身的主要材料,将结构改为拱形布置,并在桩顶增设连梁,提高结构的刚度与稳定性,通过理论分析、模型试验与数值计算证明结构的合理性与可行性,主要研究工作与成果如下:(1)分析竹管混凝土构件的承载特性
钢丝绳广泛应用于煤矿大型提升、运输等装备,使用过程中不可避免地产生断丝等损伤,使承载能力下降,导致发生断绳事故,影响煤矿安全生产。因此,钢丝绳损伤检测至关重要。本文针对钢丝绳断丝损伤定量检测问题,深入研究钢丝绳励磁结构模型、漏磁信号降噪方法,以及断丝信号特征提取与定量识别方法。根据矿用钢丝绳材料特性、磁化特性曲线以及工作环境,完成了励磁结构模型的重要参数确定,建立了初始磁化结构模型,分析不同磁化模
在物质丰富,人民生活富裕的今天,一件产品若仅仅可以满足使用功能方面的需求已经得不到消费者的青睐,消费者对产品的需求层级正在逐步上升。产品只有在满足使用功能的前提下,同时满足消费者的感性需求,使消费者得到精神上的满足和享受才有长远发展的保障。感性工学是近几年来研究产品造型感性表达的主要方法,其结合感性因素与工学设计于一体,强调基于人的感性分析来设计产品。通过此方法,可以在新产品的开发中选择最合适的感
液压支架作为现代煤矿开采中的主要关键设备,其主要作用是在综采工作面中起到人员和采运设备的安全保障作用。液压支架的支撑和所有动作的执行均由各种以乳化液为介质的液压油缸完成,油缸内配合面之间密封圈的损伤会导致密封功能的失效,进而引起油缸的串液和泄漏,造成整个液压支架功能的失效。对密封圈损伤及失效机理的研究对提高井下液压支架密封可靠性具有重要意义。本文以液压支架活塞杆用蕾型密封圈为研究对象,对液压油缸乳
本文以液压支架用阀组中的纯水介质液控单向阀做为研究对象,采用理论分析、参数计算、有限元模拟仿真、试验等方法,对其进行了系统的研究。论文设计了适用于纯水介质液控单向阀的结构、分析了阀工作过程中的动态特性;研究了阀口结构对产生气穴的影响;对四种阀口结构进行了仿真分析,通过仿真结果优化阀口结构,设计出抑制气穴能力强的液压支架水介质液控单向阀;构建了液控单向阀性能检测实验台的整体方案,并设计了测试系统的数
随着我国智慧矿山建设的不断推进,矿井电网负荷不断增高。煤矿电网的安全性的问题日益突出,而漏电保护是井下重要的安全措施。我国煤矿10kV/6kV供电电网采用中性点不接地或经消弧线圈接地的运行方式,如果某一相发生单相接地故障时,由于零序电流微弱,且零序电流不确定方向,故障线路不易判断,从而易导致开关误动作或拒动。研究保护方法对保证煤矿供电安全有着重要意义。目前的选线有很多方法,常用的有稳态分析法、暂态
TC4钛合金比强度高,抗腐蚀性好,同时具有较好的蠕变强度、持久强度以及疲劳强度而被作为汽轮机叶片的首选结构材料。然而,在大型汽轮机的中高压级往往具有较高的温度,TC4钛合金不可避免的会发生蠕变变形。材料的蠕变性能不仅与服役环境有关,还与相关的成形工艺紧密相关。在工业领域中,装备中承载的核心零部件大多采用锻造塑性成形,考虑效率和成本的问题,目前TC4钛合金的锻造塑性成形更多采用的是非等温锻造。已有的
TC4钛合金由于其优秀的综合性能而被广泛应用于航空航天、海洋船舶以及大型核电领域,并作为装备中核心零部件的重要结构材料,其成形方法多采用锻造塑性成形。严苛的服役环境和高标准的服役需求,使得TC4钛合金的疲劳寿命愈显重要。TC4钛合金热导率低、应变速率敏感以及锻造温度范围窄,极大的增加了 TC4钛合金的锻造加工难度,容易导致锻件质量不稳定,进而威胁零部件服役的安全性和可靠性。因此,深入研究不同锻造工